引言
现代人工智能的一大未解之谜是“黑盒”问题。我们知道深度神经网络行之有效——通常效果惊人——但我们要并不总是知道它们如何表征所处理的数据。模型将一只鸟分类为鸟,是因为它看到了翅膀,听到了歌声,还是因为它检测到了背景中的某种特定纹理?
为了回答这些问题,研究人员开发了各种工具来比较不同模型的内部表征。一种流行且直观的方法称为模型拼接 (Model Stitching) 。 其逻辑是这样的: 如果你能取模型 A 的前半部分,将其与模型 B 的后半部分拼接起来,并且这种“科学怪人”式的组合仍然有效,那么模型 A 和模型 B 的“思维方式”一定是相似的。它们必定是功能性对齐 (functionally aligned) 的。
这是一个引人入胜的想法。它暗示了一种“柏拉图表征假说 (Platonic Representation Hypothesis) ”——即随着模型变得越来越好,它们都会收敛于一种共享的、对现实的真实理解。
但最近的一篇研究论文*《功能性对齐可能会产生误导: 审视模型拼接》 (Functional Alignment Can Mislead: Examining Model Stitching) *给这套理论带来了巨大的冲击。作者证明了功能性对齐是一个具有欺骗性的指标。通过一系列巧妙的实验,他们展示了你可以成功地将关注完全不同特征的模型、处理不同感官 (音频与视觉) 的模型,甚至与随机噪声拼接的模型连接起来。
在这篇深度文章中,我们将探讨为什么功能性对齐可能会误导我们,以及为什么一个“适配”得完美的模型,其眼中的世界可能截然不同。
基础知识: 什么是模型拼接?
在拆解这个概念之前,我们需要了解它是如何工作的。模型拼接是一种用于衡量两个神经网络之间相似性的技术,我们称它们为模型 A (发送者) 和模型 B (接收者) 。
想象你有两个工厂。工厂 A 制造汽车,工厂 B 也制造汽车。你想知道它们的装配线是否不同。你决定从工厂 A 的中间环节取出一个半成品的底盘,强行塞进工厂 B 的生产线中间。如果工厂 B 能成功造完这辆车,你就假设这两个工厂在那一点之前的工序大致相同。
用深度学习的术语来说,我们取发送者中间层的表征 (激活值) ,将它们通过一个简单的线性变换 (“缝合层”) ,然后输入到接收者中。

如上图 Figure B.1 所示,该过程涉及冻结发送者和接收者的权重。我们只训练“缝合 (Stitch) ”层 (通常是一个 \(1 \times 1\) 卷积) 。如果拼接后的模型达到了很高的准确率,那么这些表征就被认为是“兼容的”。
普遍的观点是,如果两个模型兼容,它们一定捕获了相似的语义信息。这篇论文完全挑战了这一假设。
实验 1: 偏差陷阱
为了证明拼接会误导我们,研究人员需要一个受控环境,在这里他们能确切知道每个模型在寻找什么。他们使用了一个修改版的经典 MNIST 数据集 (手写数字) ,但加了一个扭曲: 颜色 。
他们创建了该数据集的几个变体,以迫使模型学习特定的“捷径”或偏差:
- 相关 (彩色 MNIST) : 数字和背景颜色完全相关。例如,“0”总是在红色背景上,“1”总是在绿色背景上,等等。模型可以通过看数字或看颜色来解决这个问题。
- 数字 (颜色不相关) : 背景颜色是随机的。模型必须看数字的形状才能完成任务。
- 颜色 (数字不相关) : 数字是随机的,但目标标签与背景颜色匹配。模型必须看颜色并忽略形状。
- 仅颜色 (Colour-Only) : 只有色块。完全没有形状。

目标是在这些不同的数据集上训练不同的模型,然后看看它们是否可以拼接在一起。
假设 vs. 结果
直觉上,如果你取一个仅在颜色上训练的模型 (学会了忽略形状) 并将其拼接到一个仅在数字上训练的模型 (寻找形状) ,拼接应该会失败。发送者说的是“红色和绿色”的语言,而接收者听的是“曲线和直线”的语言。
然而,结果与这种直觉相矛盾。

请看上图 Figure 2b 中的图表。研究人员将各种“发送者”模型拼接到一个“数字”接收者中。
- 蓝线: 这是拼接进去的相关 (Correlated) 模型。它工作得非常完美。
- 绿线: 这是拼接到数字接收者中的仅颜色 (Colour-only) 模型。
尽管颜色模型对形状一无所知,而数字模型期望的是形状,但拼接后的模型仍达到了接近完美的准确率 (接近 100%) 。
为什么这很重要?
这证明了拼接无法区分不同的偏差。 你可以让两个模型使用根本不同的规则来做决策——一个看背景油漆,另一个看书写的墨水——而拼接指标会告诉你它们是“对齐的”和“相似的”。
如果我们依靠拼接来验证模型是否安全或无偏差,那我们就麻烦了。一个依赖危险的种族或性别偏差 (一种捷径) 的模型,可能看起来与一个依赖合法特征的模型完全对齐。
实验 2: 拼接“虚无”
批评者可能会争辩说: “也许颜色模型偷偷学到了一些形状特征?”或者“也许形状模型偷偷学到了一些颜色特征?”
为了排除这种可能性,研究人员将实验推向了极致。他们完全移除了“真实”数据。他们创建了一个名为聚类噪声 (Clustered-Noise) 的数据集。
这不是狗或数字的图像。这是静态噪声。具体来说,他们生成了围绕数学空间中特定点聚类的随机噪声向量。如果“发送者”将这种噪声发送给“接收者”,接收者肯定会失败吧?接收者是一个复杂的神经网络,被训练来识别手写数字,而不是静态噪声。

上图展示了这种“数据”在网络眼中的样子——毫无意义的噪声。
然而, 它拼接成功了。
研究人员发现,他们可以将这些聚类随机噪声的表征拼接到训练好的网络中,并获得高准确率。这是功能性对齐的“皇帝的新衣”时刻。如果随机噪声的表征被认为与手写数字的表征“相似”,那么“相似性”这一指标在语义内容方面实际上就失去了意义。
缝合层实际上做的并不是“翻译意义”。它只是在映射聚类 。 只要发送者将数据分离成不同的团块 (即使这些团块只是噪声类型) ,并且接收者期望不同的团块,线性缝合层就能学会将团块 A 映射到团块 B。
规模升级: 鸟、狗和自编码器
到目前为止,我们讨论的是关于简单数字的玩具问题。这在庞大、复杂的模型现实世界中成立吗?
研究人员将实验扩展到了 ResNet-50 模型和复杂的数据集,如 ImageNet (识别照片中的物体) 和 频谱图 (Spectrograms) (音频的视觉表示) ,用于鸟鸣分类。
他们尝试拼接:
- ImageNet 模型 (物体的视觉识别) 。
- 鸟鸣模型 (鸟类的音频识别) 。
- 风格化 ImageNet (绘画/草图,强制形状偏差) 。

上图可视化了这些领域之间的巨大差异。鸟鸣的波形看起来与狗的照片毫无相似之处。
现实世界的结果
尽管存在这些截然不同的模态,拼接通常还是成功的。

在上面的表格中,请看 “10-class ImageNet to Birdsong” 这一行。当将一个 ImageNet 模型 (发送者) 拼接到一个鸟鸣分类器 (接收者) 时,他们达到了 88.4% 的准确率 (线性层) 。
这意义深远。ImageNet 模型处理的是狗和卡车的像素。鸟鸣模型是为处理音频频率而构建的。然而,它们是“功能性对齐”的。这意味着它们分离类别的内部几何结构在数学上足够相似,可以进行映射,即使内容完全无关。
生成模型 (自编码器)
最后,作者研究了生成模型——旨在压缩图像然后重建图像的自编码器。他们在一个模型上训练 Fashion-MNIST (服装) ,在另一个模型上训练 MNIST (数字) 。
他们将服装模型的编码器拼接到数字模型的解码器上。

结果 (Figure 4) 极其怪异且有趣。模型接收一件衬衫或一只鞋子作为输入 (左侧) ,并重建出一个手写数字。它成功地将特定鞋子的“概念”映射到了特定数字的“概念”上。
虽然这能玩出很酷的花样,但它证实了论文的论点: 这些表征在语义上并不相同。一只鞋不是一个数字。但因为拓扑结构 (数据聚类的形状) 相似,它们可以被对齐。
讨论: “聚类”假说
如果这些模型没有学到相同的东西,为什么拼接效果这么好?
作者提出,功能性对齐主要是在检查线性可分性和聚类 。
深度学习模型本质上是将数据拉开的机器。它们获取一团混乱的数据,对其进行拉伸/扭曲,直到所有的“狗”都在一个角落,所有的“猫”都在另一个角落。
- 模型 A 分离“狗”和“猫”。
- 模型 B 分离“鸟鸣”和“蟋蟀叫”。
如果模型 A 创建了两个干净的聚类,而模型 B 也创建了两个干净的聚类,一个简单的线性层 (缝合层) 可以轻松地将“狗”聚类映射到“鸟鸣”聚类。
这并不意味着狗就是鸟鸣。这只是意味着两个模型都擅长将各自的数据整理成堆。
为了证明这一点,研究人员重新审视了聚类噪声实验。他们增加了噪声聚类的半径,使它们变得模糊且不那么清晰。

如上表所示,随着噪声半径的增加 (使得聚类更难分离) ,拼接准确率下降。这支持了该理论: 拼接衡量的是数据分离得有多好,而不是数据是什么。
结论
论文*《功能性对齐可能会产生误导》*对深度学习社区来说是一个至关重要的清醒剂。当我们努力理解大型模型 (LLMs, Vision Transformers) 时,我们渴望有指标能告诉我们模型是否与人类价值观或彼此之间“对齐”。
关键要点是:
- 拼接衡量的是兼容性,而不是语义相似性。 成功的拼接并不意味着两个模型以相同的方式表征世界。
- 捷径对拼接是不可见的。 一个利用背景颜色作弊的模型可能看起来与一个真正识别形状的模型完全相同。
- 可分性为王。 功能性对齐似乎主要检测数据是否被良好聚类,而不管数据代表什么 (即使它是随机噪声) 。
这并不意味着模型拼接毫无用处。它是模块化和迁移学习的强大工具。然而,将其解释为“共享理解”或“语义等价”的衡量标准是危险的。两个模型可以使用完全不同且可能不兼容的逻辑得出相同的答案 (高准确率) 。仅仅因为碎片能拼在一起,并不意味着它们属于同一幅拼图。
](https://deep-paper.org/en/paper/11927_functional_alignment_can-1718/images/cover.png)