当机器看见我们看不见的: 理解对抗性分身
想象一下,你正看着一张猫的照片。这是一只虎斑猫。你对此确信无疑。现在,想象一下计算机看着完全相同的照片,却自信地告诉你这是一只波斯猫。你眯起眼睛,放大图片,检查每一个像素。在你人类的眼中,什么都没有改变。
这就不是那种典型的“对抗样本”故事了——那种故事里,有人在熊猫照片上添加静态噪声,让 AI 以为它是长臂猿。这是一种更微妙、更深刻的现象。这就是对抗性分身 (Adversarial Doppelgängers) 现象。
在研究论文 Doppelgängers and Adversarial Vulnerability 中,George Kamberov 进行了一次迷人的数学和哲学探索,深入研究了机器学习分类器为何会犯下让这类人类感到“在感知和认知上令人不安”的错误。该论文认为,我们目前衡量鲁棒性的方法——使用标准的距离度量——存在根本性缺陷,因为它们无法映射人类的感知。
在这篇文章中,我们将剖析复杂的感知拓扑结构,探讨为何“高准确率”实际上可能是安全的关键,并定义一类对我们来说看起来完全相同、但对机器来说却截然不同的输入。
问题所在: 两种“相同”
要理解这篇论文的核心贡献,我们首先需要区分两种类型的对抗性攻击。
经典对抗样本
机器学习社区花了数年时间研究对抗样本。通常,这些样本是通过获取图像并向其添加经过特定计算的扰动 (噪声) 来创建的。

如上方的 图 2 所示,经典攻击以一种在人类看来可能是损坏或噪点的方式改变输入。我们可以看到,与图像 (a) 中清晰的拉布拉多犬相比,图像 (b) 出现了像素化和扭曲。虽然我们可能仍然能认出那是只狗,但我们可以清楚地看到这两张图片是不同的。
对抗性分身 (AD)
现在,看看下面的 图 1 。

这两张图片是分身 (Doppelgängers) 。 对于人类观察者来说,图像 (a) 和图像 (b) 在感知上是无法区分的。你分辨不出它们。然而,MobileNetV2 分类器将它们视为两个截然不同的类别: “虎斑猫”和“波斯猫”。
这就是论文解决的核心问题。对抗性分身 (AD) 是一种输入,它在人类看来 (在特定语境下) 与源输入无法区分,但被机器分类为不同类别。如果机器在一张看起来明显损坏的图像上犯错 (如图 2) ,那是一个问题。但如果机器在一张看起来与正确图像完全相同的图像上犯错 (如图 1) ,这就揭示了人类拓扑 (我们组织世界的方式) 与机器拓扑之间的根本不匹配。
背景: 几何学的局限
为什么会发生这些错误?论文认为,我们一直用错误的尺子来衡量世界。
在大多数机器学习研究中,我们假设所有可能图像的“空间”是一个度量空间 (通常配备 \(L_p\) 范数) 。我们假设如果两张图像在像素值上“接近”,它们应该具有相同的标签。反之,如果我们想模拟攻击,我们会限制扰动的数学距离。
然而,人类感知并不遵循这些僵化的数学规则。感知是语境相关 (context-relative) 的。两种颜色在昏暗的光线下可能看起来完全相同,但在明亮的光线下却截然不同。两种声音在嘈杂的房间里可能无法区分,但在安静的录音室里却泾渭分明。
论文引入了不可区分性 (Indiscriminability) (\(\approx\)) 的概念。如果两个输入 \(x\) 和 \(y\) 在特定时间和语境下,主体无法激活所需的知识来区分它们,那么它们就是不可区分的。
这种关系创造了一个感知拓扑 (Perceptual Topology) (\(\tau_{\delta}\)) 。与距离绝对的标准度量空间不同,感知拓扑建立在“现象邻域 (phenomenal neighborhoods) ”之上——即对我们来说看起来相同的现实气泡。
核心方法: 绘制感知拓扑
本节是论文的核心。我们需要摆脱用尺子测量距离,开始用“不可区分性”来衡量。
1. 定义分身
论文正式定义了现象邻域 , 或输入 \(x\) 的分身集合,表示为 \(\mathfrak{d}(x)\)。
如果我们观察韦伯定律 (Weber’s Law,一条心理学定律,指出两个刺激之间的“最小可觉差”与刺激的大小成正比) ,我们可以用数学方法描述这些邻域。对于范围 \([a, b]\) 内的一个值 \(x\),与 \(x\) 不可区分的值的集合如下所示:

这里,\(w\) 代表韦伯常数 (与敏感度有关) 。这个方程有效地在点 \(x\) 周围创建了“隐形区域”。任何落在这个区域内的东西都是 \(x\) 的分身。
2. 感知度量
由于标准的欧几里得距离无法捕捉这种现象,作者提出了感知距离 。 这不是基于像素的;它是基于“区分图 (discrimination graph) ”的——本质上是计算从一个物体到另一个物体需要多少次不可区分性的“跳跃”。
度量 \(d_w\) 定义为:

如果两个项目是分身 (属于同一个现象邻域的一部分) ,那么在感知意义上它们的距离实际上为零,即使它们的像素值不同。该度量强调了 AD 与标准对抗样本在本质上是不同的。
3. 特征与不可区分性
这与神经网络学习到的特征有什么关系?论文区分了不可区分性 (indiscriminability) (我们无法区分它们) 和不可辨识性 (indiscernibility) (它们具有完全相同的属性) 。
我们可以使用区分性特征表示将特征与感知联系起来。如果两个输入 \(x\) 和 \(y\) 共享一组特征 \(\Phi\),且它们的特征集有重叠,则它们是不可区分的:

此外,我们可以定义一个语义聚类 。 这是世界上所有共享特定特征 \(\xi\) 的输入的集合:

这有助于我们理解为什么 AD 存在: 如果机器依赖于不属于人类“区分性表示”的特征,它就会在我们看不到差异的地方看到差异,或者在我们看到差异的地方看到相似之处。
4. “正则”分类器
最终目标是构建一个正则分类器 (Regular Classifier) 。 如果一个分类器 \(R\) 尊重人类感知的边界,那么它就是“感知正则”的。简单来说: 它绝不应该给两个分身分配不同的标签。
在数学上,这意味着对于任何类别 \(R_i\),它必须由等价类 (分身组) 的并集形成:

如果一个分类器不是正则的,这意味着至少存在一个输入 \(x\),机器说它是“A 类”,但一个视觉上完全相同的输入 \(y\) 却是“B 类”。这就是对抗性分身漏洞的定义。
实验与分析: 准确率悖论
论文中最具挑衅性的部分之一挑战了机器学习中的普遍智慧,即准确率 (Accuracy) 和鲁棒性 (Robustness) 之间存在权衡。流行的观点是,要使模型更鲁棒,你必须牺牲一些准确率。
作者证明,对于对抗性分身,这是错误的。事实上,对于性能极高的模型, 提高准确率是实现鲁棒性的唯一途径。
定义准确率和召回率
首先,让我们建立度量标准。我们假设存在一个“基准真相 (ground truth) ”或理想的世界模型 \(\Omega\)。分类器 \(R\) 的准确率是分类器预测与基准真相之间重叠程度的度量:

我们可以将其分解为每个类别的召回率 (\(\rho_i\)) :

低准确率的“危险区”
论文引入了一个界限 \(\bar{k}(\Omega)\),它将真实类别的大小与分身集合的大小联系起来。

如果分类器的召回率太低 (意味着它不是很准确) ,论文证明每一个被正确分类的输入都拥有对抗性分身。

本质上,如果你的模型不够准确,总是会存在一个版本的输入,它在人类看来完全相同,但会欺骗模型。
超敏性: 高准确率机制
转折点来了。如果准确率变得非常非常高会发生什么?
论文确定了一个条件,当召回率 \(\rho\) 满足以下条件时:

如果分类器满足此条件,它将表现出超敏行为 (Hypersensitive Behavior) 。
定义: 如果每一个被错误分类的输入都是一个对抗性分身,则称该分类器是超敏的。
想一想这意味着什么。如果一个模型是超敏的,它永远不会犯“愚蠢”的错误 (比如把一张清晰的卡车图片称为鸟) 。它唯一的错误发生在与正确类别在感知上无法区分的输入上。
因此,对于超敏分类器, 提高鲁棒性等同于提高准确率。 不存在权衡。要修复漏洞,你只需要让模型更准确,直到它与“正则”分类器完美对齐。
无边界的生活: 原型与边缘
论文深入探讨了类别的结构。在经典集合论中,集合有硬性边界。在人类感知中,类别是模糊的。“椅子”是椅子,但豆袋沙发某种程度上也是椅子。
作者使用原型 (Prototypes) 的概念来解释正则分类器应该如何构建。我们使用相似度量表 \(s\) 来衡量输入 \(x\) 对类别 \(D\) 的“亲和度 (affinity) ”:

如果一个输入最大化了这种亲和度,它就是一个原型——它是该类别中最“具代表性”的成员:

相反, 边缘 (Fringe) 元素是那些勉强属于该类别的元素:

论文提供了一个复杂但富有洞察力的推导,用于根据特征的显著性和遇到输入的概率来计算亲和度:

这个方程 (19) 告诉我们,真正的原型不仅仅是看起来最“平均”的项目。它是一个平衡了显著性 (它具有该类别的强烈特征) 和频率 (它是我们实际上会遇到的对象版本) 的项目。
量化漏洞
最后,我们如何知道特定模型是否容易受到这些分身攻击?论文建议测量概念模糊区域 (Region of Conceptual Ambiguity) (\(A(R)\)) 。这是所有存在翻转标签的分身的输入 \(x\) 的集合。

为了量化这个区域内的混乱程度,我们可以查看分配给 \(x\) 的分身的标签的概率分布:

根据这个概率,我们可以计算概念熵 (Conceptual Entropy) \(H_R(x)\)。高熵意味着模型对 \(x\) 及其相似物非常困惑。

欺骗率 (Fooling Rate) \(F_R(\hat{a})\) (攻击成功的频率) 受到这个模糊区域大小 (测度) 的限制:

这给研究人员提供了一个理论上限,说明攻击可能有多糟糕。如果模糊区域很小,欺骗率必然很低。
结论与启示
Doppelgängers and Adversarial Vulnerability 中提出的研究挑战了机器学习社区重新思考我们如何定义“鲁棒性”。
主要结论如下:
- 拓扑结构很重要: 我们不能仅使用像素距离 (\(L_p\) 范数) 来理解对抗性攻击。我们必须对人类感知的“感知拓扑”进行建模。
- “相同”是危险的: 最阴险的攻击不是那些看起来像噪声的攻击;而是那些看起来与源完全相同的攻击 (分身) 。
- 卓越无需权衡: 对于高性能模型,为了鲁棒性必须牺牲准确率的想法是错误的。在“超敏”机制下,更高的准确率就是更好的鲁棒性。
- 模糊性不可避免: 一些分类问题仅仅因为类别在人类感知中重叠而“定义不良”。没有分类器能在模糊数据上做到完美。
随着我们将人工智能整合到关键系统中——从医疗诊断到自动驾驶——理解这些“隐形”错误变得至关重要。机器大部分时间正确是不够的;它需要像我们一样一致地看待世界,尊重我们感知中那些看不见的界限。
](https://deep-paper.org/en/paper/file-1991/images/cover.png)