当机器看见我们看不见的: 理解对抗性分身

想象一下，你正看着一张猫的照片。这是一只虎斑猫。你对此确信无疑。现在，想象一下计算机看着完全相同的照片，却自信地告诉你这是一只波斯猫。你眯起眼睛，放大图片，检查每一个像素。在你人类的眼中，什么都没有改变。

这就不是那种典型的“对抗样本”故事了——那种故事里，有人在熊猫照片上添加静态噪声，让 AI 以为它是长臂猿。这是一种更微妙、更深刻的现象。这就是对抗性分身 (Adversarial Doppelgängers) 现象。

在研究论文 Doppelgängers and Adversarial Vulnerability 中，George Kamberov 进行了一次迷人的数学和哲学探索，深入研究了机器学习分类器为何会犯下让这类人类感到“在感知和认知上令人不安”的错误。该论文认为，我们目前衡量鲁棒性的方法——使用标准的距离度量——存在根本性缺陷，因为它们无法映射人类的感知。

在这篇文章中，我们将剖析复杂的感知拓扑结构，探讨为何“高准确率”实际上可能是安全的关键，并定义一类对我们来说看起来完全相同、但对机器来说却截然不同的输入。

问题所在: 两种“相同”

要理解这篇论文的核心贡献，我们首先需要区分两种类型的对抗性攻击。

经典对抗样本

机器学习社区花了数年时间研究对抗样本。通常，这些样本是通过获取图像并向其添加经过特定计算的扰动 (噪声) 来创建的。

图 2. 对被 MobileNetV2 分类为拉布拉多犬的图像 (a) 施加快速符号梯度扰动 (Fast Signed Gradient perturbation) ，得到图像 (b)，MobileNetV2 将其分类为威玛猎犬。

如上方的 图 2 所示，经典攻击以一种在人类看来可能是损坏或噪点的方式改变输入。我们可以看到，与图像 (a) 中清晰的拉布拉多犬相比，图像 (b) 出现了像素化和扭曲。虽然我们可能仍然能认出那是只狗，但我们可以清楚地看到这两张图片是不同的。

对抗性分身 (AD)

现在，看看下面的 图 1 。

图 1. 大多数人无法区分图像 (a) 和图像 (b)。MobileNetV2 将后一张图片分类为“波斯猫”，将前一张图片分类为“虎斑猫”。

这两张图片是分身 (Doppelgängers) 。对于人类观察者来说，图像 (a) 和图像 (b) 在感知上是无法区分的。你分辨不出它们。然而，MobileNetV2 分类器将它们视为两个截然不同的类别: “虎斑猫”和“波斯猫”。

这就是论文解决的核心问题。对抗性分身 (AD) 是一种输入，它在人类看来 (在特定语境下) 与源输入无法区分，但被机器分类为不同类别。如果机器在一张看起来明显损坏的图像上犯错 (如图 2) ，那是一个问题。但如果机器在一张看起来与正确图像完全相同的图像上犯错 (如图 1) ，这就揭示了人类拓扑 (我们组织世界的方式) 与机器拓扑之间的根本不匹配。

背景: 几何学的局限

为什么会发生这些错误？论文认为，我们一直用错误的尺子来衡量世界。

在大多数机器学习研究中，我们假设所有可能图像的“空间”是一个度量空间 (通常配备 \(L_p\) 范数) 。我们假设如果两张图像在像素值上“接近”，它们应该具有相同的标签。反之，如果我们想模拟攻击，我们会限制扰动的数学距离。

然而，人类感知并不遵循这些僵化的数学规则。感知是语境相关 (context-relative) 的。两种颜色在昏暗的光线下可能看起来完全相同，但在明亮的光线下却截然不同。两种声音在嘈杂的房间里可能无法区分，但在安静的录音室里却泾渭分明。

论文引入了不可区分性 (Indiscriminability) (\(\approx\)) 的概念。如果两个输入 \(x\) 和 \(y\) 在特定时间和语境下，主体无法激活所需的知识来区分它们，那么它们就是不可区分的。

这种关系创造了一个感知拓扑 (Perceptual Topology) (\(\tau_{\delta}\)) 。与距离绝对的标准度量空间不同，感知拓扑建立在“现象邻域 (phenomenal neighborhoods) ”之上——即对我们来说看起来相同的现实气泡。

核心方法: 绘制感知拓扑

本节是论文的核心。我们需要摆脱用尺子测量距离，开始用“不可区分性”来衡量。

1. 定义分身

论文正式定义了现象邻域 , 或输入 \(x\) 的分身集合，表示为 \(\mathfrak{d}(x)\)。

如果我们观察韦伯定律 (Weber’s Law，一条心理学定律，指出两个刺激之间的“最小可觉差”与刺激的大小成正比) ，我们可以用数学方法描述这些邻域。对于范围 \([a, b]\) 内的一个值 \(x\)，与 \(x\) 不可区分的值的集合如下所示:

基于韦伯定律范围定义分身集合的公式。

这里，\(w\) 代表韦伯常数 (与敏感度有关) 。这个方程有效地在点 \(x\) 周围创建了“隐形区域”。任何落在这个区域内的东西都是 \(x\) 的分身。

2. 感知度量

由于标准的欧几里得距离无法捕捉这种现象，作者提出了感知距离 。这不是基于像素的；它是基于“区分图 (discrimination graph) ”的——本质上是计算从一个物体到另一个物体需要多少次不可区分性的“跳跃”。

度量 \(d_w\) 定义为:

感知距离 d_w(x,y) 的公式。

如果两个项目是分身 (属于同一个现象邻域的一部分) ，那么在感知意义上它们的距离实际上为零，即使它们的像素值不同。该度量强调了 AD 与标准对抗样本在本质上是不同的。

3. 特征与不可区分性

这与神经网络学习到的特征有什么关系？论文区分了不可区分性 (indiscriminability) (我们无法区分它们) 和不可辨识性 (indiscernibility) (它们具有完全相同的属性) 。

我们可以使用区分性特征表示将特征与感知联系起来。如果两个输入 \(x\) 和 \(y\) 共享一组特征 \(\Phi\)，且它们的特征集有重叠，则它们是不可区分的:

将特征交集与不可区分性联系起来的公式。

此外，我们可以定义一个语义聚类 。这是世界上所有共享特定特征 \(\xi\) 的输入的集合:

定义语义聚类 cl(xi) 的公式。

这有助于我们理解为什么 AD 存在: 如果机器依赖于不属于人类“区分性表示”的特征，它就会在我们看不到差异的地方看到差异，或者在我们看到差异的地方看到相似之处。

4. “正则”分类器

最终目标是构建一个正则分类器 (Regular Classifier) 。如果一个分类器 \(R\) 尊重人类感知的边界，那么它就是“感知正则”的。简单来说: 它绝不应该给两个分身分配不同的标签。

在数学上，这意味着对于任何类别 \(R_i\)，它必须由等价类 (分身组) 的并集形成:

显示正则分类器类别 R_i 是等价类并集的公式。

如果一个分类器不是正则的，这意味着至少存在一个输入 \(x\)，机器说它是“A 类”，但一个视觉上完全相同的输入 \(y\) 却是“B 类”。这就是对抗性分身漏洞的定义。

实验与分析: 准确率悖论

论文中最具挑衅性的部分之一挑战了机器学习中的普遍智慧，即准确率 (Accuracy) 和鲁棒性 (Robustness) 之间存在权衡。流行的观点是，要使模型更鲁棒，你必须牺牲一些准确率。

作者证明，对于对抗性分身，这是错误的。事实上，对于性能极高的模型, 提高准确率是实现鲁棒性的唯一途径。

定义准确率和召回率

首先，让我们建立度量标准。我们假设存在一个“基准真相 (ground truth) ”或理想的世界模型 \(\Omega\)。分类器 \(R\) 的准确率是分类器预测与基准真相之间重叠程度的度量:

定义分类器 R 相对于 Omega 的准确率的公式。

我们可以将其分解为每个类别的召回率 (\(\rho_i\)) :

定义召回率 rho_i 的公式。

低准确率的“危险区”

论文引入了一个界限 \(\bar{k}(\Omega)\)，它将真实类别的大小与分身集合的大小联系起来。

定义界限 k_bar(Omega) 的公式。

如果分类器的召回率太低 (意味着它不是很准确) ，论文证明每一个被正确分类的输入都拥有对抗性分身。

显示低召回率导致漏洞的不等式公式。

本质上，如果你的模型不够准确，总是会存在一个版本的输入，它在人类看来完全相同，但会欺骗模型。

超敏性: 高准确率机制

转折点来了。如果准确率变得非常非常高会发生什么？

论文确定了一个条件，当召回率 \(\rho\) 满足以下条件时:

高准确率条件的公式。

如果分类器满足此条件，它将表现出超敏行为 (Hypersensitive Behavior) 。

定义: 如果每一个被错误分类的输入都是一个对抗性分身，则称该分类器是超敏的。

想一想这意味着什么。如果一个模型是超敏的，它永远不会犯“愚蠢”的错误 (比如把一张清晰的卡车图片称为鸟) 。它唯一的错误发生在与正确类别在感知上无法区分的输入上。

因此，对于超敏分类器, 提高鲁棒性等同于提高准确率。 不存在权衡。要修复漏洞，你只需要让模型更准确，直到它与“正则”分类器完美对齐。

无边界的生活: 原型与边缘

论文深入探讨了类别的结构。在经典集合论中，集合有硬性边界。在人类感知中，类别是模糊的。“椅子”是椅子，但豆袋沙发某种程度上也是椅子。

作者使用原型 (Prototypes) 的概念来解释正则分类器应该如何构建。我们使用相似度量表 \(s\) 来衡量输入 \(x\) 对类别 \(D\) 的“亲和度 (affinity) ”:

亲和度 P(x, D) 的公式。

如果一个输入最大化了这种亲和度，它就是一个原型——它是该类别中最“具代表性”的成员:

定义原型为亲和度上确界的公式。

相反, 边缘 (Fringe) 元素是那些勉强属于该类别的元素:

定义边缘元素为亲和度下确界的公式。

论文提供了一个复杂但富有洞察力的推导，用于根据特征的显著性和遇到输入的概率来计算亲和度:

公式 19，通过概率和特征显著性扩展原型定义。

这个方程 (19) 告诉我们，真正的原型不仅仅是看起来最“平均”的项目。它是一个平衡了显著性 (它具有该类别的强烈特征) 和频率 (它是我们实际上会遇到的对象版本) 的项目。

量化漏洞

最后，我们如何知道特定模型是否容易受到这些分身攻击？论文建议测量概念模糊区域 (Region of Conceptual Ambiguity) (\(A(R)\)) 。这是所有存在翻转标签的分身的输入 \(x\) 的集合。

定义概念模糊区域 A(R) 的公式。

为了量化这个区域内的混乱程度，我们可以查看分配给 \(x\) 的分身的标签的概率分布:

定义标签概率分布 p_j(x) 的公式。

根据这个概率，我们可以计算概念熵 (Conceptual Entropy) \(H_R(x)\)。高熵意味着模型对 \(x\) 及其相似物非常困惑。

概念熵 H_R(x) 的公式。

欺骗率 (Fooling Rate) \(F_R(\hat{a})\) (攻击成功的频率) 受到这个模糊区域大小 (测度) 的限制:

用 A(R) 的测度来限制欺骗率的公式。

这给研究人员提供了一个理论上限，说明攻击可能有多糟糕。如果模糊区域很小，欺骗率必然很低。

结论与启示

Doppelgängers and Adversarial Vulnerability 中提出的研究挑战了机器学习社区重新思考我们如何定义“鲁棒性”。

主要结论如下:

拓扑结构很重要: 我们不能仅使用像素距离 (\(L_p\) 范数) 来理解对抗性攻击。我们必须对人类感知的“感知拓扑”进行建模。
“相同”是危险的: 最阴险的攻击不是那些看起来像噪声的攻击；而是那些看起来与源完全相同的攻击 (分身) 。
卓越无需权衡: 对于高性能模型，为了鲁棒性必须牺牲准确率的想法是错误的。在“超敏”机制下，更高的准确率就是更好的鲁棒性。
模糊性不可避免: 一些分类问题仅仅因为类别在人类感知中重叠而“定义不良”。没有分类器能在模糊数据上做到完美。

随着我们将人工智能整合到关键系统中——从医疗诊断到自动驾驶——理解这些“隐形”错误变得至关重要。机器大部分时间正确是不够的；它需要像我们一样一致地看待世界，尊重我们感知中那些看不见的界限。

当机器看见我们看不见的: 理解对抗性分身#

问题所在: 两种“相同”#

经典对抗样本#

对抗性分身 (AD)#

背景: 几何学的局限#

核心方法: 绘制感知拓扑#

1. 定义分身#

2. 感知度量#

3. 特征与不可区分性#

4. “正则”分类器#

实验与分析: 准确率悖论#

定义准确率和召回率#

低准确率的“危险区”#

超敏性: 高准确率机制#

无边界的生活: 原型与边缘#

量化漏洞#

结论与启示#