微积分的救援：常微分方程如何让 BERT 对对抗性攻击免疫

如果你曾经在小数据集上微调过像 BERT 这样的大型语言模型 (LLM) ，你可能遇到过一种熟悉的挫败感: 过拟合。模型完美地记住了训练数据，但在遇到稍微不同的内容时就会崩溃。

更糟糕的是，这些模型对对抗性攻击非常脆弱。恶意行为者可以改变句子中的一个词——即“扰动” (perturbation) ——就能导致模型完全改变其预测，即使这个句子在人类看来完全一样。

传统上，研究人员试图通过对抗性训练来修补这个漏洞，即在训练过程中故意给模型输入损坏的样本，让它学会忽略这些错误。但这在计算上非常昂贵且难以调整。

但是，如果这种脆弱性不仅仅与数据有关呢？如果是关于神经网络架构内部的数学原理呢？

在一篇题为 “IM-BERT: Enhancing Robustness of BERT through the Implicit Euler Method” (IM-BERT: 通过隐式欧拉法增强 BERT 的鲁棒性) 的精彩论文中，研究人员 Mihyeon Kim、Juhyoung Park 和 Youngbin Kim 提出了一种解决方案。该方案并非源于计算机科学，而是植根于动力系统和微积分。通过将 BERT 的层视为常微分方程 (ODEs) 的解，他们从根本上改变了信息在网络中流动的方式，使模型在无需训练时见过攻击样本的情况下，也能天生对攻击具有鲁棒性。

在这篇文章中，我们将拆解 IM-BERT 架构，深入探讨显式与隐式欧拉法的数学原理，并看看一点微积分知识是如何让 AI 变得更加强大的。

问题: 微调的脆弱性

预训练语言模型 (PLMs) 在两阶段范式下运作:

预训练: 阅读整个互联网以学习通用的语言模式 (高资源) 。
微调: 在特定数据集 (例如情感分析) 上进行训练以实现专业化 (低资源) 。

问题出现在第二阶段。当你拿像 BERT 这样巨大的模型并在一个小数据集上进行激进的微调时，它会变得“易碎”。它创建了一个过于复杂的决策边界，使其容易受到对抗性扰动的影响。

想象一下一个能够正确分类的模型:

“The movie was good.” \(\rightarrow\) Positive (正面)

一个对抗性攻击可能会将其更改为:

“The movie was adequate.” \(\rightarrow\) Negative (负面，不正确)

对于人类来说，在这个语境下 “adequate” (尚可) 和 “good” (好) 足够相似，但由于扰动的存在，模型的内部表示发生了剧烈的偏移。IM-BERT 的作者认为，这种敏感性源于模型层之间连接的数学性质。

神经网络作为动力系统

要理解 IM-BERT，我们首先必须通过常微分方程 (ODEs) 的视角来看待神经网络。

在残差网络 (如 ResNet 或 BERT) 中，层 \(h_t\) 的输出是输入 \(h_{t-1}\) 与某种变换 \(\phi\) (如注意力机制或前馈网络) 的和。

\[h_t = h_{t-1} + \phi(h_{t-1})\]

随着层数趋于无穷大，我们可以将这个离散过程视为时间 \(t\) 上的连续信息流。隐藏状态 \(h(t)\) 根据微分方程演变:

连续 ODE 公式。

在这里，\(\phi\) 是描述状态如何变化的函数。神经网络本质上是一个 ODE 求解器 : 它试图计算给定初始状态 \(h(0) = x\) (输入) 时的最终状态 \(h(T)\) (输出) 。

显式欧拉法 (标准 BERT)

由于计算机无法处理无限的连续步骤，我们必须进行近似。数值求解 ODE 的标准方法是显式欧拉法 (Explicit Euler Method) 。它完全根据当前位置和该位置的斜率来估计下一步。

在数学上，BERT 中的标准残差连接实际上就是步长为 \(\gamma=1\) 的显式欧拉法的实现:

显式欧拉方程。

缺陷: 显式欧拉法简单且快速，但它是条件稳定的。如果输入 \(x\) 受到扰动 (即对抗性攻击添加了噪声) ，误差在层间传播时可能会累积并爆炸。数据所走的“路径”偏离了正确的路径，导致错误的预测。

隐式欧拉法 (解决方案)

有一种更稳健的方法来求解 ODE: 隐式欧拉法 (Implicit Euler Method) 。它不是根据当前的斜率来计算下一步，而是根据未来的斜率来计算下一步。

隐式欧拉方程。

仔细看两者的区别。在显式方法中，\(\phi\) 将 \(h_{t-1}\) 作为输入。而在上面的隐式方法中，\(\phi\) 将 \(h_t\) 作为输入。

这看起来似乎是矛盾的——你怎么能用 \(h_t\) 来计算 \(h_t\) 呢？我们稍后会讲到“如何做”，但首先，让我们理解“为什么”。

为什么隐式更好: 稳定性分析

作者进行了稳定性分析，以比较这两种方法如何处理扰动 (噪声) 。

他们使用了一个标准的测试方程，其中 \(\lambda\) 代表系统的特征值 (必须为负以保持稳定性) ，\(\gamma\) 是步长。

当输入 \(x\) 受到微量 \(\eta\) 的扰动时，显式方法只有在步长足够小，以保持步长和特征值的乘积在特定圆内时才能保持稳定。如果扰动将系统推到该区域之外，误差将呈指数级增长。

然而, 隐式方法具有一种神奇的特性，称为 A-稳定性 (绝对稳定性) 。

误差收敛至零的极限。

作者证明 (论文中的命题 2) ，对于隐式欧拉法，受扰动路径与干净路径之间的误差会收敛到零, 无论步长大小如何 。

通俗地说: 无论你如何猛烈地冲击输入 (对抗性攻击) ，隐式方法都倾向于将隐藏状态拉回到正确的轨迹上。

架构: 构建 IM-BERT

我们已经确定隐式欧拉法在理论上具有更优越的鲁棒性。但这里有一个陷阱: 方程 6 (隐式方程) 是一个非线性方程，其中 \(h_t\) 出现在两边。你不能直接“计算”它；你必须求解它。

为了在神经网络中实现这一点，作者将寻找下一个隐藏状态 \(h_t\) 视为一个优化问题。他们想要找到一个 \(h_t\)，使方程左边和右边的差异最小化。

他们定义目标状态 \(h_t^*\) 为:

隐藏状态的优化目标。

IM-连接 (IM-Connection)

IM-BERT 引入了 IM-连接 , 而不是层与层之间简单的加法操作。

在每一层 (或特定层) 内部，模型运行一个微循环。它从 \(h_t\) 的猜测值 (通常是显式方法的结果) 开始，然后使用梯度下降迭代更新 \(h_t\)，直到它满足隐式方程。

这个过程本质上是在将表示传递给下一层之前，在每一层对其进行“去噪”。

让我们看看架构对比:

图 1: BERT、EX-BERT 和 IM-BERT 架构的比较。

(a) BERT: 标准连接。信息直接流过。
(b) EX-BERT: 使用显式残差连接的变体 (为了公平比较) 。
(c) IM-BERT: 注意红色的循环。隐藏状态在其自身上循环。\(l\) 层的输出不仅仅是传递给 \(l+1\)；它经过迭代优化，以确保它位于稳定的轨迹上。

实验结果

这种数学上的严谨性是否转化为更好的性能？研究人员在 AdvGLUE 基准测试上测试了 IM-BERT，这是一个专门设计用于通过各种类型的攻击 (词级、句级和人工设计的棘手短语) 来破坏语言模型的数据集。

1. 对抗攻击的鲁棒性

结果令人印象深刻。IM-BERT 显著优于标准 BERT 基线，甚至优于具有竞争力的对抗性训练方法。

表 1: AdvGLUE 结果。

表 1 的关键结论:

标准训练: 仅仅通过改变架构 (IM-BERT) ，该模型在 AdvGLUE 上达到了 41.2% 的平均准确率，而标准 BERT 仅为 35.1% 。这是一个巨大的 6.1% 的提升，且无需在训练期间看到任何对抗性样本。
对抗性训练: IM-BERT 甚至优于 FreeLB 和 SMART 等方法，这些都是专门为此目的设计的计算昂贵的训练策略。

2. 低资源场景

当数据稀缺时，IM-BERT 的优势最为明显。这是有道理的: 当训练数据很少时，模型通常会记住噪声。隐式方法的稳定性防止了这种过拟合。

表 2: 低资源场景。

在表 2 中，我们看到了仅使用 1,000 或 500 个实例进行训练时的结果。

仅用 500 个样本 , IM-BERT (10 次迭代) 得分 42.4% , 完全碾压了标准 BERT 的 36.5% 。
这表明，如果你是一家初创公司或拥有小数据集的学生，使用受 ODE 启发的架构比使用标准 Transformer 更安全。

3. 我们应该把连接放在哪里？

隐式方法较慢，因为它需要在前向传递中进行迭代循环。为了缓解这个问题，作者研究了是否可以仅将 IM-连接应用于部分层。

表 3: 层位置的消融研究。

表 3 揭示了关于 BERT 如何处理信息的有趣见解:

低层 (1-3) : 在此处应用 IM-连接有助于抵御词级攻击。
中间层 (4-6) : 这似乎是最佳平衡点。它以较少的 FLOPs (计算操作) 提供了高准确率。
高层 (10-12) : 太晚应用修正并没有太大帮助。如果轨迹在早期层已经偏离，在最后修复它就太难了。

结论与启示

IM-BERT 论文在微分方程的抽象数学与自然语言处理的实际工程之间架起了一座令人信服的桥梁。

通过认识到残差连接只是连续流的一种粗糙近似 (显式欧拉) ，作者确定了现代 AI 不稳定性的一个根本来源。通过将该近似升级为隐式欧拉法 , 他们赋予了模型“绝对稳定性”。

这对你有什么意义?

虽然没有免费的午餐，但这顿午餐很划算: IM-BERT 提高了鲁棒性，而不需要你生成数千个对抗性样本或使用复杂的正则化方案使训练时间加倍。成本是在推理阶段 (层内的循环) 支付的，而不是在数据准备阶段。
设计即安全: 它将重点从“修补”模型 (训练) 转移到“加固”模型 (架构) 。
低资源救星: 对于数据昂贵或稀缺的场景，这是一种让模型变得可用的有效策略。

随着我们继续在关键领域部署 LLM，鲁棒性不仅仅是一个指标；它是一项要求。IM-BERT 表明，有时，前进的最佳方式是回顾微积分教科书。

问题: 微调的脆弱性#

神经网络作为动力系统#

显式欧拉法 (标准 BERT)#

隐式欧拉法 (解决方案)#

为什么隐式更好: 稳定性分析#

架构: 构建 IM-BERT#

IM-连接 (IM-Connection)#

实验结果#

1. 对抗攻击的鲁棒性#

2. 低资源场景#

3. 我们应该把连接放在哪里？#

结论与启示#