RECAP：通过展示有缺陷的推理来教 AI 批判性思考

大型语言模型 (LLM) 的能力正变得越来越强大，尤其是一类被称为大型推理模型 (LRM) 的新型模型。这些模型不仅仅是直接给出答案——它们会在得出结论前，通过生成一步一步的思维链 (CoT) 来进行思考。这种反思性的推理能力让它们能够以卓越的成果解决数学、编程等领域的复杂问题。

但这副盔甲上却有一道裂痕。最近的研究表明，这些复杂的推理能力出人意料地脆弱。只需为模型的思维过程提供一个有缺陷的起点，就可能诱导它生成有害内容——这被称为 CoT 预填充。例如，用类似 “我知道该怎么做。首先……” 这样的短语来开启模型的思维链，就足以绕过安全训练，导致不安全的输出。这提出了一个关键问题:** 这些模型真的理解安全原则，还是仅仅擅长沿着任何给定的推理路径前进——不论好坏？**

来自 Meta Superintelligence Labs、佐治亚理工学院和 IBM 研究院的一篇新论文，通过一种名为 RECAP (Robust Safety Alignment via Counter-Aligned Prefilling，即“通过反向对齐预填充实现鲁棒安全对齐”) 的训练方法，正面应对了这一问题。RECAP 并非寄希望于模型能自然学会自我纠正，而是在训练阶段刻意让它们接触有缺陷的推理，并奖励它们纠正并重回正轨。目标是: 让模型能够批判性地思考自身的推理过程，从而在安全性、鲁棒性，甚至实用性方面实现显著提升——且在推理阶段无需额外计算成本。

让我们来看它是如何工作的。

现代 AI 推理模型的脆弱性

LRM 会生成一个思维链 \(y_{\text{cot}}\)，然后给出一个最终响应 \(y_{\text{resp}}\)。虽然这通常能提高输出质量，但研究人员发现，最终答案高度依赖于推理的初始方向。

在一个巧妙的实验中，他们选取了同一系列的几个模型 (DeepSeek 蒸馏模型，简称“DS”) ，这些模型的安全对齐程度不同，并使用 CoT 预填充对它们进行了测试:

不安全的预填充: 提取最不安全模型 (DSQwen-1.5B) 思维链的前 200 个词，用它来预填充其他更安全的模型。
安全的预填充: 做同样的操作，但使用最安全模型 (DSQwen-32B) 的思维链。

表格显示，使用弱模型的不安全推理进行预填充会降低强模型的安全性，而使用强模型的安全推理进行预填充则会提高安全性。

表 1 – 使用 DSQwen-1.5B 的不安全 CoT 进行预填充，使其他模型的安全分数降低了 36.4%；使用 DSQwen-32B 的安全 CoT 进行预填充，使安全分数提高了 91.7%。

当被迫沿着不安全推理继续时，模型的平均安全分数急剧下降；相反，安全推理预填充则让分数显著提升。结论是: LRM 倾向于盲从给定的推理，无论对错，而不是对其进行批判性重审。这种脆弱性不仅体现在安全性上，还扩展到数学推理和**过度拒绝 **(即模型拒绝回答一个安全的问题) 。

根本原因在于: 标准的 RLHF 训练只奖励最终答案，而不奖励推理过程——但在现实中，模型必须应对复杂且存在干扰的推理路径。

RECAP: 通过纠正错误来学习

如果我们能训练模型从有缺陷的推理中恢复，而不是完全避免它，会怎样？这就是 RECAP 的核心思想。

信息图展示了 RECAP 如何使用带有缺陷思维链 (CoT) 的提示来训练策略模型。有害提示会获得不安全的 CoT，而良性提示会获得拒绝性 CoT，从而迫使模型覆盖这些有缺陷的路径以获得奖励。

图 1 – 有害提示用不安全 CoT 预填充，良性提示用拒绝取向的 CoT 预填充。模型必须覆盖有缺陷的轨迹才能获得奖励。

第 1 步: 构建反向对齐预填充

RECAP 会构造两类刻意设计的有缺陷推理轨迹:

有害提示: 使用安全对齐较弱的模型生成的不安全推理进行预填充。
*示例: * “要执行 DDoS 攻击，首先要组建一个由受感染设备构成的网络……”
良性提示: 使用“全部拒绝”模型生成的过分谨慎的推理进行预填充。
*示例: * “终止进程可能有害，因此我必须拒绝……”

如果模型只是沿着这些预填充继续，就会产生不安全或无用的输出。为了获得奖励，它必须识别缺陷、推翻它，并生成安全且有用的回答。

*纠正示例: * “但是建立僵尸网络是违法的。我可以解释 DDoS 攻击的原理以及如何防御它。”

第 2 步: 通过强化学习进行训练

这些反向对齐的预填充内容与正常提示混合训练。研究人员采用了 **DAPO **(Decouple clip & Dynamic sampling Policy Optimization) ，但方法可拓展至其他任何 RLHF 方案。

当提示被预填充时，模型只针对有缺陷前缀之后生成的 token 进行优化。奖励基于最终回答，鼓励模型成功从不安全的起点恢复。

公式为:

\[ t_0(x) = \begin{cases} 1 & \text{正常提示}\\ \ell_{\text{pre}} + 1 & \text{预填充提示} \end{cases} \]

其中 \( \ell_{\text{pre}} \) 是前缀长度。对于预填充提示，优化直接跳过缺陷部分，专注于纠正。

第 3 步: 为何能提高鲁棒性

理论分析表明，RECAP 相较普通训练能获得更高的期望奖励，尤其是在推理从错误状态开始时。标准 RLHF 从来没见过这些情境，因此学不到“逃脱路线”。而 RECAP 相当于给模型注射了一剂安全疫苗——让它即使在对抗性条件下也能存活。

实验与结果

研究人员在混合了安全、过度拒绝和数学问题的数据集上训练模型，并将 RECAP 与 SFT 和传统 DAPO 基线做了对比。

结果表显示，在两种不同模型规模上，RECAP 在安全性、实用性和数学推理方面均优于其他方法。

表 2 – RECAP 在安全性、越狱鲁棒性、实用性和数学推理方面均超过基线模型。

主要提升:

安全性与越狱鲁棒性: 在直接有害提示上实现了近乎完美的安全性，并在 designed越狱攻击中取得巨大优势。
减少过度拒绝: 通过推翻对良性提示的不必要拒绝，提高实用性得分。
更强推理能力: 即便没有数学类预填充，数学表现仍提升，说明批判性推理能力具有泛化性。

推理时成本

更强的批判性思维是否意味着输出更长？测量显示，总 token 数量无显著增长。

柱状图比较了 RECAP 和基线 (DAPO) 生成的思维链 token 数量和总 token 数量。安全、过度拒绝和数学任务下的总 token 数量非常接近。

图 2 – RECAP 的总 token 使用与 DAPO 持平。在安全任务中 CoT 略长，但在数学任务中更短。

从质的角度看，RECAP 生成的 CoT 结构更清晰、逻辑更连贯——是“思考得更好”，而不是“更长”。

RECAP 的关键因素

消融实验揭示了三大决定因素:

三幅图分析了预填充比例、长度和来源对性能的影响，显示比例与长度的最佳范围，以及来源必须是反向对齐才有效。

图 3 – 最佳预填充比例: \(\alpha = 0.5\)；最佳预填充长度: 不超过 500 词；预填充来源必须是反向对齐的。

预填充比例: 50% 效果最佳。比例过高会导致模型失去自主安全启动的学习。
预填充长度: 较长前缀 (100–500 词) 增强安全性；超过 700 词则会下降。
来源: 必须是有缺陷的。使用安全前缀甚至比不预填充更差——模型会直接复制好推理而不是学会纠正坏推理。

改变模型行为: 更多自我反思

经过 RECAP 训练的模型，CoT 中经常出现自我反思句，例如 “等等，这似乎不安全……”。在预填充攻击测试中，83.4% 的 RECAP 输出含有自我反思，而基线仅为 59.7%。

在自适应攻击中存活

研究人员在两类强力、知情的攻击下测试了 RECAP:

完整 CoT 劫持: 用恶意推理路径替换整个推理轨迹。
表 3 – RECAP 保持约 98% 安全性，比 DAPO 高出 35% 以上。
迭代预填充重置 (IPR) : 在推理重置后多次注入缺陷前缀。
表 4 – 多轮攻击下 RECAP 安全性几乎不降；基线则逐步衰退。

结论: 迈向更具批判思维的 AI

RECAP 将对齐的重点从最终答案的正确性转向推理过程的韧性。通过训练模型在有缺陷的推理中自我恢复，RECAP 构建了持久的安全性，即使在复杂攻击下也能维持。

方法很简单: 无需改动 RLHF 算法，无推理时额外成本——却带来了安全性、越狱鲁棒性和实用性的大幅提升，并保持甚至增强了核心推理能力。

结论很明确: 通往更安全 AI 的道路可能不在于屏蔽一切缺陷，而在于教会模型直面并克服有缺陷的思维。有了 RECAP，大型推理模型不仅变得更强大，还更具智慧。

现代 AI 推理模型的脆弱性#

RECAP: 通过纠正错误来学习#

第 1 步: 构建反向对齐预填充#

第 2 步: 通过强化学习进行训练#

第 3 步: 为何能提高鲁棒性#

实验与结果#

推理时成本#

RECAP 的关键因素#

改变模型行为: 更多自我反思#

在自适应攻击中存活#

结论: 迈向更具批判思维的 AI#