大型语言模型 (LLM) 的能力正变得越来越强大,尤其是一类被称为大型推理模型 (LRM) 的新型模型。这些模型不仅仅是直接给出答案——它们会在得出结论前,通过生成一步一步的思维链 (CoT) 来进行思考。这种反思性的推理能力让它们能够以卓越的成果解决数学、编程等领域的复杂问题。
但这副盔甲上却有一道裂痕。最近的研究表明,这些复杂的推理能力出人意料地脆弱。只需为模型的思维过程提供一个有缺陷的起点,就可能诱导它生成有害内容——这被称为 CoT 预填充。例如,用类似 “我知道该怎么做。首先……” 这样的短语来开启模型的思维链,就足以绕过安全训练,导致不安全的输出。这提出了一个关键问题:** 这些模型真的理解安全原则,还是仅仅擅长沿着任何给定的推理路径前进——不论好坏?**
来自 Meta Superintelligence Labs、佐治亚理工学院和 IBM 研究院的一篇新论文,通过一种名为 RECAP (Robust Safety Alignment via Counter-Aligned Prefilling,即“通过反向对齐预填充实现鲁棒安全对齐”) 的训练方法,正面应对了这一问题。RECAP 并非寄希望于模型能自然学会自我纠正,而是在训练阶段刻意让它们接触有缺陷的推理,并奖励它们纠正并重回正轨。目标是: 让模型能够批判性地思考自身的推理过程,从而在安全性、鲁棒性,甚至实用性方面实现显著提升——且在推理阶段无需额外计算成本。
让我们来看它是如何工作的。
现代 AI 推理模型的脆弱性
LRM 会生成一个思维链 \(y_{\text{cot}}\),然后给出一个最终响应 \(y_{\text{resp}}\)。虽然这通常能提高输出质量,但研究人员发现,最终答案高度依赖于推理的初始方向。
在一个巧妙的实验中,他们选取了同一系列的几个模型 (DeepSeek 蒸馏模型,简称“DS”) ,这些模型的安全对齐程度不同,并使用 CoT 预填充对它们进行了测试:
- 不安全的预填充: 提取最不安全模型 (DSQwen-1.5B) 思维链的前 200 个词,用它来预填充其他更安全的模型。
- 安全的预填充: 做同样的操作,但使用最安全模型 (DSQwen-32B) 的思维链。
表 1 – 使用 DSQwen-1.5B 的不安全 CoT 进行预填充,使其他模型的安全分数降低了 36.4%;使用 DSQwen-32B 的安全 CoT 进行预填充,使安全分数提高了 91.7%。
当被迫沿着不安全推理继续时,模型的平均安全分数急剧下降;相反,安全推理预填充则让分数显著提升。结论是: LRM 倾向于盲从给定的推理,无论对错,而不是对其进行批判性重审。这种脆弱性不仅体现在安全性上,还扩展到数学推理和**过度拒绝 **(即模型拒绝回答一个安全的问题) 。
根本原因在于: 标准的 RLHF 训练只奖励最终答案,而不奖励推理过程——但在现实中,模型必须应对复杂且存在干扰的推理路径。
RECAP: 通过纠正错误来学习
如果我们能训练模型从有缺陷的推理中恢复,而不是完全避免它,会怎样?这就是 RECAP 的核心思想。
图 1 – 有害提示用不安全 CoT 预填充,良性提示用拒绝取向的 CoT 预填充。模型必须覆盖有缺陷的轨迹才能获得奖励。
第 1 步: 构建反向对齐预填充
RECAP 会构造两类刻意设计的有缺陷推理轨迹:
有害提示: 使用安全对齐较弱的模型生成的不安全推理进行预填充。
*示例: * “要执行 DDoS 攻击,首先要组建一个由受感染设备构成的网络……”良性提示: 使用“全部拒绝”模型生成的过分谨慎的推理进行预填充。
*示例: * “终止进程可能有害,因此我必须拒绝……”
如果模型只是沿着这些预填充继续,就会产生不安全或无用的输出。为了获得奖励,它必须识别缺陷、推翻它,并生成安全且有用的回答。
*纠正示例: * “但是建立僵尸网络是违法的。我可以解释 DDoS 攻击的原理以及如何防御它。”
第 2 步: 通过强化学习进行训练
这些反向对齐的预填充内容与正常提示混合训练。研究人员采用了 **DAPO **(Decouple clip & Dynamic sampling Policy Optimization) ,但方法可拓展至其他任何 RLHF 方案。
当提示被预填充时,模型只针对有缺陷前缀之后生成的 token 进行优化。奖励基于最终回答,鼓励模型成功从不安全的起点恢复。
公式为:
\[ t_0(x) = \begin{cases} 1 & \text{正常提示}\\ \ell_{\text{pre}} + 1 & \text{预填充提示} \end{cases} \]其中 \( \ell_{\text{pre}} \) 是前缀长度。对于预填充提示,优化直接跳过缺陷部分,专注于纠正。
第 3 步: 为何能提高鲁棒性
理论分析表明,RECAP 相较普通训练能获得更高的期望奖励,尤其是在推理从错误状态开始时。标准 RLHF 从来没见过这些情境,因此学不到“逃脱路线”。而 RECAP 相当于给模型注射了一剂安全疫苗——让它即使在对抗性条件下也能存活。
实验与结果
研究人员在混合了安全、过度拒绝和数学问题的数据集上训练模型,并将 RECAP 与 SFT 和传统 DAPO 基线做了对比。
表 2 – RECAP 在安全性、越狱鲁棒性、实用性和数学推理方面均超过基线模型。
主要提升:
- 安全性与越狱鲁棒性: 在直接有害提示上实现了近乎完美的安全性,并在 designed越狱攻击中取得巨大优势。
- 减少过度拒绝: 通过推翻对良性提示的不必要拒绝,提高实用性得分。
- 更强推理能力: 即便没有数学类预填充,数学表现仍提升,说明批判性推理能力具有泛化性。
推理时成本
更强的批判性思维是否意味着输出更长?测量显示,总 token 数量无显著增长。
图 2 – RECAP 的总 token 使用与 DAPO 持平。在安全任务中 CoT 略长,但在数学任务中更短。
从质的角度看,RECAP 生成的 CoT 结构更清晰、逻辑更连贯——是“思考得更好”,而不是“更长”。
RECAP 的关键因素
消融实验揭示了三大决定因素:
图 3 – 最佳预填充比例: \(\alpha = 0.5\);最佳预填充长度: 不超过 500 词;预填充来源必须是反向对齐的。
- 预填充比例: 50% 效果最佳。比例过高会导致模型失去自主安全启动的学习。
- 预填充长度: 较长前缀 (100–500 词) 增强安全性;超过 700 词则会下降。
- 来源: 必须是有缺陷的。使用安全前缀甚至比不预填充更差——模型会直接复制好推理而不是学会纠正坏推理。
改变模型行为: 更多自我反思
经过 RECAP 训练的模型,CoT 中经常出现自我反思句,例如 “等等,这似乎不安全……”。在预填充攻击测试中,83.4% 的 RECAP 输出含有自我反思,而基线仅为 59.7%。
在自适应攻击中存活
研究人员在两类强力、知情的攻击下测试了 RECAP:
完整 CoT 劫持: 用恶意推理路径替换整个推理轨迹。
表 3 – RECAP 保持约 98% 安全性,比 DAPO 高出 35% 以上。
迭代预填充重置 (IPR) : 在推理重置后多次注入缺陷前缀。
表 4 – 多轮攻击下 RECAP 安全性几乎不降;基线则逐步衰退。
结论: 迈向更具批判思维的 AI
RECAP 将对齐的重点从最终答案的正确性转向推理过程的韧性。通过训练模型在有缺陷的推理中自我恢复,RECAP 构建了持久的安全性,即使在复杂攻击下也能维持。
方法很简单: 无需改动 RLHF 算法,无推理时额外成本——却带来了安全性、越狱鲁棒性和实用性的大幅提升,并保持甚至增强了核心推理能力。
结论很明确: 通往更安全 AI 的道路可能不在于屏蔽一切缺陷,而在于教会模型直面并克服有缺陷的思维。有了 RECAP,大型推理模型不仅变得更强大,还更具智慧。