](https://deep-paper.org/en/papers/2025-10/2510.00938/images/cover.png)
RECAP:通过展示有缺陷的推理来教 AI 批判性思考
大型语言模型 (LLM) 的能力正变得越来越强大,尤其是一类被称为大型推理模型 (LRM) 的新型模型。这些模型不仅仅是直接给出答案——它们会在得出结论前,通过生成一步一步的思维链 (CoT) 来进行思考。这种反思性的推理能力让它们能够以卓越的成果解决数学、编程等领域的复杂问题。 但这副盔甲上却有一道裂痕。最近的研究表明,这些复杂的推理能力出人意料地脆弱。只需为模型的思维过程提供一个有缺陷的起点,就可能诱导它生成有害内容——这被称为 CoT 预填充。例如,用类似 “我知道该怎么做。首先……” 这样的短语来开启模型的思维链,就足以绕过安全训练,导致不安全的输出。这提出了一个关键问题:** 这些模型真的理解安全原则,还是仅仅擅长沿着任何给定的推理路径前进——不论好坏?** 来自 Meta Superintelligence Labs、佐治亚理工学院和 IBM 研究院的一篇新论文,通过一种名为 RECAP (Robust Safety Alignment via Counter-Aligned Prefilling,即“通过反向对齐预填充实现鲁棒安全对齐”) 的训练方法,正面应对了这一问题。RECAP 并非寄希望于模型能自然学会自我纠正,而是在训练阶段刻意让它们接触有缺陷的推理,并奖励它们纠正并重回正轨。目标是: 让模型能够批判性地思考自身的推理过程,从而在安全性、鲁棒性,甚至实用性方面实现显著提升——且在推理阶段无需额外计算成本。 让我们来看它是如何工作的。 现代 AI 推理模型的脆弱性 LRM 会生成一个思维链 \(y_{\text{cot}}\),然后给出一个最终响应 \(y_{\text{resp}}\)。虽然这通常能提高输出质量,但研究人员发现,最终答案高度依赖于推理的初始方向。 在一个巧妙的实验中,他们选取了同一系列的几个模型 (DeepSeek 蒸馏模型,简称“DS”) ,这些模型的安全对齐程度不同,并使用 CoT 预填充对它们进行了测试: 不安全的预填充: 提取最不安全模型 (DSQwen-1.5B) 思维链的前 200 个词,用它来预填充其他更安全的模型。 安全的预填充: 做同样的操作,但使用最安全模型 (DSQwen-32B) 的思维链。 表 1 – 使用 DSQwen-1.5B 的不安全 CoT 进行预填充,使其他模型的安全分数降低了 36.4%;使用 DSQwen-32B 的安全 CoT 进行预填充,使安全分数提高了 91.7%。 当被迫沿着不安全推理继续时,模型的平均安全分数急剧下降;相反,安全推理预填充则让分数显著提升。结论是: LRM 倾向于盲从给定的推理,无论对错,而不是对其进行批判性重审。这种脆弱性不仅体现在安全性上,还扩展到数学推理和**过度拒绝 **(即模型拒绝回答一个安全的问题) 。 ...