想象一下,你需要组建一支由顶尖专家组成的团队来解决一个复杂问题。其中一位是战略大师,负责将问题分解为可管理的步骤;另一位是严谨的执行者,负责处理计算并落实计划。理论上,这种合作应该比任何单一专家独立工作都更高效。
这正是 多智能体大语言模型 (LLM) 系统的承诺——由多个人工智能成员组成的协作团队,可以共同推理应对远超单模型能力范围的复杂挑战。
但如果团队中的执行者开始……偷懒呢?他们不再做计算,只是随声附和,抄写战略家的笔记,或者几乎没有实际贡献。结果,战略家不得不独自完成所有工作,协作关系崩塌,性能急剧下降。这不仅是人类团队管理的难题,也是当前最先进 AI 系统所面临的关键挑战。
最近的一篇研究论文 《解锁多智能体 LLM 的推理能力: 从惰性智能体到审慎思辨》 深入探讨了这一“惰性智能体”现象。作者们发现,在一种广泛使用的多智能体框架中,其中一个智能体会系统性地学会“偷懒”,从而破坏整个协作结构。他们不仅识别了问题,还给出了理论解释,并提出了一个名为 Dr. MAMR (正确实现的多智能体元推理) 的新框架来加以修复。
本文将拆解智能体变懒的原因,阐述研究者如何设计系统来激励真正的协作,以及他们如何教智能体在必要时果断地说: “我们重新开始吧。”
背景: AI 团队的崛起
在分析惰性智能体之前,先了解其产生的框架。该论文基于一个名为 ReMA (Reasoning via Meta-thinking and Acting,元思考与行动推理) 的系统。该系统由两个专门化的 LLM 智能体组成,它们共享模型权重,但通过不同的系统提示定义各自的角色:
- 元思考智能体 (
π_h) — 高层规划者,负责分解问题、设定目标,并根据反馈进行调整。可以把它想象成项目经理。 - 推理智能体 (
π_l) — 底层执行者,负责逐步计算、推导和证明。它就是辛勤工作的技术专家。
这两个智能体通过一系列交互轮次进行协作。

“在 ReMA 中,两个智能体交替执行步骤: 元思考智能体进行规划,推理智能体负责行动。”
为了训练这样的系统,研究人员采用了强化学习 (RL) , 具体是一种名为 多轮组相对偏好优化 (GRPO) 的技术。该方法会奖励那些最终得到正确答案的完整对话轨迹,并惩罚失败的轨迹。它还能为单独的对话轮次分配奖励,用以实现更细粒度的优化。

“多轮 GRPO 为多智能体推理引入了轮次级的奖励结构。”
该目标使用一个轮次级的重要性比率来衡量新模型相较旧模型在生成某一步时的概率提升。

“轮次级重要性比率追踪每次更新对某一步生成概率的影响。”
理论上,这种机制应促进合作,但实际结果并不理想。
问题所在: 当协作瓦解时
在使用 ReMA 训练后,研究人员发现了一个奇怪现象: 其中一个智能体——通常是推理智能体——开始“偷懒”。它的输出几乎没有价值,有时为空白或仅仅复述元思考智能体的内容。元思考智能体被迫独自承担所有任务,使整个系统退化为低效的单智能体。

“案例研究: (a) 惰性推理复制了元思考智能体的错误;(b) 积极协作能纠正错误并得到正确答案。”
为量化这种惰性,作者定义了每个智能体在每一轮中的因果影响力——即某个行为对后续步骤的影响程度。直觉是: 去掉某智能体的贡献,看系统行为是否变化。如果无变化,则其贡献毫无意义。
行为变化通过模型在抑制前后 logits 的 KL 散度来度量。散度低 = 影响力低 = 懒惰。

“因果影响力分布揭示了 ReMA 训练会导致推理智能体变得被动。”
结果令人震惊:
- 初始化阶段: 训练前,两者影响力均衡——协作正常。
- ReMA 训练后: 推理智能体影响力崩塌,而元思考智能体占据主导。
- ReMA + 提示: 明确要求推理智能体“更努力工作”稍有改善,但效果有限。
- 我们的方法 (Dr. MAMR): 新方法恢复了平衡影响力,推理准确度显著提升。
为什么强化学习系统会自我训练成懒惰?根源在于目标函数中的隐藏偏差。
Dr. MAMR: 治愈惰性智能体的三重方案
作者提出的 Dr. MAMR 是一个包含三大协同组件的完整解决方案:
- 理论修正,去除偏好短对话的隐性偏差。
- 基于因果影响力的奖励信号,评价有意义的贡献。
- 审慎思辨机制,允许智能体在迷失时重启推理。
1. 理论缺陷: 偏向更短对话的隐性偏差
惰性背后的罪魁祸首是 GRPO 目标中的归一化项 \( 1/T_i \)。该项原意是防止模型偏好更长对话,但作者在 定理 1 中证明,它反而使模型偏向更短轨迹。
直观地看,如果两条推理路径产生相同的最终奖励,轮次更少的路径会带来更强的训练梯度。 于是模型学会: “少一步更好”,而最简单的减少步骤方式就是“少输出”。空白回复和浅显总结逐渐成为“最优策略”,推理智能体因此变懒。
为打破这种偏差,Dr. MAMR 彻底移除 \( 1/T_i \) 归一化项,消除了由简短驱动的惰性动机。
2. 受 Shapley 启发的因果影响力: 奖励真正重要的贡献
消除偏差只是开始,还需激励有价值的协作。Dr. MAMR 采用一种受 Shapley 启发的因果影响力度量,用以量化每一步对后续推理的塑造程度。
直接计算因果影响力代价高昂,因此作者提出一种轻量且统计稳健的替代法:
分组语义相似的步骤: 在大量对话中,把表达同一思想的步骤 (如“求导数”≈“计算变化率”) 根据嵌入的余弦相似度分为一组。
\[ G_S(s_{i,t}) = \{ s_{j,t'} \mid s_{j,t'} \approx s_{i,t}, 1 \le j \le N, 1 \le t' \le 2T_j \} \]测量单步影响力: 对组内每一步,计算遮蔽该步对下一步概率的影响。

“\( \Delta \ell_{j,t'} = \log p_{\text{mask}}^{(j,t')} - \log p_{\text{full}}^{(j,t')} \) 衡量一个步骤对下一个步骤的重要程度。”
- 平均汇总稳定值: 聚合这些单步影响,得到稳定的因果影响力分数: \[ \operatorname{CI}(s_{i,t}) = \frac{1}{|G_S(s_{i,t})|} \sum_{s_{j,t'} \in G_S(s_{i,t})} \Delta \ell_{j,t'}. \]
该分数奖励那些真正改变推理轨迹的步骤,鼓励智能体提供具有实际影响的内容,而非无关填充。
3. 审慎思辨与重启机制
随着协作水平提高,对话变得更长——但长对话也增加了 LLM 被早期错误牵制的风险。一旦前期误判,系统往往难以自救。
作者假设,让推理智能体丢弃先前输出并重启 , 可帮助其重新聚焦并提升正确率。 为验证这一想法,他们创建了一个推理时变体 ReMA+ , 在智能体陷入困境时提示其重启。

“允许重启能显著提升性能——尤其在更复杂的多轮推理任务中。”
ReMA+ 始终优于基线模型,验证了重启假设。基于此,Dr. MAMR 在训练中引入特殊标记 <restart>,当输出该标记时,智能体丢弃前序推理并从整合后的干净状态重新开始。
但并非所有重启都有益,因此 Dr. MAMR 定义了一种可验证奖励函数来判断何时应给予奖励:
- 当重启提升正确结果置信度或削弱错误结果置信度时给予奖励。
- 否则惩罚。

“重启奖励评估是否提升了模型对最终答案的置信度。”
该机制使重启行为能够通过强化学习进行自我学习,而非依赖经验规则。
最后,将所有信号整合为统一的优势函数 , 综合了正确性、因果影响力及重启效果。

“Dr. MAMR 的训练优势函数融合了结果正确性、因果影响力与重启成效。”
实验与结果: Dr. MAMR 的实践表现
总体性能
在七项数学推理基准上,Dr. MAMR 一贯优于所有基线——包括单智能体 GRPO 和原始 ReMA。 ReMA 的惰性智能体问题拖累性能;Dr. MAMR 恢复协作后表现显著提升。

“Dr. MAMR 让失效的多智能体系统转变为超越单智能体推理的成功体系。”
训练过程剖析

“(a) 在 Dr. MAMR 中,智能体间的因果影响力趋于平衡;(b) 训练保持稳定;(c) 随采样次数增加,性能扩展更佳。”
关键发现:
- 因果影响力: ReMA 下推理智能体影响力减弱,Dr. MAMR 下双方同步增长。
- 训练稳定性: Dr. MAMR 避免性能塌陷,奖励曲线更稳健。
- 性能扩展性: 允许更多尝试 (K) 时,Dr. MAMR 持续提升,显示出更丰富的推理多样性。
组件重要性
消融实验证明每个模块都不可或缺。去除归一化去偏 (ND)、因果影响奖励 (CI) 或重启机制 (RB) 均会显著降低性能。

“三个组件——去偏、因果奖励、重启——各自都对完整性能至关重要。”
结论: 打造更好的 AI 合作伙伴
“惰性智能体”问题揭示了协同 AI 的核心真相: 仅仅连接两个智能模型并不能保证团队合作,关键在于合理的训练目标与激励机制。
该论文的三项主要贡献:
- 诊断: 精确定位并从理论上解释了源自多轮损失归一化偏差的惰性智能体问题。
- 补救: 引入受 Shapley 启发的因果影响力机制来奖励有意义的协作。
- 恢复: 设计可验证重启奖励 , 帮助智能体识别自身错误并主动重置。
凭借这些创新, Dr. MAMR 将功能失衡的合作转化为协同智能的推理,生动展示了优化设计如何令智能体从被动旁观者转变为积极合作者,推动多智能体 LLM 算法更接近真正的团队合作。
](https://deep-paper.org/en/paper/2511.02303/images/cover.png)