我们如何知道一个大语言模型 (LLM) 是否表现良好?这个看似简单的问题,是现代人工智能中最棘手的问题之一。虽然人类可以对 LLM 的回答进行评分,但这个过程缓慢、昂贵,且难以规模化。一个很有前景的替代方案是让另一个 LLM 担任评委,来评估它的同类。这种“LLM 评委”方法正在迅速成为语言模型训练、对齐和评估中不可或缺的一环。

然而,这一系统存在明显缺陷。多数 LLM 评委仅依赖自身的文本推理能力。它们能写出优美的评论,听起来令人信服——但当任务需要可验证的事实时,却会频频失误。它们无法可靠地统计词数、执行精确的计算或检查复杂的代码约束。换句话说,它们容易被那些表面上合理但事实上错误的回答所误导。

想象一下,你要求一个 LLM 写一首至少 350 个单词的诗。一个仅基于文本的评委可能看着诗,心想“似乎够长”,便批准了它。但实际上可能完全错误。下面的例子生动地体现了这种挑战。

一个 LLM 评委使用代码执行器来验证字数限制,正确地识别出响应过短,而一个纯文本评委则错误地批准了它。

图 1 | 一个工具增强的 LLM 评委使用简单的 Python 脚本获取确切字数 (321) ,准确识别出该回答未满足 350 字的要求。而一个仅基于文本的评委可能会数错并批准该回答。

这正是新研究论文 《通过工具集成强化学习激励 LLM 评委的智能体推理》 (Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning) 的切入点。作者提出了一个名为 TIR-Judge 的框架,它赋予 LLM 评委新的超能力: 使用代码解释器的能力。通过学习生成并执行代码片段,这些评委可以验证事实、执行计算,并基于证据而非猜测作出判断。其关键在于一个端到端的强化学习 (RL) 流程——教会评委如何以及何时高效地使用工具。


“信我就好”式 AI 评委的问题

奖励模型和 LLM 评委通常被训练通过文本推理来输出分数或偏好。更复杂的版本会在做出判断前生成“思维链”或评论,以帮助形成更连贯的推理——然而,它们仍被限制在一个纯文本框架中。没有现实世界工具的支持,它们无法验证自己的陈述。

早期尝试为模型添加工具暴露了严重问题:

  1. 仅在推理阶段使用: 工具仅在推断时使用,而非在训练过程中引入,阻碍了推理与执行的深度集成。
  2. 应用范围狭窄: 许多方法仅聚焦特定领域 (如代码评估) ,难以扩展到对话或通用推理等任务。

TIR-Judge 框架旨在解决这些缺陷,通过在整个学习过程中训练评委交织推理与工具使用,从而提升可靠性与通用性。


TIR-Judge 简介: 一个能够“展示工作过程”的评委

TIR-Judge 建立在三个核心原则上:

  1. 将工具使用与推理相结合
  2. 支持多种评估格式——逐点 (pointwise) 、成对 (pairwise) 和列表式 (listwise)
  3. 通过强化学习训练以优化工具使用

TIR-Judge 的整体框架,展示了其三个主要组成部分: 工具集成推理、评委评估格式 (逐点、成对、列表) 和强化学习训练策略。

图 2 | TIR-Judge 结合了工具集成推理、灵活的评判格式,以及基于强化学习的稳健训练策略。


1. 用代码解释器思考

TIR-Judge 的核心是迭代式工作机制。当收到一个提示及多个待评估回答时,评委不会立即做出决定,而是通过多轮推理—编码—执行—观察循环进行评估:

  1. 推理: 确定需要检查的内容 (如字数、正确性) 。
  2. 编码: 如果任务涉及可验证的约束,它将编写 Python 代码来检验。
  3. 执行: 在受控沙箱环境中运行代码。
  4. 观察: 将代码输出 (数字、布尔值或错误) 反馈至推理上下文中。
  5. 重复: 基于新证据继续推理,直到得出自信的结论。

展示了推理、代码生成和观察的迭代过程的方程式。

图 3 | 推理、编码、执行与观察的迭代过程让评委的决策建立在可验证的证据之上。

这种推理与工具使用的循环互动,使评委能够证明其评估,而不仅仅是声称。


2. 灵活的评判: 逐点、成对和列表式

现实世界中的评估形式多样,TIR-Judge 可以适应所有场景:

  • 逐点式: 为单个回答打分 (如“score = 7/10”) 。
  • 成对式: 在两个候选回答之间做出选择 (“回答 A 优于回答 B”) 。
  • 列表式: 从多个候选中选出最佳回答。

跨格式训练确保 TIR-Judge 能胜任多样化的对齐与评估任务。


3. 通过强化学习进行训练

模型不会天生知道如何何时使用代码。强化学习为教授这些技能提供了系统化路径。模型会生成包含推理与工具使用的评估轨迹,并根据判断的准确性及输出格式的规范性获得奖励。随着训练的持续,它学会最大化这些奖励。

奖励机制包含三部分:

  1. 正确性奖励 (\(R_c\)): 当评委的最终决定与真实标签匹配时获得正奖励。

正确性奖励的方程式,如果评委的预测与基准真相匹配则为 1,否则为 0。

图 4 | 当评委的输出与正确偏好一致时,正确性奖励得分为 1。

  1. 格式奖励 (\(R_f\)): 强制生成结构化输出。例如,分数必须出现在 <score> 标签中,代码必须写在 python 块中。对于不可验证的任务 (如有用性或安全性评估) ,评委只有在避免不必要工具调用时才能获得满额奖励。

  2. 工具特定奖励 (\(R_t\)): 通过惩罚运行错误或工具调用过多来鼓励良好编码实践。仅当所有代码正确执行且调用次数不超过三次时,轨迹才能获得满分。

这些部分共同构成复合奖励:

最终组合奖励的方程式,它将正确性乘以一个奖励正确格式和工具使用的因子。

图 5 | 总奖励结合了正确性、格式与工具效率——奖励精确且结构良好的推理。

模型学到,仅有准确性并不足够;还需要正确性、格式规范及高效的工具使用才能实现成功。


克服冷启动问题: 两条训练路径

一个全新的 LLM 缺乏结构化推理与工具使用能力。作者提出了两种互补的初始化方案:

1. TIR-Judge-Distill: 该版本利用强大的教师模型 (Gemini 2.5 Flash,支持代码执行) 生成高质量判断轨迹,仅保留正确且格式良好的示例。随后,较小的学生模型在这些数据上进行监督微调 (SFT) ,再通过强化学习进一步优化,确保平稳过渡。

2. TIR-Judge-Zero: 模型能否在无监督的情况下自我学习?令人惊讶的是,可以。TIR-Judge-Zero 通过 RL → 拒绝采样 → SFT 的循环实现自我引导:

图表展示了 TIR-Judge-Zero 结合强化学习 (RL) 、拒绝采样 (RS) 和监督微调 (SFT) 的迭代循环。

图 6 | TIR-Judge-Zero 通过强化学习、拒绝采样与监督微调的迭代循环实现自我提升。

每一轮循环使用模型自身最佳轨迹来优化推理与编码能力,从而在无教师数据的情况下持续改进。


对 TIR-Judge 的实测

研究团队在七个公开基准上评估了 TIR-Judge,涵盖推理、指令遵循与代码评估。比较对象包括领先的专有评委 (GPT‑4o、Claude 3.5) 和开源奖励模型。

表格比较了 TIR-Judge 在六个基准测试中,在逐点和成对设置下的性能。

表 1 | TIR-Judge 在同等规模的推理型评委中始终表现更佳,即使在不可验证领域也取得优异成绩。

主要发现:

  • 卓越的准确性: 相较强推理基线,准确率提升最高至 6.4% (逐点式)7.7% (成对式)
  • RL 至关重要: 仅添加代码解释器而不进行 RL 几乎无提升,说明学习如何使用工具至关重要。
  • 自我提升有效: 无教师监督训练的 TIR-Judge-Zero 常常超越蒸馏版本,实现自主提升。

在更具挑战的列表式任务中,8B 参数的 TIR-Judge 达到 Claude‑Opus‑4 性能的 96% , 尽管模型规模显著更小。

在 RewardBench2 上的列表式评估结果比较,突显了 TIR-Judge-Zero 的强劲表现。

表 2 | TIR-Judge-Zero 8B 的性能几乎与 Claude‑Opus‑4 和 Gemini‑2.5‑Flash 等顶级专有评委相当,展现了卓越的效率。


TIR-Judge 成功的关键因素

多样化的数据混合

同时使用可验证 (数学、代码) 与不可验证 (聊天、安全) 任务训练,可实现更强的泛化能力。仅限单一领域的训练会导致跨领域性能下降。

条形图说明了结合指令遵循、编码、推理和有用性/安全性任务可以达到最佳效果。

图 3 | 涵盖工具使用与文本任务的多样化训练数据能培养更全面的评委。

迭代式强化学习提升性能

每一次 RL 迭代都会显著提升模型的准确率与推理效率。

条形图显示了在多个 RL 轮次中性能的稳步提升。

图 4 | TIR-Judge-Zero 的准确率在迭代强化学习过程中稳步提升,验证了自我改进的有效性。

高效与快速

尽管集成代码执行模块,TIR-Judge 的运行速度仍快于多数纯文本评委。强化学习倾向产出更短、更精炼的推理轨迹和更少工具调用,从而降低推理开销。

按准确率和推理速度比较模型的散点图。

图 5 | TIR-Judge 各变体 (橙色 X) 在准确率与速度上占据领先位置,相比传统文本评委 (绿色圆圈) 更为出色。


案例研究: 当“展示工作过程”至关重要

IFEval 基准中的一个实例清晰展示了 TIR-Judge 的优势。任务要求撰写一封全大写的信,且字母 “O” 至少出现 40 次。

案例研究比较了 TIR-Judge 和纯文本评委。TIR-Judge 编写 Python 代码来精确计算“O”的出现次数。

表 3 | TIR-Judge 执行 Python 代码精确统计字母数量,而纯文本评委通过猜测得出错误结论。

纯文本评委尝试手动计数但猜错了。另一方面,TIR-Judge-Zero 编写了一个简单脚本来统计 “O” 的出现次数并验证是否全大写。执行后发现: 回答 A 包含 58 个 “O”,且完全大写;回答 B 未满足要求。凭借事实证据,TIR-Judge 做出正确判断。

这一实验完美诠释了框架的核心理念: 以验证取代直觉。


结论: 迈向更可信赖的人工智能

TIR-Judge 重新定义了大型语言模型评估他人——以及自我评估——的方式。通过将结构化推理与实际工具使用相结合,并结合强化学习优化,它实现了更精准、透明和高效的评估。

其中的亮点成果 TIR-Judge-Zero 展示了模型可以自我引导复杂的推理与工具使用能力,而无需依赖更强的专有教师。这预示着一个可扩展的未来: AI 系统能够通过持续、可验证的学习来自我完善。

随着 LLM 普及,可信度与事实性至关重要。像 TIR-Judge 这样的工具集成评委,正铺就通向未来的道路——在那个未来,我们不再仅仅听信 AI 的话,而是要求它拿出证据