小体量智能体能否智胜巨人？赋能小型 LLM 进行幻觉检测

引言

我们正处于大语言模型 (LLM) 的黄金时代。从 ChatGPT 到 Llama，这些模型帮我们起草邮件、调试代码，甚至创作诗歌。然而，尽管它们才华横溢，却受制于一个顽固且往往危险的缺陷: 幻觉 (Hallucination) 。它们可能会自信地陈述历史错误，编造法律判例，或者生成看起来完美但一运行就崩溃的代码。

为了解决这个问题，业界主要采取了“以毒攻毒”的策略。我们使用最强大的模型 (如 GPT-4) 来监督其他模型的输出。这种方法虽然有效，但造成了瓶颈。这些“巨人”模型通常是闭源的，通过 API 调用的成本高昂，且计算量巨大。

但是，如果我们不需要巨人呢？如果一个经过专门训练、作为自主智能体 (Agent) 行动的小型开源模型，能做得一样好，甚至更好呢？

这就是研究论文 《Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector》 的前提。研究人员提出了 HaluAgent , 这是一个赋能相对较小的 70 亿参数模型 (Baichuan2-Chat) 的框架，使其能够主动检测文本、代码和数学中的幻觉。通过将模型不再视为被动的阅读者，而是配备工具箱的主动智能体，他们证明了只要策略得当，体量并不是一切。

在这篇深度文章中，我们将拆解 HaluAgent 的工作原理、使其变得聪明的“轨迹微调 (trajectory tuning) ”，以及那些表明小型智能体已准备好进入大联盟的实验结果。

幻觉的全貌

在理解解决方案之前，我们必须先定义问题。LLM 中的幻觉并非只有一种。它们通常分为几类:

事实性错误: 在问答环节中弄错日期或名字。
指令偏移: 未能遵循约束条件 (例如，“请用确切的 50 个字回复”) 。
逻辑/数学错误: 在应用题中进行错误的算术运算。
代码错误: 编写语法错误或使用不存在库的代码。
语义不一致: 在同一段落中自相矛盾。

现有检测器的局限性

大多数现有的错误检测方法都有局限性。有些纯粹依赖模型的“内部知识”——即询问模型: “你确定吗？”这通常会失败，因为如果模型一开始就不知道事实，它很可能也不知道自己错了。

其他方法使用外部工具 (如谷歌搜索) ，但将它们嫁接到像 GPT-4 这样的庞大模型上。这种方法行之有效，但它阻碍了资源有限的开发者部署有效的幻觉检查器。

表 1: 不同方法的比较。Task Agnostic 指方法是否针对特定任务设计；Fine Grained 描述是否提供详细的幻觉句子；Extensibility 指方法是否可以扩展到更多任务和工具。

如上方的 表 1 所示，HaluAgent 试图满足所有要求: 它使用开源的基础模型 (Baichuan2-Chat) ，对特定任务 (文本 vs 代码) 是不感知的 (agnostic) ，它使用工具，并且具有可扩展性。不同于仅限于模型自身概率的 SelfCheckGPT，或依赖 GPT-4 的 FacTool，HaluAgent 旨在寻找一个最佳平衡点: 低资源成本下的高能力。

HaluAgent 框架

这篇论文的核心创新在于将幻觉检测的视角从分类任务 (真/假) 转变为智能体任务 (规划、行动、观察、反思) 。

HaluAgent 不再只是简单地把句子喂给 LLM 并问“这是真的吗？”，而是将过程分解为一个复杂的流水线。该架构旨在模仿人类事实核查员的工作方式: 我们不会盯着一句话直到知道真相；我们会将其拆解，搜索证据，进行计算，然后得出结论。

图 1: 我们提出的 HaluAgent 概览。左侧显示了微调开源模型和检测幻觉的过程。右侧展示了 HaluAgent 的幻觉检测流水线。

图 1 提供了高层路线图。在右侧，你可以看到检测流水线。它在三个不同的阶段运行: 句子分割、工具选择与验证以及反思。

让我们拆解一下其底层机制。

1. 多功能工具箱

HaluAgent 的一个显著特征是承认 LLM 不擅长某些事情 (比如大数乘法) ，不应信任它们“在脑子里”完成这些任务。相反，智能体被赋予了一个工具箱。

表 5: HaluAgent 中的工具箱指令。

表 5 详细列出了提供给智能体的具体工具:

Web Search (网页搜索) : 用于验证事实性主张 (基于知识的问答) 。
Calculator (计算器) : 用于检查数学问题中的算术。
Code Interpreter (代码解释器) : 用于执行代码片段以查看其是否崩溃。
Word Count (字数统计) : 用于验证文本生成中的长度约束。
Match (Semantic Checker) (匹配/语义检查器) : 一个专门的工具，用于检查句子是否与上下文矛盾。
System Tools (系统工具) : 如 split_text，用于拆分段落。

智能体不会随机使用这些工具。它必须学会哪个工具适用于哪种类型的幻觉。

2. 三阶段工作流

HaluAgent 的“大脑”遵循一个特定的循环以确保细粒度的检测。

第一阶段: 句子分割 (分而治之)

LLM 的回复可能冗长且杂乱，混合了事实、观点和代码。一次性检查整块内容容易出错。HaluAgent 首先使用 split_text 将回复切分成独立的、自包含的句子 (或逻辑单元) 。这隔离了各个主张，使其更易于逐一验证。

第二阶段: 工具选择与验证

这是“智能体”特性大放异彩的地方。对于每个分割后的句子，模型决定: 这需要外部验证吗？

如果句子说“巴黎是法国的首都”，它调用 web_search。
如果句子说“25 * 4 = 100”，它调用 calculator。
如果句子提供了一个 Python 函数，它调用 code_interpreter。

智能体生成一个“思考 (Thought) ” (推理要做什么) ，执行一个“行动 (Action) ” (调用工具) ，并接收一个“观察 (Observation) ” (工具的输出) 。

第三阶段: 反思与记忆

这是确保准确性的最关键步骤。即使有了工具，智能体也可能感到困惑。HaluAgent 采用了一种记忆机制 。它将每个句子的检查结果存储为一个三元组: (sentence, hallucination_label, supporting_evidence) (句子，幻觉标签，支持证据) 。

一旦检查完所有句子，智能体进入反思 (Reflection) 阶段。它会查看“局部”证据 (这个具体事实是否与搜索结果匹配？) 和“全局”上下文 (这个正确的计算在答案的更广泛逻辑中是否合理？) 。只有经过反思后，它才会输出最终裁决。

如何训练一个小巨人: 轨迹微调

挑战在于: 小型开源模型 (如 70 亿参数) 通常开箱即用时不具备处理复杂工具使用、多步推理和记忆管理的智慧。如果你要求一个标准的小型模型“使用计算器工具”，它可能只会幻觉出计算器的输出！

为了弥补这一差距，研究人员使用了一种称为轨迹微调 (Trajectory Fine-Tuning) 的技术。

合成“专家”行为

由于无法依赖小型模型自己弄清楚这些，他们首先使用了一个“教师”模型——GPT-4。他们向 GPT-4 提供了 HaluAgent 的指令和多样化的数据集 (知识问答、数学、代码) 。

GPT-4 充当了完美的智能体，生成了分步日志，称为轨迹 (trajectories) 。一个轨迹看起来像这样:

Observation (观察) : 收到输入文本。
Thought (思考) : “我需要拆分这段文本。”
Action (行动) : split_text(...)
Observation (观察) : [句子 1, 句子 2…]
Thought (思考) : “句子 1 是一个历史事实。我将搜索谷歌。”
Action (行动) : web_search(...) … 依此类推。

研究人员过滤了这些日志，确保只保留 GPT-4 正确识别出幻觉的高质量日志。

表 2: 合成检测轨迹的统计数据。

如 表 2 所示，他们不需要数百万个样本。他们合成了大约 2,000 条轨迹 , 涵盖了不同领域 (WebQA, Math, Code 等) 。这是一个惊人小的规模，突显了该方法的效率。

微调学生

数据准备好后，他们在这些轨迹上微调了 Baichuan2-Chat 模型。目标是教导小型模型模仿教师的过程。

$()\n{ \\mathcal { L } } = - \\log \\sum _ { i = 1 } ^ { n } \\operatorname* { P r } ( t _ { i } , a _ { i } | c _ { i } ) .\n()$

上面的方程展示了训练目标，这是一个标准的语言建模损失函数，但专门应用于智能体的思考 ($t_i$) 和行动 ($a_i$) , 并以上下文 ($c_i$) 为条件。本质上，如果模型未能像专家轨迹那样每一步都进行完全一样的“思考”或“行动”，它就会受到惩罚。

实验结果: 它有效吗？

研究人员将 HaluAgent 与几个基线进行了对比测试。最重要的比较对象是:

Baichuan2-Chat (Base): 没有经过智能体微调的小型模型 (使用简单提示词) 。
GPT-4 (Prompt): 使用标准“这是幻觉吗？”提示词的巨人模型。
GPT-4 (Pipeline): 使用完整 HaluAgent 工具流水线的巨人模型。

他们在域内 (In-domain) 数据集 (类似于训练数据) 和域外 (Out-of-domain) 数据集 (训练中未见过的新类型问题) 上进行了测试。

回复级检测

第一个测试是二元的: 模型能否正确地将回复标记为“有幻觉”或“无幻觉”？

表 3: 域内和域外数据集上的准确率和 F1 分数评估结果。粗体表示开源模型中的最佳方法；下划线表示闭源模型中的最佳方法。

表 3 揭示了几个引人注目的见解:

小型模型单打独斗很吃力: 看一下“Baichuan2-Chat 7B”这一列。它的表现很差 (例如，在 Ape210K 数学题上只有 49% 的准确率) 。没有工具或训练，小型模型只能靠猜。
HaluAgent 匹敌 GPT-4: 现在看“HaluAgent 7B”这一列。在 WebQA 数据集上，它跃升至 80.00% 的准确率 , 几乎匹配 GPT-4 的 82.00%。在数学数据集 (Ape210K) 上，它达到了 72.00% , 有效地匹配了 GPT-4 的 72.33%。
击败巨人? 在“WordCnt”数据集 (检查长度约束) 上，HaluAgent 达到了 100% 的准确率 , 大大超过了标准 GPT-4 提示词版 (56%) 。这是因为 HaluAgent 学会了使用 word_count 工具，而 GPT-4 (在提示词模式下) 试图“在脑子里”数字数——这是 LLM 已知的一个弱点。

句子级粒度

仅仅说“这段话错了”是不够的。一个好的检测器必须指向确切的句子。

表 4: FacTool 四个子集上的句子级检测评估结果。

表 4 显示了在 FacTool 基准测试上的结果。HaluAgent (特别是 13B 版本) 显示出比基础模型巨大的提升。

数学: 基础 7B 模型的 F1 分数为 19.51% 。 HaluAgent 7B 飙升至 68.80% 。
科学: 提升更为显著，从 17.54% 升至 94.16% 。

这证实了“分而治之”策略 (分割+验证) 对于精确定位错误非常有效。

案例研究: HaluAgent 实战

为了真正体会这种差异，让我们看一个定性比较。

图 3: GPT-4 使用简单提示词和单一工具，与 HaluAgent 框架之间的案例研究对比。

图 3 展示了一个关于平均速度的棘手数学应用题。

幻觉: 答案声称“3 小时 + 0.5 小时 + 1.5 小时 = 4 小时。” (正确的总和是 5) 。
GPT-4 (简单提示词) : 它阅读文本并说“No” (未发现幻觉) 。它漏掉了算术错误。
单一工具方法: 即使仅使用搜索引擎也没有帮助，因为错误是基于计算的，而不是基于事实的。
HaluAgent:

它拆分了文本。
它识别出需要计算。
它对“3 + 0.5 + 1.5”调用了 calculator 工具。
它将工具输出 (5.0) 与文本 (4) 进行了比较。
它准确地标记了错误。

这展示了自主工具选择的威力。HaluAgent 不仅仅是搜索；它识别出了针对特定句子需要哪个工具。

可扩展性: 学习新把戏

专用模型的一个主要担忧是僵化。HaluAgent 只能做它受训要做的事吗？为了测试这一点，研究人员在训练后添加了两个新工具: 一个日历 (Calendar) 工具和一个翻译器 (Translator) 工具。他们只是在提示词中提供了说明 (零样本) ，而没有重新训练模型。

图 2: 新工具的使用率和成功检测的比例。

图 2 显示了结果。HaluAgent 成功采用了新工具。

日历: 它实现了 100% 的工具使用率和检测成功率。
翻译器: 它在 98% 的时间里使用了工具，成功率约为 90%。

这证明了“智能体”训练并不仅仅是记住了训练集中的特定工具 (如计算器或搜索) 。它学会了根据指令使用工具的概念，从而使其能够泛化到新的能力上。

结论

论文《Small Agent Can Also Rock!》为 AI 安全的民主化提出了令人信服的论据。它挑战了我们需要最大、最昂贵的专有模型来控制 AI 的假设。

通过结合细粒度检测框架 (拆分、验证、反思) 与轨迹微调 , 研究人员创建了 HaluAgent 。该系统允许一个适度的 7B 参数模型显著超越其基础版本，并经常能与 GPT-4 匹敌。

这对学生和开发者有着重要的意义:

成本效益: 幻觉检测可以在本地运行，或者在开源硬件上廉价运行。
专业化: 小型模型在作为智能体进行微调时，可以展现出远超其体量的能力。
信任: 通过使用明确的工具 (计算器、搜索) ，模型的验证过程是透明且可解释的，这与大型模型的“黑盒”置信度分数不同。

随着我们前进，“智能体”范式——即模型主动使用工具而不仅仅是预测 token——似乎是解锁 AI 可靠性的关键，无论模型大小如何。

引言#

幻觉的全貌#

现有检测器的局限性#

HaluAgent 框架#

1. 多功能工具箱#

2. 三阶段工作流#

第一阶段: 句子分割 (分而治之)#

第二阶段: 工具选择与验证#

第三阶段: 反思与记忆#

如何训练一个小巨人: 轨迹微调#

合成“专家”行为#

微调学生#

实验结果: 它有效吗？#

回复级检测#

句子级粒度#

案例研究: HaluAgent 实战#

可扩展性: 学习新把戏#

结论#

引言