大语言模型 (LLM) 是卓越的工具——能够几乎瞬间回答复杂问题、生成代码和总结文档。然而,它们都有一个顽固的缺陷:** 幻觉**。当你向 LLM 询问信息时,它可能会自信地生成一个流畅、详细但完全错误的答案。

对于随意的使用,这也许只是好笑。但在研究、新闻或医疗等严肃领域,幻觉可能带来灾难性后果。如果我们无法验证 AI 系统的说法,又如何信任它们呢?

最具潜力的解决方案之一是**归因 **(attribution) 。一个具备归因能力的模型在回答问题时,不仅仅是给出答案,还会直接在回复中引用证据。例如: “淡水是指不咸或微咸的水[1],未经处理可能不适合饮用[2]。” 有了这些引用,用户可以追溯信息来源并确认其真实性。

关键挑战在于——如何让 LLM 学会做好归因。目前的方案要么需要大量昂贵的人工标注数据,要么依赖于从像 GPT-4 这样的专有模型中蒸馏知识——两种方式从长远来看都不具备可扩展性。

但如果 LLM 能够自我教会这项技能呢?

这正是论文 *《通过自我改进提升大语言模型的归因能力》*所提出的。作者介绍了一个名为 START (Self-Taught AttRibuTion) 的框架,它使 LLM 能在没有人类监督或教师模型的情况下,自举其归因能力。START 让模型从自身输出中学习——无论是优秀的还是有缺陷的——从而迭代优化其引用证据与信息综合能力。

本文将拆解 START 的工作机制: 它如何解决自我学习的“冷启动”问题,如何奖励基于事实的回答,以及如何从错误中学习。


归因任务中的自我改进挑战

人工智能中的自我改进理念很直接: 模型生成候选答案,评估质量,保留优秀样本用于训练,并重复这一过程。这在有明确正确性的任务上非常有效——比如数学题——输出要么正确,要么错误。

而归因任务要复杂得多。一个高质量的带引用回答需满足以下三项标准:

  1. 可归因性 (Attributability): 每个论断都需由其引用的证据支持。
  2. 全面性 (Comprehensiveness): 回答应整合多个文档中的相关信息。
  3. 鲁棒性 (Robustness): 模型必须能抵抗无关文本的干扰。

通用 LLM 在这三方面都表现不佳。若直接进行自学习,它们生成的样本质量低,继续训练只会导致模型停滞——陷入平庸循环。此外,即使正确的样本,也仅教模型引用格式,而非证据质量的判断逻辑。

START 通过精心设计的两阶段流程解决这些挑战:** 合成数据预热阶段** 和 迭代式自我改进阶段


START 两阶段框架的概览,展示预热和自我改进两个阶段。

图 2. START 将合成数据预热与迭代自我改进结合。模型先从生成的合成样例学习,再通过拒绝采样与偏好优化逐步提升自我。


阶段一: 使用合成数据进行预热

为避免模型早期停滞,START 首先提供“完美”样例供学习——无需人工标注。研究者通过 *反向归因 *(reverse attribution) 实现: 模型不是从文档生成答案,而是从答案出发,反向生成能支持该答案的文档。

五步合成数据流程 (见图 1) 如下:

用于生成合成归因数据的五步流程。

图 1. 合成数据流程: 从查询开始,模型生成回答,将其分解为论断,为这些论断生成支持性文档,然后重新标注引用,得到完全可归因的答案。


第 1 步 – 回答生成:
LLM 接收一个查询——如“淡水和饮用水有什么区别?”——并利用内部知识生成详细回答,不带引用

第 2 步 – 论断分解:
模型将回答拆解为若干原子论断,例如:

  • 淡水指不咸或微咸的水。
  • 淡水未经处理可能不适合饮用。
  • 饮用水是安全且适合人类饮用的水。

第 3 步 – 论断组合:
为模拟多来源场景,原子论断被随机分组,以表现不同观点与来源的组合。

第 4 步 – 文档生成:
针对每个论断集,模型生成简短合成文档以覆盖这些论断,构建准确的支持性证据。为增强鲁棒性,还会添加其他查询的无关文档。

第 5 步 – 归因重标注:
模型重新审视原始回答,在合适处插入引用,将每个论断链接至其支持文档。

最终得到的,是完全匹配的合成数据集——每个引用都 100% 有效。该数据用于在最大似然估计 (Maximum Likelihood Estimation, MLE) 目标下进行监督微调:

\[ \mathcal{L} = -\sum_{i=1}^{N} \log P(y_i \mid q_i, \mathcal{D}_i; \theta) \]

用于监督微调的最大似然估计 (MLE) 目标函数。

图 3. 标准 MLE 目标函数,用于在合成数据上预热模型。

预热阶段至关重要——它为模型奠定归因基础,并确保其输出可被用于后续优化。


阶段二: 迭代式自我改进

预热完成后,模型进入迭代循环,开始自我学习更细致的归因技巧。每次迭代包含两个阶段:

阶段 A – 拒绝采样微调
阶段 B – 细粒度偏好优化


阶段 A: 拒绝采样——筛选高质量样本

针对每个查询,预热模型生成多个候选回答 (如 16 个) ,每个回答在三方面打分:

  1. 可归因性 (Attributability): 检查每个陈述是否由引用文档充分支持,由 NLI 模型判断蕴含关系:
\[ AttrScore = \frac{1}{S} \sum_{i=1}^{S} \text{Entail}(\text{Docs},\text{statement}_i) \]

可归因性分数公式。

图 4. 可归因性分数衡量陈述与引用文档之间的事实一致性。

  1. 鲁棒性 (Robustness): 衡量回答对无关文本干扰的抗性。
    \[ \text{RobustScore} = \frac{P_M(y \mid q\oplus d_r)}{P_M(y \mid q\oplus D)} \] 鲁棒性分数公式。

图 5. 鲁棒性分数比较相关文档集与完整 (含噪声) 文档集下的概率。

  1. 全面性 (Comprehensiveness): 检查回答是否覆盖合成“黄金”答案的全部关键论断:
    \[ \mathrm{CompreScore} = \frac{1}{C} \sum_{i=1}^{C} \mathrm{Entail}(\mathrm{claim}_i, y) \] 全面性分数公式。

图 6. 全面性分数衡量回答覆盖所有基本论断的完整度。

这些指标组合成一个综合奖励:

\[ Reward = \mathbb{I}(AttrScore) \times \frac{CompreScore}{RobustScore} \]

综合奖励函数公式。

图 7. 综合奖励在强化事实准确性的同时平衡覆盖率与鲁棒性。

仅可归因性满分 (=1.0) 的候选才能获得奖励,其他样本则被淘汰。得分最高的回答被选入监督微调集,通过拒绝采样持续扩充高质量训练数据。


阶段 B: 从错误中学习——细粒度偏好优化

START 并不丢弃低分样本,而是利用其教学价值。团队构建偏好对 (preference pairs) ——“优胜者” (高奖励样本 \(y^+\)) 与“劣势者” (低奖励样本 \(y^-\)) ——并采用直接偏好优化 (Direct Preference Optimization, DPO) 来训练模型倾向更好的回答:

\[ \mathcal{L}_{DPO} = -\mathbb{E}[\log \sigma(\hat{r}_\theta(x,y^+) - \hat{r}_\theta(x,y^-))] \]

\[ \hat{r}_\theta(x,y) = \beta \log \frac{\pi_\theta(y\mid x)}{\pi_{\text{ref}}(y\mid x)} \]

直接偏好优化 (DPO) 的损失函数。 DPO 中的隐式奖励函数。

图 8. 通过比较不同归因与覆盖质量的回答,偏好优化进一步提升模型。

这些偏好对直接针对模型弱点——如高可归因性但低全面性——教授单样本微调无法涵盖的细微平衡。每轮两阶段迭代都会使模型更能干、更审慎。


它真的有效吗?实验结果

START 框架在三个高难度问答数据集上进行了测试:** ASQA**、ELI5StrategyQA。结果极具说服力。

主要结果,比较 START 与各种基线在三个数据集上的表现。

表 1. START 在所有数据集上均实现最先进的引用质量,优于使用昂贵人工或蒸馏数据训练的系统。

START 全面超越所有基线方法。与之前的上下文学习、后处理式引用匹配,以及使用人工或 GPT-4 数据训练的模型相比,START 平均引用质量提升了 25.13%

更令人瞩目的是它的自我学习能力: 预热后,ASQA 上的引用 F1 分数从 23.5 提升到 72.0 (仅一次迭代) ,并在后续轮次持续增长。模型确实在自我进化。


为什么两个阶段都不可或缺

消融实验显示,预热与偏好优化阶段都是关键组成。

消融实验结果,展示移除预热或偏好优化阶段的影响。

图 9. 移除预热或偏好优化阶段都会导致性能显著下降。

没有预热 (w/o warm-up) ,模型无法在早期获得熟练度并会停滞。首轮迭代中产生完全可归因输出的通过率仅 3.24%,而包含预热的模型可达 42.5%。

拒绝采样阶段有无预热的通过率对比。

表 3. 预热显著提升通过率,为早期自学习提供更丰富监督。

移除偏好优化 (w/o preference) 同样会造成性能下降,证明从低质量样本中学习对掌握归因至关重要。

此外,仅延长合成数据训练时间益处有限,如下图所示: 自我改进迭代带来的监督信号更强。

对比显示,一次自我改进迭代比在初始合成数据上进行多轮训练更有效。

图 3. 一次自我改进迭代的效果优于在静态合成数据上多轮训练。

人工评估也进一步验证: START 在 76.2% 的案例中生成了完全有依据的引用——超过 ChatGPT——并在所有系统中获得最高的全面性得分。


更广泛的启示与结论

LLM 正广泛应用于以准确性可验证性为核心的场景。START 提供了一条稳健、可扩展的途径,使模型在无外部帮助下学会可信归因。

其成功基于两项关键思想:

  1. 以完美合成数据解决冷启动: 反向归因为模型提供无懈可击的初始监督。
  2. 通过自生成信号迭代优化: 拒绝采样与偏好优化将模型自身判断转变为学习契机。

除了引用生成,START 还展示了 LLM 自举复杂推理能力的潜力。随着 AI 成为信息检索与决策核心,像 START 这样的框架将成为确保机器输出不仅流畅且可验证的关键。