LLM 如何自我学习，变得更值得信赖

大语言模型 (LLM) 是卓越的工具——能够几乎瞬间回答复杂问题、生成代码和总结文档。然而，它们都有一个顽固的缺陷:** 幻觉**。当你向 LLM 询问信息时，它可能会自信地生成一个流畅、详细但完全错误的答案。

对于随意的使用，这也许只是好笑。但在研究、新闻或医疗等严肃领域，幻觉可能带来灾难性后果。如果我们无法验证 AI 系统的说法，又如何信任它们呢？

最具潜力的解决方案之一是**归因 **(attribution) 。一个具备归因能力的模型在回答问题时，不仅仅是给出答案，还会直接在回复中引用证据。例如: “淡水是指不咸或微咸的水[1]，未经处理可能不适合饮用[2]。” 有了这些引用，用户可以追溯信息来源并确认其真实性。

关键挑战在于——如何让 LLM 学会做好归因。目前的方案要么需要大量昂贵的人工标注数据，要么依赖于从像 GPT-4 这样的专有模型中蒸馏知识——两种方式从长远来看都不具备可扩展性。

但如果 LLM 能够自我教会这项技能呢？

这正是论文 *《通过自我改进提升大语言模型的归因能力》*所提出的。作者介绍了一个名为 START (Self-Taught AttRibuTion) 的框架，它使 LLM 能在没有人类监督或教师模型的情况下，自举其归因能力。START 让模型从自身输出中学习——无论是优秀的还是有缺陷的——从而迭代优化其引用证据与信息综合能力。

本文将拆解 START 的工作机制: 它如何解决自我学习的“冷启动”问题，如何奖励基于事实的回答，以及如何从错误中学习。

归因任务中的自我改进挑战

人工智能中的自我改进理念很直接: 模型生成候选答案，评估质量，保留优秀样本用于训练，并重复这一过程。这在有明确正确性的任务上非常有效——比如数学题——输出要么正确，要么错误。

而归因任务要复杂得多。一个高质量的带引用回答需满足以下三项标准:

可归因性 (Attributability): 每个论断都需由其引用的证据支持。
全面性 (Comprehensiveness): 回答应整合多个文档中的相关信息。
鲁棒性 (Robustness): 模型必须能抵抗无关文本的干扰。

通用 LLM 在这三方面都表现不佳。若直接进行自学习，它们生成的样本质量低，继续训练只会导致模型停滞——陷入平庸循环。此外，即使正确的样本，也仅教模型引用格式，而非证据质量的判断逻辑。

START 通过精心设计的两阶段流程解决这些挑战:** 合成数据预热阶段** 和 迭代式自我改进阶段。

START 两阶段框架的概览，展示预热和自我改进两个阶段。

图 2. START 将合成数据预热与迭代自我改进结合。模型先从生成的合成样例学习，再通过拒绝采样与偏好优化逐步提升自我。

阶段一: 使用合成数据进行预热

为避免模型早期停滞，START 首先提供“完美”样例供学习——无需人工标注。研究者通过 *反向归因 *(reverse attribution) 实现: 模型不是从文档生成答案，而是从答案出发，反向生成能支持该答案的文档。

五步合成数据流程 (见图 1) 如下:

用于生成合成归因数据的五步流程。

图 1. 合成数据流程: 从查询开始，模型生成回答，将其分解为论断，为这些论断生成支持性文档，然后重新标注引用，得到完全可归因的答案。

第 1 步 – 回答生成:
LLM 接收一个查询——如“淡水和饮用水有什么区别？”——并利用内部知识生成详细回答，不带引用。

第 2 步 – 论断分解:
模型将回答拆解为若干原子论断，例如:

淡水指不咸或微咸的水。
淡水未经处理可能不适合饮用。
饮用水是安全且适合人类饮用的水。

第 3 步 – 论断组合:
为模拟多来源场景，原子论断被随机分组，以表现不同观点与来源的组合。

第 4 步 – 文档生成:
针对每个论断集，模型生成简短合成文档以覆盖这些论断，构建准确的支持性证据。为增强鲁棒性，还会添加其他查询的无关文档。

第 5 步 – 归因重标注:
模型重新审视原始回答，在合适处插入引用，将每个论断链接至其支持文档。

最终得到的，是完全匹配的合成数据集——每个引用都 100% 有效。该数据用于在最大似然估计 (Maximum Likelihood Estimation, MLE) 目标下进行监督微调:

\[ \mathcal{L} = -\sum_{i=1}^{N} \log P(y_i \mid q_i, \mathcal{D}_i; \theta) \]

用于监督微调的最大似然估计 (MLE) 目标函数。

图 3. 标准 MLE 目标函数，用于在合成数据上预热模型。

预热阶段至关重要——它为模型奠定归因基础，并确保其输出可被用于后续优化。

阶段二: 迭代式自我改进

预热完成后，模型进入迭代循环，开始自我学习更细致的归因技巧。每次迭代包含两个阶段:

阶段 A – 拒绝采样微调
阶段 B – 细粒度偏好优化

阶段 A: 拒绝采样——筛选高质量样本

针对每个查询，预热模型生成多个候选回答 (如 16 个) ，每个回答在三方面打分:

可归因性 (Attributability): 检查每个陈述是否由引用文档充分支持，由 NLI 模型判断蕴含关系:

\[ AttrScore = \frac{1}{S} \sum_{i=1}^{S} \text{Entail}(\text{Docs},\text{statement}_i) \]

可归因性分数公式。

图 4. 可归因性分数衡量陈述与引用文档之间的事实一致性。

鲁棒性 (Robustness): 衡量回答对无关文本干扰的抗性。
\[ \text{RobustScore} = \frac{P_M(y \mid q\oplus d_r)}{P_M(y \mid q\oplus D)} \]

图 5. 鲁棒性分数比较相关文档集与完整 (含噪声) 文档集下的概率。

全面性 (Comprehensiveness): 检查回答是否覆盖合成“黄金”答案的全部关键论断:
\[ \mathrm{CompreScore} = \frac{1}{C} \sum_{i=1}^{C} \mathrm{Entail}(\mathrm{claim}_i, y) \]

图 6. 全面性分数衡量回答覆盖所有基本论断的完整度。

这些指标组合成一个综合奖励:

\[ Reward = \mathbb{I}(AttrScore) \times \frac{CompreScore}{RobustScore} \]

综合奖励函数公式。

图 7. 综合奖励在强化事实准确性的同时平衡覆盖率与鲁棒性。

仅可归因性满分 (=1.0) 的候选才能获得奖励，其他样本则被淘汰。得分最高的回答被选入监督微调集，通过拒绝采样持续扩充高质量训练数据。

阶段 B: 从错误中学习——细粒度偏好优化

START 并不丢弃低分样本，而是利用其教学价值。团队构建偏好对 (preference pairs) ——“优胜者” (高奖励样本 \(y^+\)) 与“劣势者” (低奖励样本 \(y^-\)) ——并采用直接偏好优化 (Direct Preference Optimization, DPO) 来训练模型倾向更好的回答:

\[ \mathcal{L}_{DPO} = -\mathbb{E}[\log \sigma(\hat{r}_\theta(x,y^+) - \hat{r}_\theta(x,y^-))] \]

\[ \hat{r}_\theta(x,y) = \beta \log \frac{\pi_\theta(y\mid x)}{\pi_{\text{ref}}(y\mid x)} \]

直接偏好优化 (DPO) 的损失函数。 DPO 中的隐式奖励函数。

图 8. 通过比较不同归因与覆盖质量的回答，偏好优化进一步提升模型。

这些偏好对直接针对模型弱点——如高可归因性但低全面性——教授单样本微调无法涵盖的细微平衡。每轮两阶段迭代都会使模型更能干、更审慎。

它真的有效吗？实验结果

START 框架在三个高难度问答数据集上进行了测试:** ASQA**、ELI5 和 StrategyQA。结果极具说服力。

主要结果，比较 START 与各种基线在三个数据集上的表现。

表 1. START 在所有数据集上均实现最先进的引用质量，优于使用昂贵人工或蒸馏数据训练的系统。

START 全面超越所有基线方法。与之前的上下文学习、后处理式引用匹配，以及使用人工或 GPT-4 数据训练的模型相比，START 平均引用质量提升了 25.13%。

更令人瞩目的是它的自我学习能力: 预热后，ASQA 上的引用 F1 分数从 23.5 提升到 72.0 (仅一次迭代) ，并在后续轮次持续增长。模型确实在自我进化。

为什么两个阶段都不可或缺

消融实验显示，预热与偏好优化阶段都是关键组成。

消融实验结果，展示移除预热或偏好优化阶段的影响。

图 9. 移除预热或偏好优化阶段都会导致性能显著下降。

没有预热 (w/o warm-up) ，模型无法在早期获得熟练度并会停滞。首轮迭代中产生完全可归因输出的通过率仅 3.24%，而包含预热的模型可达 42.5%。

拒绝采样阶段有无预热的通过率对比。

表 3. 预热显著提升通过率，为早期自学习提供更丰富监督。

移除偏好优化 (w/o preference) 同样会造成性能下降，证明从低质量样本中学习对掌握归因至关重要。

此外，仅延长合成数据训练时间益处有限，如下图所示: 自我改进迭代带来的监督信号更强。

对比显示，一次自我改进迭代比在初始合成数据上进行多轮训练更有效。

图 3. 一次自我改进迭代的效果优于在静态合成数据上多轮训练。

人工评估也进一步验证: START 在 76.2% 的案例中生成了完全有依据的引用——超过 ChatGPT——并在所有系统中获得最高的全面性得分。

更广泛的启示与结论

LLM 正广泛应用于以准确性与可验证性为核心的场景。START 提供了一条稳健、可扩展的途径，使模型在无外部帮助下学会可信归因。

其成功基于两项关键思想:

以完美合成数据解决冷启动: 反向归因为模型提供无懈可击的初始监督。
通过自生成信号迭代优化: 拒绝采样与偏好优化将模型自身判断转变为学习契机。

除了引用生成，START 还展示了 LLM 自举复杂推理能力的潜力。随着 AI 成为信息检索与决策核心，像 START 这样的框架将成为确保机器输出不仅流畅且可验证的关键。

归因任务中的自我改进挑战#

阶段一: 使用合成数据进行预热#

阶段二: 迭代式自我改进#

阶段 A: 拒绝采样——筛选高质量样本#

阶段 B: 从错误中学习——细粒度偏好优化#

它真的有效吗？实验结果#

为什么两个阶段都不可或缺#

更广泛的启示与结论#