像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 已经彻底改变了我们与文本交互的方式。它们可以写诗、总结邮件,甚至编写代码。然而,当你要求 LLM 执行一项需要分析复杂结构化文档 (如包含数十篇引用的学术论文) 并为其分配特定数值评级 (如“颠覆性评分”) 的任务时,模型往往会步履维艰。
这种困难源于两个主要问题: 结构和精度 。 首先,标准的 LLM 是线性阅读文本的,但现实世界的文档往往具有层级结构 (信息树) 。其次,LLM 是概率性的文本生成器,而不是计算器;它们很难直接输出精确、连续的数值。
在这篇文章中,我们将深入探讨一篇引人入胜的论文,题为 “Recurrent Alignment with Hard Attention for Hierarchical Text Rating” (用于分层文本评级的循环对齐与硬注意力机制) 。 研究人员提出了一个名为 RAHA 的新颖框架,该框架允许 LLM 高效地“阅读”层级结构,并利用一种受马尔可夫链启发的技术来“优化”其数值预测。
问题所在: 当线性阅读失效时
想象一下,你试图确定一篇科学论文是否具有“颠覆性”——即它是否改变了其领域的发展轨迹。要做这件事,你不能只读摘要。你需要理解论文 (根) 与其参考文献 (叶) 之间的关系。
如果你将包含论文及其所有参考文献的一大串文本输入到 LLM 中,你会遇到“迷失在中间” (Lost in the Middle) 现象。模型会被长度和噪音淹没,从而失去对重要细微联系的追踪。此外,简单地要求 LLM “从 0 到 1 进行打分”通常会产生不一致的结果,因为该模型是为下一个 token 预测而优化的,而不是为回归任务优化的。

如上方的 图 1 所示,标准的 LLM (左侧) 将输入视为扁平序列,经常无法命中目标 (由红色 X 标记) 。而 RAHA 框架 (右侧) 则尊数据的树状结构,以产生高精度数值评级的方式处理根和叶。
解决方案: RAHA 架构
RAHA 框架使用双管齐下的方法来解决这些挑战: 用于处理输入的硬注意力 (Hard Attention) 和用于优化输出的循环对齐 (Recurrent Alignment) 。
让我们拆解一下这个架构。

如 图 2 所示,该过程分为两个不同的阶段,涉及两个不同的 LLM。
阶段 1: 基于树的硬注意力
第一个挑战是降噪。并非论文中的每一篇参考文献都对理解其颠覆性至关重要。有些只是背景噪音。
RAHA 使用一个冻结的 LLM (在训练期间不更新权重的 LLM) 作为过滤器。系统不再一次性输入整个文档树,而是将其分解为对: <根, 叶> (例如,<主论文, 参考文献 1>) 。
对于每一对,系统会提示冻结的 LLM 生成两样东西:
- 硬注意力分数 (\(a\)): 一个二进制值 (0 或 1) 。这片叶子相关吗?
- 符号表示 (\(d\)): 描述关系的文本摘要或更新向量。
这个过程可以用数学公式表示为:

在这里,\(p\) 是提示词,\(\mathcal{F}\) 是冻结的 LLM。这一步有效地“修剪”了树。如果注意力分数 \(a\) 为 0,则丢弃该叶子。如果为 1,则保留信息 \(d\)。
然后,我们只聚合有用的信息。这在繁重的工作开始之前过滤掉了噪音:

在阶段 1 结束时,巨大的层级文档已被压缩成一组干净的相关见解 (\(D^*_i\)) ,为下一步做好了准备。
阶段 2: 可训练的聚合器
既然我们已经过滤了噪音,现在我们需要生成一个评级。RAHA 使用第二个可训练的 LLM 。
微调庞大的 LLM 在计算上非常昂贵。为了解决这个问题,研究人员使用了参数高效微调 (PEFT) 。 他们冻结 LLM 的主要权重,并注入小型的、可训练的适配器层 (矩阵 \(A\) 和 \(B\)) 。

最后,在 LLM 的末端添加一个全连接层,将高维隐藏状态投影为单个数值分数 (\(y\)) :

“顿悟”时刻: 循环对齐
如果论文到此为止,那只是一个稳健的工程改进。但研究人员引入了第三个概念,使这项工作真正独特: 循环对齐 (Recurrent Alignment) 。
人类的推理很少是“一次性”的。当我们评估复杂事物时,我们会形成初步意见,审查证据,调整意见,并重复此过程直到我们确信为止。RAHA 使用类马尔可夫过程 (Markov-like process) 模仿了这一点。
它是如何工作的
在推理过程中,模型不仅仅预测一次分数。它执行多次迭代。
- 迭代 1: 模型接收根、过滤后的叶子,以及一个用于存放上一次分数的占位符 (初始化为“None”) 。它预测一个分数,比如 \(0.3\)。
- 迭代 2: 模型接收相同的文本输入,但提示词现在包含: “上一次预测的评级是 0.3”。模型重新评估并将分数调整为 \(0.45\)。
- 迭代 K: 这个过程持续 \(K\) 步。
用于此迭代过程的提示词构建如下所示:

迭代循环定义为:

为什么这很重要 (稳定性的数学原理)
通过将输出反馈回输入,系统的行为就像一个马尔可夫链。在概率论中,马尔可夫链从一个状态转移到另一个状态,直到达到“平稳分布”——即进一步的转移不会即使改变状态的稳定点。
研究人员提供了一个理论证明,表明这种迭代过程有助于模型收敛到一个稳定、准确的表示。第 \(K\) 步的预测可以看作是先前变换的总和:

假设神经网络的参数表现良好 (具体来说,如果谱半径小于 1,这在训练后的网络中很常见) ,该过程在数学上会收敛:

这意味着只要有足够的迭代次数,模型就会自然地“稳定”在数学上最一致的答案上,从而弥合了离散文本生成与连续数值评级之间的差距。
训练这一庞然大物
为了训练这个系统,研究人员使用均方误差 (MSE) 作为损失函数。他们将每次迭代的预测分数与真实值进行比较。

有趣的是,尽管模型在测试期间进行了多次迭代,但它的训练目标是最小化每一步的误差,从而增强了其自我纠正的能力。
实验与结果
这真的有效吗?研究人员在三个分层数据集上测试了 RAHA:
- DBLP: 计算机科学论文引文网络。
- PubMed: 生物医学文献引文网络。
- PatentsView: 专利引文网络。
他们将 RAHA 与标准的预训练模型 (SciBERT, RoBERTa) 和大型 LLM (Llama3, GLM3) 进行了比较。
主要表现
结果汇总在 表 1 中,显示 RAHA 始终优于基线模型。

从数据中得出的关键结论:
- LLMs > PLMs: 大型模型通常优于较小的预训练语言模型 (PLM) 。
- RAHA 提升一切: 当 RAHA 应用于任何基础模型 (例如 Llama3-RAHA vs. Llama3) 时,性能都有显著提升。
- 消融实验: 去掉“硬注意力”会损害性能 (证明过滤是必要的) 。去掉“循环对齐”也会增加误差 (证明循环有效) 。
可视化迭代改进
循环对齐策略最有力的证据来自于观察错误率随时间的下降。

请看 图 3 (特别是图 a、c 和 e) 。y 轴代表平均绝对误差 (MAE) 。
- 初始化很重要: 当模型从“None”开始 (图 a、c、e) 时,误差在第一次迭代后急剧下降并趋于稳定。这证实了模型正在学习优化其猜测。
- 随机化有负面影响: 当使用随机值初始化 (图 b、d、f) 时,模型很难有效地收敛。这表明从“空白状态”开始允许模型构建逻辑推理路径,而随机值引入了难以消除的偏差。
表示的收敛
最后,研究人员观察了模型的“大脑”——隐藏表示。他们测量了模型当前状态与“目标”状态 (如果模型知道完美答案时的状态) 之间的 Kullback-Leibler (KL) 散度。

在 图 4 中,条形图代表了模型的思维过程与理想思维过程之间的差异 (散度) 。在所有三个数据集中,这种散度随着迭代的进行而缩小。这一经验数据支持了理论上的马尔可夫链主张: 模型确实在一步步地将其内部表示与真理“对齐”。
更广泛的影响
虽然这篇论文侧重于分层文本 (论文和专利) ,但研究人员也在纯文本数据集 (ASAP 和 Splunk) 上测试了 RAHA,发现它仍然表现良好。

这表明循环对齐是一种通用的技术,可以提高 LLM 在许多回归或评级任务上的表现,而不仅仅是那些具有树状结构的任务。
结论
RAHA 框架为当前 LLM 在处理复杂、结构化评估方面的局限性提供了一个精妙的解决方案。通过结合硬注意力来过滤结构噪声和循环对齐来迭代优化预测,它将标准的 LLM 变成了一个精确的评级机器。
对于 NLP 领域的学生和研究人员来说,这篇论文强调了两个关键教训:
- 结构很重要: 将所有文本视为扁平序列对于现实世界的文档来说是次优的。
- 迭代推理有效: 允许模型根据其先前的猜测“重新思考”其输出,可以创建一个推动准确性的反馈循环。
随着我们继续将 LLM 推向科学和分析领域,像 RAHA 这样的技术对于超越简单的文本生成并迈向可靠的定量推理将至关重要。
](https://deep-paper.org/en/paper/2402.08874/images/cover.png)