引言
想象一下一个正在准备高难度数学考试的学生。他们不仅仅是背诵公式,还会做练习题。当他们正确解决一个问题时,他们会记住自己使用的逻辑。随后,当面对一个类似但全新的问题时,他们会回忆起那个成功的逻辑来指导自己。这个过程——积累经验,过滤掉错误,并回忆起最相关和最复杂的解决方案——是人类学习的基础。
然而,标准的大型语言模型 (LLM) 在标准部署中通常缺乏这种动态的“经验性”能力。它们通常是静态的。你向它们提问,它们回答,然后交互就结束了。如果它们出色地解决了一个问题,那个“思维过程”通常会在会话结束后随之消失。
虽然像 思维链 (Chain-of-Thought, CoT) 这样的技术通过要求 LLM “一步步思考”,彻底改变了它们处理推理的方式,但也存在一个问题。零样本提示 (不提供示例) 在处理复杂任务时往往不可靠。少样本提示 (提供示例) 效果更好,但它严重依赖人类手动编写完美的示例。
如果 LLM 能够在回答问题的过程中建立自己的“经验池”,自主判断过去的哪些回答是好的,并利用这些回答来帮助解决未来的问题,那会怎样?
这就是 RoSE (Reasoning with Orchestrated Streaming Experiences,基于编排流式经验的推理) 的前提,这是由复旦大学研究人员提出的一个新颖框架。RoSE 允许 LLM 在流式环境中自我提升,无需任何人工标记的数据或外部反馈。在这篇文章中,我们将解构 RoSE 如何将 LLM 转变为一个经验型学习者,通过编排其记忆来成为更好的推理者。
背景: 提示工程的困境
要理解 RoSE,我们首先需要了解 LLM 推理的现状。
思维链 (CoT) 的力量
推理任务——如数学应用题或常识逻辑谜题——对语言模型来说出了名的难,因为它们需要多步推导。
- 少样本 CoT (Few-Shot CoT) : 这包括向模型提供包含几个问题、其推理步骤 (基本原理) 和最终答案的提示。模型会模仿这种模式。
- 零样本 CoT (Zero-Shot CoT) : 令人惊讶的是,只需在问题后加上“让我们一步步思考 (Let’s think step by step) ”,就能触发模型生成自己的推理路径。
局限性
虽然有效,但这些方法存在瓶颈:
- 依赖人工努力: 少样本 CoT 需要“黄金”示例。如果示例不好,输出就会很差。
- “复制效应”: 如果你提供的示例与测试问题 太 相似,模型可能会懒惰地复制示例中的答案或逻辑模式,从而导致错误。
- 静态特性: 标准提示不会进化。模型不会从它刚刚回答的 100 个问题中学习。
现有的解决方案如 Auto-CoT 试图使用聚类来自动化示例选择,但在选择示例的 质量 方面往往缺乏细致的考量。RoSE 旨在通过创建一个动态系统来解决这个问题,该系统不仅考虑相似性,还考虑其存储经验的 不确定性 和 复杂性 。
RoSE 框架
RoSE 的核心创新在于它在 流式环境 中运行。随着问题逐一到来,系统会回答它们并存储交互过程。随着时间的推移,它建立了一个巨大的已解决问题库。当新问题到来时,它就像一个编排器,搜索其记忆以找到最有帮助的“经验”作为演示示例。
架构如下图所示:

如上图所示,工作流程是循环的:
- 一个 测试问题 (Test Question) 到达。
- RoSE 搜索其 流式经验池 (Streaming Experience Pool) (过去已回答的问题) 。
- 它执行 经验编排 (Experience Orchestration) , 基于多样性、不确定性和复杂性选择最佳示例。
- 它使用这些选定的经验构建提示来回答测试问题。
- 新的问题、推理路径和答案被添加回池中,以帮助解决未来的问题。
让我们分解一下 RoSE 如何衡量和选择这些经验的机制。
1. 经验池与属性
为了使系统正常工作,它不能简单地存储它生成的每一段文本。它需要用指示质量的元数据标记每个记忆。RoSE 为每个存储的问题附加了两个关键属性: 不确定性 (Uncertainty) 和 复杂性 (Complexity) 。
计算不确定性
模型如何在没有人类检查的情况下知道自己过去的答案是否可能正确?研究人员使用了 自洽性 (Self-Consistency) 的概念。
当 RoSE 处理一个问题时,它不仅生成一个答案。它会生成多条不同的推理路径 (例如,20 次不同的尝试) 。然后它会查看这些路径产生的最终答案。
- 如果 20 条路径中有 19 条得出答案“42”,模型是 自信的 (低不确定性) 。
- 如果答案很分散 (有的说是“42”,有的说是“12”,有的说是“100”) ,模型是 困惑的 (高不确定性) 。
在数学上,这是使用熵来计算的。首先,他们识别唯一的答案及其概率:

这里,\(p(a_i^*)\) 代表特定答案在生成的路径中出现的概率。不确定性 \(u_{q_t}\) 是这种分布的熵。高熵意味着高不确定性。
这为什么重要?研究人员发现不确定性与准确性之间存在很强的相关性。如下图所示,随着不确定性增加 (在 x 轴上向右移动) ,准确性 (虚线) 直线下降。
![图 2: SVAMP 数据集上准确率与不确定性数值大小的关系。我们将不确定性的范围归一化为 [0, 1]。](/en/paper/2504.00473/images/003.jpg#center)
通过过滤掉具有高不确定性的经验,RoSE 避免了使用“幻觉”或错误的答案作为未来问题的示例。
计算复杂性
并非所有正确答案都是生而平等的。像“1 + 1 = 2”这样的简单问题,对于试图解决高等微积分的模型来说,提供的教学价值微乎其微。研究人员认为 复杂 的问题——那些需要更多步骤才能解决的问题——是更好的老师。
RoSE 基于推理路径的长度来衡量复杂性。直觉是,更长的思维链包含更详细的逻辑。

在这个方程中,\(c_q\) (复杂性) 是与最频繁答案相关的推理路径的平均步数。当向池中添加问题时,RoSE 会保存步数最多的特定推理路径,以确保存储的经验尽可能详细:

这导致经验池中的每个条目看起来像这样:

2. 经验编排
现在我们有一个标记了不确定性 (\(u\)) 和复杂性 (\(c\)) 的问题池,RoSE 如何选择最佳示例来帮助回答一个 新 的测试问题 (\(q_t\)) 呢?
随机选择是有风险的。只选择最相似的问题又有“复制效应”的风险。RoSE 使用了一个三级漏斗: 多样性 \(\rightarrow\) 不确定性过滤 \(\rightarrow\) 复杂性选择。
步骤 A: 通过分桶实现多样性
首先,RoSE 计算新测试问题与池中每个问题之间的语义相似度。它将池中的问题从 最低相似度 到 最高相似度 进行排序。
RoSE 不是选取前 \(k\) 个最相似的问题,而是将排序后的问题分成 \(k\) 个均匀的“桶”。然后它从每个桶中挑选一个候选者。
- 为什么? 这确保了示例涵盖了一系列关系——有些与当前问题非常相似,有些则更独特。这种分布防止模型过拟合特定的句子结构,并鼓励更广泛的推理泛化。
步骤 B: 基于不确定性的过滤
在每个桶内,有许多问题。有些可能是以前存储的错误答案。RoSE 需要过滤掉这些。
然而,固定的阈值 (例如,“丢弃任何不确定性 > 0.5 的项”) 是危险的,因为不确定性随任务和池的充盈程度而变化。RoSE 使用 动态阈值 。 它查看该特定桶内发现的 最小 不确定性,并设置一个相对于该最小值的阈值 (例如,最小值的 1.2 倍) 。

这个方程确保对于每个桶,我们只保留相对于其同类而言目前可用的最“安全”和最自信的答案。
步骤 C: 基于复杂性的选择
最后,从桶中剩余的问题 (这些问题既多样又可能是正确的) 中,RoSE 根据复杂性挑选“优胜者”。它选择复杂性得分最高的问题。

其逻辑非常优雅: 在一组多样化且自信的答案中,选择那些需要最多思考才能解决的答案。
3. 推理步骤
一旦选出了 \(k\) 个最佳经验 (问题、理由、答案三元组) ,它们就会与新的测试问题一起被格式化为一个提示。然后 LLM 生成最终输出:

至关重要的是,一旦生成了这个输出,这个新的测试问题 \(q_t\) 及其生成的理由 \(r_t\) 和答案 \(a_t\) 就会被分析其不确定性和复杂性,并 添加回池中 。 系统随着每一个查询变得越来越聪明。
实验与结果
研究人员在 9 个不同的推理任务上评估了 RoSE,涵盖了算术 (如 GSM8K 和 SVAMP) 和常识 (如 StrategyQA) 。他们将其与标准的零样本 CoT、少样本 CoT (使用人工示例) 和 Auto-CoT 进行了比较。
主要结果令人震惊:

数据中的关键要点:
- RoSE vs. 零样本: 在 GPT-3.5-Turbo 模型上,RoSE 比零样本 CoT 平均提高了大约 8.4 分。这证实了自我生成的经验池比没有示例提供了巨大的价值。
- RoSE vs. 手动少样本: RoSE 甚至比标准的少样本 CoT (使用人工精心制作的示例) 平均高出约 5.9 分。这是一个重大发现: 自动化、动态地选择过往经验可以击败静态的、人工策划的示例。
- 模型通用性: 这种增益不仅存在于 GPT-3.5 上,也存在于开源的 LLaMA2-13B 模型上,RoSE 将平均得分从 24.2% (零样本) 提高到了 65.7%。
为什么它有效? (消融分析)
复杂的编排真的是必要的吗?我们可以只使用其中一部分吗?研究人员分解了每个组件的贡献:

在此图表中:
- 多样性 (绿色) : 仅仅确保多样化的示例 (类似于 Auto-CoT) 提供了基础提升。
- 置信度/不确定性 (橙色) : 添加不确定性过滤器显著提高了性能。这证实了过滤掉“错误记忆”至关重要。
- 复杂性/RoSE (蓝色) : 完整的 RoSE 模型,优先考虑复杂性,在几乎所有任务中都产生了最高的准确率。
复杂性的价值
为了进一步证明“更难”的示例更好,研究人员进行了一项对比,分别选择简单、中等和困难 (复杂) 的示例。

如图 4 所示,“困难” (复杂) 的示例 (由浅米色条表示) 始终比简单的示例产生更高的准确率。这验证了这样一种理论: 让模型接触更详细的推理步骤有助于它更好地构建自己的思维。
稳定性和鲁棒性
标准少样本提示的弱点之一是,性能会根据提供的示例 数量 而剧烈波动。

图 5 显示了准确率 (y 轴) 与演示数量 (x 轴) 的关系。
- 棕色线 (Few-Shot-CoT) : 注意它是如何波动的。有时增加更多示例反而会损害性能 (例如,左侧的 AddSub 任务) 。
- 菱形线 (RoSE) : 无论使用 2、4 还是 8 个演示,它都保持高度稳定且始终优越。这种稳定性使 RoSE 成为现实应用中更可靠的框架。
测试顺序和通用性
最后,由于 RoSE 是一个流式系统,问题到达的顺序会改变记忆池的内容。研究人员测试了不同的随机顺序 (图 6) ,发现虽然有轻微波动,但性能分布始终高于基线。

他们还在其他提示策略 (如“Plan-and-Solve”和“思维树 (Tree of Thoughts, ToT) ”) 之上测试了 RoSE。在所有情况下,添加 RoSE 框架都提高了性能,证明它是一个通用的增强器。

结论与启示
RoSE 框架代表了向 自主大型语言模型 迈出的重要一步。通过闭环——允许模型存储其输出,评估其自身的置信度,并策略性地回忆其最佳工作——我们从静态文本生成器转向了从经验中学习的系统。
RoSE 的关键创新是:
- 编排记忆: 不仅仅将过去的输入视为数据,而是将其视为可查询的经验库。
- 无反馈的自我纠正: 利用不确定性 (一致性) 来过滤错误,而无需人类介入。
- 复杂性优先: 认识到深度推理需要接触深度推理的示例。
对于 AI 领域的学生和研究人员来说,RoSE 表明我们尚未触及当前 LLM 能力的天花板。在构建更大的模型之前,我们可以通过改变现有模型组织和访问其自身“思想”的方式,使其变得更加聪明。
](https://deep-paper.org/en/paper/2504.00473/images/cover.png)