引言
想象一下你正在尝试学习一款新的、复杂的电子游戏。你玩了一关,犯了一个错误,然后输了。下一次你玩的时候,你记住了那个错误并尝试了不同的策略。随着时间的推移,你对于哪些行动能带来胜利、哪些会导致失败产生了一种“直觉”。
现在,考虑一下大型语言模型 (LLM) 。它们拥有令人难以置信的百科全书式的知识和常识推理能力。然而,当作为交互式环境中的自主智能体 (Agent) 行动时,它们遭受着一个严重的缺陷: 它们很难有效地从自己过去的经验中学习。标准方法要么仅在“完美”的演示上微调模型 (忽略了失败的教育价值) ,要么试图将过去的经验塞进模型的上下文窗口中 (这很快就会触及内存限制) 。
如果我们能在不干扰 LLM 即时思维过程的情况下,赋予它基于过去经验的这种“直觉”,会怎么样呢?
这正是南京大学研究人员提出的创新框架 Retrospex 的核心主张。Retrospex 将智能体的通用推理能力与其基于经验的价值判断分离开来。它将标准的 LLM 与专门的 强化学习 (RL) Critic (评论器) 相结合。这个 Critic 经过离线训练,根据过去的成功和失败来评判行动,从而在不需要大量上下文窗口的情况下引导 LLM 做出更好的决策。
在这篇文章中,我们将拆解 Retrospex 的架构,探索它是如何将 LLM 的语言能力与离线强化学习的战略远见结合起来的。
背景: 为何 LLM 智能体难以利用经验
要理解为什么 Retrospex 是必要的,我们首先需要看看当前的 LLM 智能体是如何运作的。
最早的 LLM 智能体迭代版本,如 ReAct , 在一个简单的循环中运作: 观察、推理和行动。虽然对简单的任务有效,但这些智能体患有“健忘症”。它们不会将长期的教训从一个任务带到另一个任务。
为了解决这个问题,研究人员开发了像 Reflexion 和 Rememberer 这样的架构。这些系统引入了一种记忆形式。当智能体失败时,它会记录这段经历。在未来的尝试中,智能体检索这些记忆并将其添加到 LLM 的提示词 (上下文) 中。

如上方的 图 1 所示,其演变过程非常明显:
- ReAct: 没有长期记忆。
- Reflexion: 使用自我反思循环来更新上下文。
- Rememberer: 从数据库中检索过去的经验。
- Retrospex (本文重点) : 采取了不同的方法。它不再将原始文本经验反馈回 LLM (这会消耗昂贵的 Token) ,而是训练一个独立的模块——一个 RL Critic——来评估行动的 价值。
以前方法的局限性显而易见。LLM 的上下文窗口是固定的。如果一个智能体运行了数千步或尝试了数百个任务,你不可能将所有的经验都塞进提示词中。此外,仅仅阅读过去的错误并不等同于在数学上将某个行动加权为“坏”。Retrospex 旨在通过将经验压缩进一个轻量级的神经网络来解决这个问题。
Retrospex 方法论
Retrospex 框架在三个不同的阶段运作: 热身阶段 (Warm-up Stage) 、回顾阶段 (Retrospection Stage) 和 推理阶段 (Inference Stage) 。 这种分离使系统能够收集数据,离线学习,然后动态地应用这些知识。

让我们分解 图 2 中所示流程的每个阶段。
第一阶段: 热身阶段 (模仿学习)
在智能体能够从自己的历史中学习之前,它需要具备基线能力。你不会教一个不懂游戏规则的人高级策略。
在这个阶段,研究人员使用 模仿学习 (IL) 微调一个基础 LLM (如 Flan-T5 或 LLaMA) 。他们获取“黄金轨迹”——即成功完成任务的人类或专家算法采取的行动序列——并将其视为文本生成问题。
目标是最小化 LLM 预测的行动与专家行动之间的差异。数学目标是标准的负对数似然 (NLL) 损失:

在这里,模型 \(\pi\) 试图在给定上下文 \(x\) 的情况下最大化专家行动 \(\pi^*(x)\) 的可能性。
一旦这个基础智能体训练完成,它就会被部署到环境中执行任务。关键在于,Retrospex 会收集该智能体所做的 一切——既包括成功的轨迹,也包括失败的轨迹。这创建了一个丰富的经验数据集,表示为记忆库 \(\mathcal{D}\)。该数据集包含 \((state, action, next\_state, reward)\) 的元组。
第二阶段: 回顾阶段 (离线 RL)
这就是 Retrospex 名字的由来。智能体“回顾”其收集的经验以进行学习。
这里的目标是训练一个 Critic (评论器) 。 在强化学习术语中,Critic 是一个函数 (通常是神经网络) ,用于估计一个行动的 Q 值 。 Q 值 \(Q(s, a)\) 代表如果智能体处于状态 \(s\),采取行动 \(a\),并在之后采取最佳行动策略,预期能获得的累积总奖励。
如果 Q 值很高,说明该行动是好的 (可能导致成功) 。如果很低,说明该行动是坏的 (可能导致失败) 。
为什么要用离线 RL?
标准 RL (在线 RL) 是在智能体与环境交互时更新模型。这既缓慢、昂贵又不稳定。Retrospex 使用 离线 RL , 意味着它严格从第一阶段收集的静态数据集中学习。
使用的具体算法是 隐式 Q 学习 (IQL) 。 为什么选择 IQL?在离线 RL 中,一个常见的问题是“高估”。如果模型看到了一个以前未遇到过的状态,它可能会猜测该行动有一个极高的奖励。IQL 的设计比较保守,只估计数据实际支持的行动的价值。
训练目标
Critic 网络 (此处实现为轻量级的 GRU 网络) 使用从贝尔曼方程导出的三个损失函数进行训练。
1. Q 函数目标 (TD 误差) : Critic 试图最小化时序差分 (TD) 误差。它希望当前步骤的 Q 值与奖励加上下一步骤的价值相匹配。

2. 价值函数目标: 为了稳定训练,IQL 引入了一个状态价值函数 \(V(s)\)。这估计了一个状态有多好,而不管采取的具体行动是什么。

3. 最终 Q 更新: 利用估计的价值函数 \(V\),更新 Q 网络以确保一致性。

在这个阶段结束时,我们拥有了一个专门的神经网络——RL Critic——它可以观察一个情况和一个行动,并根据历史数据输出一个代表该举动有多“明智”的数值。
第三阶段: 推理阶段 (动态行动重打分)
现在我们有两个大脑:
- LLM: 擅长语言、常识并能生成候选行动。
- RL Critic: 擅长长期规划并根据奖励避免过去的错误。
我们如何结合它们?Retrospex 使用一种称为 动态动作重打分 (Dynamic Action Rescoring) 的技术。

该过程如下运作:
- 动作生成: LLM 查看当前上下文并生成 Top-\(K\) 个候选动作。
- LLM 打分: 我们根据 LLM 的置信度计算每个动作的概率得分 \(p\)。
- Critic 打分: 我们将相同的动作输入 RL Critic,以获得每个动作的 Q 值 \(q\)。
两个分数都被归一化到相同的尺度:

动态权重 \(\alpha(t)\)
这是巧妙的转折点。作者意识到,LLM 与 Critic 的重要性取决于你在任务中所处的阶段。
在任务开始时 (\(t=0\)) ,历史很短。RL Critic (依赖于状态历史) 可能没有足够的具体信息。然而,LLM 拥有强大的常识先验。因此,在任务早期,我们应该信任 LLM。
随着任务的进行和轨迹变长,具体的历史变得比一般常识更重要。此时,RL Critic 对长期奖励的洞察变得至关重要。
Retrospex 定义了一个随时间衰减的动态权重 \(\alpha(t)\):

这里,\(d\) 是衰减因子 (例如 0.97) ,\(b\) 是下界 (例如 0.6) ,以确保 LLM 永远不会被完全忽略。
一个动作的最终得分 \(S(a)\) 是加权组合:

如下方的 图 4 所示,权重 \(\alpha(t)\) 开始时很高 (信任 LLM) ,随着步数增加而下降 (更多地信任 RL Critic) ,最终在下界 \(b\) 处趋于平稳。

智能体只需选择综合得分 \(S(a)\) 最高的动作。
实验与结果
研究人员在三个具有挑战性的基于文本的模拟环境中评估了 Retrospex: ScienceWorld (科学推理) 、ALFWorld (家务任务) 和 Webshop (电子商务导航) 。
训练数据
Retrospex 的一个关键优势是 RL Critic 非常轻量。如 表 1 所示,Critic 使用的 GRU 只有约 270 万个参数,而 LLM 有数十亿个参数。这意味着推理开销可以忽略不计。

ScienceWorld 上的表现
ScienceWorld 非常复杂,要求智能体执行多步骤的科学实验 (例如,“测量叉子的导电性”) 。
表 3 中的结果很有说服力。Retrospex 显著优于基础的模仿学习智能体 (IL-T5)。

- IL-T5 (基础模型) : 达到 27.0 的成功率 (SR)。
- Retrospex: 跃升至 36.0 的成功率。
- 比较: 尽管 Retrospex 使用的是小得多的 Flan-T5 模型,但其平均得分甚至超过了基于 GPT-4 的 Reflexion。这证明了一个带有专用经验 Critic 的小模型可以实现“以小博大”。
ALFWorld 和 Webshop 上的表现
ALFWorld 测试家务导航 (例如,“把干净的勺子放在桌子上”) ,而 Webshop 测试在线购物技能。
在 表 4 (ALFWorld) 中,Retrospex 达到了 87.0% 的成功率,比基础模型 (83.5%) 有所提高,并超过了 Reflexion (GPT-3.5)。

在 Webshop (表 5) 中,这一趋势仍在继续。在不同的测试集上,Retrospex 始终优于基础学习器以及 Rememberer 和 AgentLM 等具有竞争力的基线。

为什么动态打分很重要
动态权重 \(\alpha(t)\) 真的有必要吗?我们能不能直接 50/50 平均分数?
作者进行了消融实验 (移除系统的部分组件以查看它们是否重要) 。 表 7 显示了在 ScienceWorld 上的结果。

- 第 1 列 (IL-T5): 仅使用 LLM 效果一般 (得分: 48.80) 。
- 第 2 列 (d=0, b=0): 仅 使用 RL Critic 效果惨不忍睹 (得分: 36.7) 。这证实了 RL Critic 是一个 向导,而不是 LLM 语言技能的替代品。
- 最后一列 (Static): 固定权重 (0.6 LLM + 0.4 Critic) 产生的得分为 54.37。
- Retrospex 列 (d=0.97): 动态衰减产生了 55.98 的最高得分。
数据证实,早期信任 LLM 而后期信任 Critic 是最佳策略。
任务复杂度分析
最后一个有趣的发现是 Retrospex 如何处理不同长度的任务。在 表 6 中,任务被分为短、中和长。

Retrospex 在 中等 和 长 任务中提供了最显著的提升。这与理论完美契合: 随着轨迹变长,LLM 更容易“迷失”或产生幻觉,而 RL Critic 的价值估计成为了让智能体保持在正轨上的稳定锚点。
结论与启示
Retrospex 代表了自主语言智能体设计向前迈出的重要一步。通过承认“行动” (语言生成) 和“评估” (价值估计) 是不同的技能,作者创建了一个既高效又有效的模块化系统。
以下是关键要点:
- 解耦记忆: 我们不需要把过去错误的原始文本塞满上下文窗口。我们可以将这些经验提炼成一个数学价值函数 (Critic) 。
- 离线学习是安全的: 通过使用离线 RL (IQL),智能体可以从静态数据集中学习,而无需在部署期间进行实时、试错训练的风险和成本。
- 动态协作: 当“大脑” (LLM) 和“直觉” (Critic) 的影响力根据任务阶段动态平衡时,它们的工作效果最好。
随着 LLM 的规模不断增长,像 Retrospex 这样的框架提供了一条路径,使它们不仅变得更聪明,而且更有智慧——能够回顾历史以驾驭未来。
](https://deep-paper.org/en/paper/2505.11807/images/cover.png)