引言

想象一下你正在尝试学习一款新的、复杂的电子游戏。你玩了一关，犯了一个错误，然后输了。下一次你玩的时候，你记住了那个错误并尝试了不同的策略。随着时间的推移，你对于哪些行动能带来胜利、哪些会导致失败产生了一种“直觉”。

现在，考虑一下大型语言模型 (LLM) 。它们拥有令人难以置信的百科全书式的知识和常识推理能力。然而，当作为交互式环境中的自主智能体 (Agent) 行动时，它们遭受着一个严重的缺陷: 它们很难有效地从自己过去的经验中学习。标准方法要么仅在“完美”的演示上微调模型 (忽略了失败的教育价值) ，要么试图将过去的经验塞进模型的上下文窗口中 (这很快就会触及内存限制) 。

如果我们能在不干扰 LLM 即时思维过程的情况下，赋予它基于过去经验的这种“直觉”，会怎么样呢？

这正是南京大学研究人员提出的创新框架 Retrospex 的核心主张。Retrospex 将智能体的通用推理能力与其基于经验的价值判断分离开来。它将标准的 LLM 与专门的 强化学习 (RL) Critic (评论器) 相结合。这个 Critic 经过离线训练，根据过去的成功和失败来评判行动，从而在不需要大量上下文窗口的情况下引导 LLM 做出更好的决策。

在这篇文章中，我们将拆解 Retrospex 的架构，探索它是如何将 LLM 的语言能力与离线强化学习的战略远见结合起来的。

背景: 为何 LLM 智能体难以利用经验

要理解为什么 Retrospex 是必要的，我们首先需要看看当前的 LLM 智能体是如何运作的。

最早的 LLM 智能体迭代版本，如 ReAct , 在一个简单的循环中运作: 观察、推理和行动。虽然对简单的任务有效，但这些智能体患有“健忘症”。它们不会将长期的教训从一个任务带到另一个任务。

为了解决这个问题，研究人员开发了像 Reflexion 和 Rememberer 这样的架构。这些系统引入了一种记忆形式。当智能体失败时，它会记录这段经历。在未来的尝试中，智能体检索这些记忆并将其添加到 LLM 的提示词 (上下文) 中。

图 1: 比较基于 LLM 的智能体的不同架构

如上方的 图 1 所示，其演变过程非常明显:

ReAct: 没有长期记忆。
Reflexion: 使用自我反思循环来更新上下文。
Rememberer: 从数据库中检索过去的经验。
Retrospex (本文重点) : 采取了不同的方法。它不再将原始文本经验反馈回 LLM (这会消耗昂贵的 Token) ，而是训练一个独立的模块——一个 RL Critic——来评估行动的价值。

以前方法的局限性显而易见。LLM 的上下文窗口是固定的。如果一个智能体运行了数千步或尝试了数百个任务，你不可能将所有的经验都塞进提示词中。此外，仅仅阅读过去的错误并不等同于在数学上将某个行动加权为“坏”。Retrospex 旨在通过将经验压缩进一个轻量级的神经网络来解决这个问题。

Retrospex 方法论

Retrospex 框架在三个不同的阶段运作: 热身阶段 (Warm-up Stage) 、回顾阶段 (Retrospection Stage) 和 推理阶段 (Inference Stage) 。这种分离使系统能够收集数据，离线学习，然后动态地应用这些知识。

图 2: Retrospex 的训练过程包括两个阶段

让我们分解 图 2 中所示流程的每个阶段。

第一阶段: 热身阶段 (模仿学习)

在智能体能够从自己的历史中学习之前，它需要具备基线能力。你不会教一个不懂游戏规则的人高级策略。

在这个阶段，研究人员使用 模仿学习 (IL) 微调一个基础 LLM (如 Flan-T5 或 LLaMA) 。他们获取“黄金轨迹”——即成功完成任务的人类或专家算法采取的行动序列——并将其视为文本生成问题。

目标是最小化 LLM 预测的行动与专家行动之间的差异。数学目标是标准的负对数似然 (NLL) 损失:

模仿学习损失公式

在这里，模型 \(\pi\) 试图在给定上下文 \(x\) 的情况下最大化专家行动 \(\pi^*(x)\) 的可能性。

一旦这个基础智能体训练完成，它就会被部署到环境中执行任务。关键在于，Retrospex 会收集该智能体所做的一切——既包括成功的轨迹，也包括失败的轨迹。这创建了一个丰富的经验数据集，表示为记忆库 \(\mathcal{D}\)。该数据集包含 \((state, action, next\_state, reward)\) 的元组。

第二阶段: 回顾阶段 (离线 RL)

这就是 Retrospex 名字的由来。智能体“回顾”其收集的经验以进行学习。

这里的目标是训练一个 Critic (评论器) 。在强化学习术语中，Critic 是一个函数 (通常是神经网络) ，用于估计一个行动的 Q 值 。 Q 值 \(Q(s, a)\) 代表如果智能体处于状态 \(s\)，采取行动 \(a\)，并在之后采取最佳行动策略，预期能获得的累积总奖励。

如果 Q 值很高，说明该行动是好的 (可能导致成功) 。如果很低，说明该行动是坏的 (可能导致失败) 。

为什么要用离线 RL？

标准 RL (在线 RL) 是在智能体与环境交互时更新模型。这既缓慢、昂贵又不稳定。Retrospex 使用 离线 RL , 意味着它严格从第一阶段收集的静态数据集中学习。

使用的具体算法是 隐式 Q 学习 (IQL) 。为什么选择 IQL？在离线 RL 中，一个常见的问题是“高估”。如果模型看到了一个以前未遇到过的状态，它可能会猜测该行动有一个极高的奖励。IQL 的设计比较保守，只估计数据实际支持的行动的价值。

训练目标

Critic 网络 (此处实现为轻量级的 GRU 网络) 使用从贝尔曼方程导出的三个损失函数进行训练。

1. Q 函数目标 (TD 误差) : Critic 试图最小化时序差分 (TD) 误差。它希望当前步骤的 Q 值与奖励加上下一步骤的价值相匹配。

TD 误差公式

2. 价值函数目标: 为了稳定训练，IQL 引入了一个状态价值函数 \(V(s)\)。这估计了一个状态有多好，而不管采取的具体行动是什么。

价值函数损失

3. 最终 Q 更新: 利用估计的价值函数 \(V\)，更新 Q 网络以确保一致性。

Q 更新损失

在这个阶段结束时，我们拥有了一个专门的神经网络——RL Critic——它可以观察一个情况和一个行动，并根据历史数据输出一个代表该举动有多“明智”的数值。

第三阶段: 推理阶段 (动态行动重打分)

现在我们有两个大脑:

LLM: 擅长语言、常识并能生成候选行动。
RL Critic: 擅长长期规划并根据奖励避免过去的错误。

我们如何结合它们？Retrospex 使用一种称为 动态动作重打分 (Dynamic Action Rescoring) 的技术。

图 3: Retrospex 中的动态动作重打分

该过程如下运作:

动作生成: LLM 查看当前上下文并生成 Top-\(K\) 个候选动作。
LLM 打分: 我们根据 LLM 的置信度计算每个动作的概率得分 \(p\)。
Critic 打分: 我们将相同的动作输入 RL Critic，以获得每个动作的 Q 值 \(q\)。

两个分数都被归一化到相同的尺度:

LLM 概率的归一化 Q 值的归一化

动态权重 \(\alpha(t)\)

这是巧妙的转折点。作者意识到，LLM 与 Critic 的重要性取决于你在任务中所处的阶段。

在任务开始时 (\(t=0\)) ，历史很短。RL Critic (依赖于状态历史) 可能没有足够的具体信息。然而，LLM 拥有强大的常识先验。因此，在任务早期，我们应该信任 LLM。

随着任务的进行和轨迹变长，具体的历史变得比一般常识更重要。此时，RL Critic 对长期奖励的洞察变得至关重要。

Retrospex 定义了一个随时间衰减的动态权重 \(\alpha(t)\):

Alpha 衰减公式

这里，\(d\) 是衰减因子 (例如 0.97) ，\(b\) 是下界 (例如 0.6) ，以确保 LLM 永远不会被完全忽略。

一个动作的最终得分 \(S(a)\) 是加权组合:

最终得分公式

如下方的 图 4 所示，权重 \(\alpha(t)\) 开始时很高 (信任 LLM) ，随着步数增加而下降 (更多地信任 RL Critic) ，最终在下界 \(b\) 处趋于平稳。

图 4: 不同步数 t 下的 Alpha(t)

智能体只需选择综合得分 \(S(a)\) 最高的动作。

实验与结果

研究人员在三个具有挑战性的基于文本的模拟环境中评估了 Retrospex: ScienceWorld (科学推理) 、ALFWorld (家务任务) 和 Webshop (电子商务导航) 。

训练数据

Retrospex 的一个关键优势是 RL Critic 非常轻量。如 表 1 所示，Critic 使用的 GRU 只有约 270 万个参数，而 LLM 有数十亿个参数。这意味着推理开销可以忽略不计。

表 1: 热身和回顾阶段使用的训练数据

ScienceWorld 上的表现

ScienceWorld 非常复杂，要求智能体执行多步骤的科学实验 (例如，“测量叉子的导电性”) 。

表 3 中的结果很有说服力。Retrospex 显著优于基础的模仿学习智能体 (IL-T5)。

表 3: ScienceWorld 上的 AS 和 SR

IL-T5 (基础模型) : 达到 27.0 的成功率 (SR)。
Retrospex: 跃升至 36.0 的成功率。
比较: 尽管 Retrospex 使用的是小得多的 Flan-T5 模型，但其平均得分甚至超过了基于 GPT-4 的 Reflexion。这证明了一个带有专用经验 Critic 的小模型可以实现“以小博大”。

ALFWorld 和 Webshop 上的表现

ALFWorld 测试家务导航 (例如，“把干净的勺子放在桌子上”) ，而 Webshop 测试在线购物技能。

在 表 4 (ALFWorld) 中，Retrospex 达到了 87.0% 的成功率，比基础模型 (83.5%) 有所提高，并超过了 Reflexion (GPT-3.5)。

表 4: ALFWorld 上的总体结果

在 Webshop (表 5) 中，这一趋势仍在继续。在不同的测试集上，Retrospex 始终优于基础学习器以及 Rememberer 和 AgentLM 等具有竞争力的基线。

表 5: Webshop 上的总体结果

为什么动态打分很重要

动态权重 \(\alpha(t)\) 真的有必要吗？我们能不能直接 50/50 平均分数？

作者进行了消融实验 (移除系统的部分组件以查看它们是否重要) 。 表 7 显示了在 ScienceWorld 上的结果。

表 7: 使用不同动态打分参数在 ScienceWorld 上的结果

第 1 列 (IL-T5): 仅使用 LLM 效果一般 (得分: 48.80) 。
第 2 列 (d=0, b=0): 仅使用 RL Critic 效果惨不忍睹 (得分: 36.7) 。这证实了 RL Critic 是一个向导，而不是 LLM 语言技能的替代品。
最后一列 (Static): 固定权重 (0.6 LLM + 0.4 Critic) 产生的得分为 54.37。
Retrospex 列 (d=0.97): 动态衰减产生了 55.98 的最高得分。

数据证实，早期信任 LLM 而后期信任 Critic 是最佳策略。

任务复杂度分析

最后一个有趣的发现是 Retrospex 如何处理不同长度的任务。在 表 6 中，任务被分为短、中和长。

表 6: ScienceWorld 上不同任务复杂度的平均奖励分数

Retrospex 在中等和长任务中提供了最显著的提升。这与理论完美契合: 随着轨迹变长，LLM 更容易“迷失”或产生幻觉，而 RL Critic 的价值估计成为了让智能体保持在正轨上的稳定锚点。

结论与启示

Retrospex 代表了自主语言智能体设计向前迈出的重要一步。通过承认“行动” (语言生成) 和“评估” (价值估计) 是不同的技能，作者创建了一个既高效又有效的模块化系统。

以下是关键要点:

解耦记忆: 我们不需要把过去错误的原始文本塞满上下文窗口。我们可以将这些经验提炼成一个数学价值函数 (Critic) 。
离线学习是安全的: 通过使用离线 RL (IQL)，智能体可以从静态数据集中学习，而无需在部署期间进行实时、试错训练的风险和成本。
动态协作: 当“大脑” (LLM) 和“直觉” (Critic) 的影响力根据任务阶段动态平衡时，它们的工作效果最好。

随着 LLM 的规模不断增长，像 Retrospex 这样的框架提供了一条路径，使它们不仅变得更聪明，而且更有智慧——能够回顾历史以驾驭未来。

引言#

背景: 为何 LLM 智能体难以利用经验#

Retrospex 方法论#

第一阶段: 热身阶段 (模仿学习)#

第二阶段: 回顾阶段 (离线 RL)#

为什么要用离线 RL？#

训练目标#

第三阶段: 推理阶段 (动态行动重打分)#

动态权重 \(\alpha(t)\)#

实验与结果#

训练数据#

ScienceWorld 上的表现#

ALFWorld 和 Webshop 上的表现#

为什么动态打分很重要#

任务复杂度分析#

结论与启示#

引言