引言: “长对话”难题
想象一下,你正在教朋友如何讲故事。如果你每听到一个句子就打断他们说“讲得好”或“这句很无聊”,对话的流程就会被破坏。这很不自然。相反,你通常会听完整个故事,最后给出一个反应——也许是一次大笑、一声叹息,或者一句赞美,比如“这故事太棒了!”
这种动态代表了人工智能发展中的一个巨大瓶颈,特别是在训练大型语言模型 (LLM) 使其成为更好的对话者方面。
目前,将 AI 与人类偏好对齐的黄金标准是人类反馈强化学习 (RLHF) 。 这种方法通常依赖人类对具体的 AI 回复进行逐轮评分。人类看提示词,看 AI 的回答,然后给出一个赞或踩。
但在现实世界中,对话是很长的。一次聊天可能会持续 30 分钟,包含数百次来回。要求用户对每一句话都进行评分是侵入性的,也是不切实际的。在“野外”环境中,用户通常只在互动结束时给出一个单一的分数——即全局显式 (GE) 奖励。
挑战在于一个经典的“信用分配”问题: 如果用户在最后给对话打了 5 星好评,具体哪句话配得上这个荣誉?是第二分钟的那个笑话?是第十分钟那句充满同理心的回应?还是最后的道别?
在一篇题为 “Global Reward to Local Rewards: Multimodal-Guided Decomposition for Improving Dialogue Agents” 的精彩论文中,来自麻省理工学院和卡内基梅隆大学的研究人员提出了一种名为 GELI 的解决方案。他们的洞察是: 虽然我们只在最后给出显式评分,但在整个聊天过程中,我们不断地发出隐式信号 (如微笑、皱眉或点头) 。通过利用这些多模态信号来分解最终的全局评分,我们可以教会 AI 成为一个更好的对话伙伴。
在这篇文章中,我们将拆解 GELI 框架,探索它如何通过数学方法分解全局反馈,并利用计算机视觉来指导 AI 对齐。
背景: 为什么现有的 RLHF 难以处理长对话
要理解为什么 GELI 是必要的,我们需要先看看当前的对话智能体是如何训练的。
大多数现代聊天机器人都是由自回归语言模型驱动的。该模型表现为一个具有策略的智能体,接收对话历史并输出下一个句子。为了让这些模型变得有用且无害,我们使用 RLHF。
RLHF 的标准目标函数如下所示:

这个方程告诉我们以下内容:
- 最大化奖励: 我们希望最大化期望奖励 \(r_{\theta}(s_t, a_t)\)。这个奖励通常来自一个经过训练的“奖励模型”,用于模拟人类在特定轮次 \(t\) 的偏好。
- 保持稳健: 第二部分 (KL 散度项) 会惩罚模型,如果它偏离原本的预训练知识库 (\(\pi_{\eta}\)) 太远。这可以防止 AI 为了获得高分而“钻空子”说胡话。
缺失的一环
当 \(r_{\theta}\) (特定轮次的奖励) 很容易获得时,上面的方程效果很好。但在长期的社交对话中,我们通常只有 \(R_{GE}(\tau)\)——即针对整个轨迹或对话会话的奖励。
如果我们简单地将这一个全局分数分配给 AI 说过的每一句话,就会产生充满噪声的信号。AI 可能在一段精彩的对话中间说了一句糟糕的话,但如果我们给整个聊天打了高分,AI 就会误以为那句糟糕的话其实是好的。
我们需要一种方法将那个全局分数分解为准确的局部分数。
进入 GELI: 多模态引导的分解
研究人员提出了一个名为 GELI (Global Explicit, Local Implicit,全局显式,局部隐式) 的框架。其核心理念是,我们可以通过结合两种数据源来解决信用分配问题:
- 全局显式 (GE): 用户给出的最终评分 (例如,“我对这次聊天感觉很积极”) 。
- 局部隐式 (LI): 自然发生的多模态信号,特别是面部表情 (例如,AI 讲笑话后用户笑了) 。
该方法本质上是在说: 让我们用数学方法把最终分数切分,使得各部分之和等于整体。但是,让我们利用用户的面部表情来帮助决定哪些部分应该分得最大的蛋糕。
以下是 GELI 架构的高级概览:

如上图所示,系统获取剧集级奖励 (\(R_{ep}\)) 并学习一个分解的奖励函数。这个函数由视觉面部情感 (用户笑了吗?) 进行塑造,从而为特定的话语分配具体的分数。最后,这些派生的分数被用于通过 PPO (近端策略优化) 来更新语言模型。
让我们分解一下这种融合是如何发生的数学原理。
1. 全局显式 (GE) 分解
第一个目标是确保我们生成的局部奖励加起来确实等于用户给出的全局奖励。这是基于求和分解的假设。

研究人员训练了一个奖励模型 \(r_{\theta}\),使得当你将对话中每一轮的输出相加时,它与人类的最终评分相匹配。为了实现这一点,他们最小化实际全局分数与预测总和之间的差异 (均方误差) :

然而,对长对话 (例如 100 多轮) 进行求和计算成本高昂且难以优化。为了解决这个问题,作者利用了一种称为随机回报分解 (RRD) 的技术。
RRD 是一个聪明的统计技巧。它不需要每次都计算整个对话的总和,而是使用蒙特卡洛采样来估计回报。它提取对话的随机片段,并确保这些片段的平均奖励与全局分数 (根据长度调整后) 保持一致。

这使得模型能够处理非常长的对话,而不会导致通常与长视野强化学习相关的计算量爆炸。
2. 局部隐式 (LI) 指导
如果我们只使用上述的全局显式分解,模型可能仍然会感到困惑。有很多种分配数字的方法可以使总和等于最终分数。例如,如果最终分数是 10,模型可以分配“1, 1, 1…”十次,或者“10, 0, 0…”。
为了引导模型走向正确的分布,GELI 使用了局部隐式 (LI) 反馈。在面对面的对话中,人类不断地发出信号表达他们的感受。如果 AI 说了些有同理心的话,用户可能看起来悲伤但感到了被理解,或者他们可能会微笑。
研究人员将此视为一个跨模态知识蒸馏问题。他们希望基于文本的奖励模型能够从视觉信号中学习。
他们定义了一个基于多模态信号的代理奖励:

在这项具体研究中,他们使用了“情感分类器”——一种从用户面部检测情绪的计算机视觉模型。他们设计了一个简单的指示函数:

如果用户在 AI 说话后立即表现出积极的情感 (快乐/微笑) ,那一轮就会得到“1”。否则,得到“0”。
然后训练模型最小化其预测奖励与这个视觉代理奖励之间的差异:

3. 联合目标
GELI 的神奇之处在于它不需要在这两种方法之间做选择。它将两者结合了起来。最终的训练目标融合了全局分解 (确保数学计算正确) 与局部隐式指导 (确保奖励与用户的肢体语言匹配) 。

通过调节参数 \(\lambda\),研究人员可以平衡模型对最终问卷分数的关注程度与对时刻微笑的关注程度。
可视化: 它有效吗?
在进行完整的实验之前,研究人员分析了他们的 GELI 模型在未见过的对话上生成的奖励。

在上图中,你可以看到“展开”的奖励。右侧的柱状图特别具有启发性。注意第 6 到 10 轮。
- 第 9 轮: AI 对电子游戏做出了具体的评论 (“Okay, pray for you play Fortnite…”) 。奖励飙升至 +0.056 。
- 第 7 轮: AI 问了一个通用的问题 (“Video games?”) 。奖励下降至 -0.032 。
这证实了分解后的奖励函数即使从未被明确告知哪些具体的句子是好的,也能成功区分高质量、引人入胜的轮次和低投入的填充式对话。
实验: 在野外测试
为了验证 GELI,研究人员使用了 CANDOR 语料库 。 这是一个包含两个陌生人通过视频通话进行自然对话的海量数据集。它包含超过 850 小时的视频,非常适合提取全局分数 (聊天后调查) 和局部视觉信号 (视频流) 。
他们将 GELI 与几个基线进行了比较:
- 仅 GE: 仅使用全局分数 (通过 RRD) 。
- 仅 LI: 仅使用视觉信号 (视觉情感) 或仅使用文本情感分析 (语言情感) 。
- 人类: 真实的人类回复。
这些奖励函数被用来通过 PPO 训练一个 LLAMA-2 模型。
定量结果: 奖励函数
首先,让我们看看奖励函数在各自的任务上学得如何。

这个表格揭示了一个关键的洞察。
- 全局损失 (\(L_{GE}\)): 仅 GE 的方法 (如 RRD) 非常擅长最小化全局损失。它们很擅长确保数字加起来正确。
- 局部差异 (\(\Delta\)): 仅 LI 的方法非常擅长区分积极与非积极的视觉帧。
- GELI (RRD + VA): 这种方法实现了“两全其美”。它在保持低全局损失 (176.897) 的同时,实现了显著的局部差异 (0.063)。它学会了既满足全局分数又尊重局部视觉线索。
人类评估: 终极测试
对话智能体的真正测试在于人类是否喜欢与之交谈。研究人员使用不同的模型生成对话,并要求人类评估者在 8 个不同的指标上对它们进行评分,包括情感连接、具体性和合理性。

表 1 中的结果令人震惊。 GELI 在 8 个指标中的 6 个上优于基线。
- 积极性 (Positivity): GELI 得分为 44.33% , 几乎是仅 GE 基线 (16.33%) 的两倍。
- 再次使用意愿 (Reuse): 与其他模型相比,用户更愿意再次与 GELI 聊天机器人交谈 (41.67%)。
- 情感连接 (Emotional Connection): GELI 获得了最高的情感连接分数 (39.67%),显著高于基础 LLAMA-2 模型。
作者还指出,仅基于一种信号 (仅 GE 或仅 LI) 训练往往比基础模型表现更差。这表明结合信号对于提取用于强化学习的有效奖励信号是必要的。
泛化能力
人们可能会担心 GELI 只能在其训练的数据集上工作。为了测试这一点,研究人员将经过 GELI 训练的模型应用到了一个完全不同的数据集 SODA (社交常识对话) 上。
即使在这个新数据集上,GELI 的表现也优于 GPT-3.5 和基础 LLAMA-2 模型,这表明从多模态分解中习得的“社交技能”可以迁移到新的纯文本语境中。
训练动态
深入了解强化学习 (RL) 过程在训练期间的实际表现通常很有帮助。RL 以其不稳定性著称,观察曲线可以告诉我们很多关于优化健康状况的信息。
所使用的标准 RLHF 目标 (PPO) 在优化策略的同时保持较低的 KL 散度:

让我们看看不同方法的训练曲线。
GELI (获胜者):
注意左图 (奖励) 。它从 500 左右开始缓慢爬升,稳定在 540 左右。KL 散度 (右图) 虽然在增长,但在最后阶段之前一直处于受控状态。这表明学习是健康的——模型找到了一种在不立即破坏语言模型的情况下获得更多奖励的方法。
仅 LI: 视觉情感:
将其与“仅视觉情感”的训练进行比较。奖励在 80 步后崩溃至接近零。这是奖励破解 (reward hacking) 或目标崩溃的迹象——视觉信号本身可能噪声太大或太稀疏,无法单独有效地指导语言模型。
仅 GE: RRD:
仅全局的方法噪声非常大。奖励在 100 到 250 之间剧烈波动。没有视觉信号的局部指导,信用分配太难了,模型很难弄清楚它到底做对了什么。
结论与启示
GELI 论文在对齐 AI 智能体的思路迈出了重要一步。它挑战了我们需要对每一句话进行昂贵、细粒度的人类标注的假设。
通过利用我们已经拥有的“全局显式”分数 (如调查评分) 并使用我们通常丢弃的“局部隐式”信号 (如面部表情的视频流) 对其进行分解,我们可以训练出具有以下特点的智能体:
- 更具同理心: 它们理解哪些话语能创造情感连接。
- 更具吸引力: 用户想再次与它们交谈。
- 数据高效: 我们可以利用自然发生的交互数据,而不是支付数千小时的手工标注费用。
这种方法模仿了人类的学习方式。我们不是通过每说完一句话后填写问卷来学习社交技能的。我们通过观察交谈对象的脸,实时解读他们的微笑和皱眉,并将这些与整体互动的效果关联起来进行学习。
GELI 让 AI 向那种自然的、多模态的学习方式迈进了一步,为不仅仅处理文本、而是真正理解对话感觉的伴侣铺平了道路。
](https://deep-paper.org/en/paper/file-3141/images/cover.png)