想象一下,你正试着卖掉一辆二手自行车。如果潜在买家表现得善于分析且注重细节,你可能会着重介绍自行车的技术规格和维护记录。然而,如果买家看起来比较情绪化或犹豫不决,你可能会转而讨论这辆车能给他们带来多少快乐,或者它有多安全。
作为人类,我们会根据交谈对象直觉地调整策略。我们会察言观色。
对于人工智能,特别是大型语言模型 (LLM) 来说,这极其困难。大多数对话代理采用“一刀切”的方法。它们礼貌、乐于助人且通常具有合作精神。但是,当目标不仅仅是提供帮助,而是协商价格或劝说某人向慈善机构捐款时会发生什么?这些就是非合作对话 , 即双方利益存在冲突的对话。
在这篇文章中,我们将探讨一篇引人入胜的论文,题为 “Strength Lies in Differences! Improving Strategy Planning for Non-collaborative Dialogues via Diversified User Simulation” 。 我们将揭示研究人员如何教导 AI 发展“心智理论”——即理解用户观点的能力——以及针对多样化的模拟人群进行训练如何造就更敏锐的谈判者。
问题所在: “一刀切”的陷阱
目前基于 LLM 的代理在现实场景的策略规划中举步维艰。研究人员指出了导致这种失败的两个主要原因:
- 忽视用户特征: 大多数代理只关注对话历史 (文本) 。它们未能明确建模用户是谁或他们的心理状态可能是什么。
- 训练僵化: 代理通常只针对单一类型的用户模拟器进行训练。这就像只和一个对手练习下棋;你变得非常擅长击败那个特定的人,但当一个新玩家使用你以前从未见过的策略时,你就会崩溃。
为了证明这一点,研究人员建立了一个严格的评估协议。他们不只是针对通用用户测试代理;他们创建了一套具有特定个性特征 (如开放性或神经质) 和独特决策风格的多样化用户模拟器。

如 图 1 所示,评估过程包括生成不同的角色 (步骤 1) ,将其采样到配备有非合作策略的模拟器中 (步骤 2) ,然后针对这些多样化的个性测试对话代理 (步骤 3) 。结果表明,标准代理无法适应,在某些个性上表现良好,但在其他个性上表现糟糕。
解决方案: TRIP (定制化策略规划)
为了解决这个问题,研究人员提出了一种名为 TRIP (Tailored stRategIc Planning,定制化策略规划) 的方法。
TRIP 旨在让代理具备适应性。它由两个协同工作的主要组件组成:
- 用户感知策略规划 (UASP): 一个积极尝试理解用户想法的模块。
- 基于种群的训练范式 (PBTP): 一个强制代理与多样化的用户“种群”进行交互的训练机制。
让我们看看下面 TRIP 的架构。

1. 用户感知策略规划 (UASP)
规划模块的核心创新在于整合了 心智理论 (ToM) 。
在心理学中,ToM 是将心理状态——信念、意图、欲望、情绪、知识——归因于自己和他人的能力。TRIP 模型使用 LLM 分析对话历史并明确推断两件事:
- 心理状态 (Mental States): 用户的目标是什么? (例如,“用户的目标是以 15 美元成交。”)
- 未来行动 (Future Actions): 用户接下来可能会做什么? (例如,“用户可能会出更高的价格。”)
TRIP 不仅仅是将原始聊天记录输入策略规划器,而是将这些推断出的心理状态输入到一个可训练的规划器 (基于 BERT) 中。然后,该规划器预测要使用的最佳策略 (如“逻辑诉求”或“情感诉求”) ,从而指导最终的回复生成。
2. 基于种群的训练范式 (PBTP)
TRIP 的第二个支柱是它的学习方式。如果你想让一个代理变得灵活,你就不能在真空中训练它。
研究人员使用了 强化学习 (RL) , 但做了一些调整。TRIP 代理不是与一个静态的用户模拟器交互,而是针对 40 个多样化的用户模拟器组成的种群 进行训练。
这些模拟器通过以下不同组合进行编程:
- 大五人格特质 (Big-Five Personality Traits): 开放性 (Openness)、尽责性 (Conscientiousness)、外向性 (Extraversion)、宜人性 (Agreeableness)、神经质 (Neuroticism)。
- 决策风格 (Decision-Making Styles): 指导型 (Directive)、分析型 (Analytical)、概念型 (Conceptual)、行为型 (Behavioral)。
在训练期间,代理可能在一集中面对一个“宜人”的用户,而在下一集中面对一个“神经质”的用户。这迫使策略规划器停止死记硬背脚本,开始学习适用于不同人类行为的通用且适应性强的策略。
实验结果: 多样性有效吗?
研究人员在两个基准任务上测试了 TRIP:
- 价格谈判 (Price Negotiation): 买卖物品 (基于 Craigslist-Bargain 数据集) 。
- 慈善劝募 (Charity Persuasion): 说服用户为某项事业捐款 (基于 PersuasionForGood 数据集) 。
整体表现
结果令人信服。TRIP 始终优于基准模型,包括标准 LLM 和其他最先进的规划器 (如 PPDPP) 。

在 表 2 (上图顶部) 中,我们看到 TRIP 实现了最高的 成功率 (SR) 和 成交价与标价比率 (SL%) (表示更好的成交价格) ,同时也使用了更少的轮次 (AT)。
也许更重要的是, 人工评估 (图 4,上图底部) 显示,当真人和代理互动时,他们发现 TRIP 比标准“原生” LLM 或 PPDPP 基准要成功得多。
跨个性的适应性
TRIP 的真正考验在于它是否能应对不同的个性类型。下面的雷达图展示了针对不同用户角色的成功率。

浅蓝色虚线区域代表 TRIP。注意它的覆盖面积比其他形状大得多吗?这表明了 均衡提升 。 其他模型可能在某种个性类型上表现突飞猛进,但在另一种个性类型上却一败涂地,而 TRIP 无论用户是“外向”、“尽责”还是“开放”,都能保持高性能。
实际应用案例: 案例研究
数字固然好,但在实际对话中这看起来像什么?研究人员提供了一个案例研究,在慈善劝募任务中对比了基准模型 (PPDPP) 和 TRIP。

在 图 5 中,我们看到了两种不同的用户角色: 开放性 (左) 和 神经质 (右) 。
- 基准模型的失败: PPDPP 代理 (上方几行) 使用了重复的策略。无论用户是谁,它都依赖于“信誉诉求”,背诵关于慈善机构的事实。
- TRIP 的成功:
- 面对 开放性 用户,TRIP 意识到用户对新想法持开放态度。它使用了“逻辑诉求”,紧接着是“情感诉求”,将慈善机构描述为一项重要的事业。
- 面对 神经质 用户 (怀疑且防御心强) ,TRIP 进行了调整。它使用了“个人相关询问”和“个人故事” (“作为一个父母……”) ,意识到这种类型的用户对个人联系和安慰的反应比对冷冰冰的事实要好。
这有效地展示了“心智理论”的实际应用。代理不仅仅是阅读文本;它推断出正在与之交谈的人是什么样的,并相应地调整其策略。
为什么训练种群很重要
人们可能会想: 是用户感知模块在起作用,还是多样化训练真的有必要?研究人员进行了一项消融实验来找出答案。

图 6 显示了训练曲线。
- 蓝线 (PPDPP) 针对单一用户进行训练。它学得很快 (收敛快) ,但遇到了“天花板”——其性能趋于平缓,无法达到很高水平。
- 灰线 (没有用户感知的 TRIP) 和 橙线 (没有多样化种群的 TRIP) 表明,剥离组件会损害性能。
- 理想情况下,当你将多样化种群训练与用户感知相结合时,模型可能在最开始学得稍慢一些 (因为问题更难) ,但它能达到显著更高的性能峰值。
结论
“TRIP” 方法揭示了社会智能的一个基本真理: 灵活性是关键 。
通过摆脱静态、脚本式的交互,拥抱多样化人类个性的混沌,AI 代理可以成为更有效的谈判者。 用户感知 (推断隐藏的心理状态) 和 基于种群的训练 (针对多样化的对手进行练习) 的结合,使这些代理能够逃脱“一刀切”的陷阱。
对于 AI 领域的学生和研究人员来说,这篇论文提醒我们,“数据”不仅仅关于数量。我们用来训练模型的交互的 多样性 决定了它们是僵化的自动机,还是适应性强、具有社会智能的伙伴。随着 LLM 继续融入辅导、销售和咨询等复杂的社会角色,像 TRIP 这样的技术对于构建真正理解我们的系统将至关重要。
](https://deep-paper.org/en/paper/2403.06769/images/cover.png)