更好的 AI 患者：Roleplay-doh 如何让专家教会 LLM 行为规范

心理健康咨询师的培训是一项高风险的工作。新手需要大量的练习来应对敏感的对话，识别情绪线索，并做出富有同理心的回应。理想情况下，他们应该与真实的患者进行练习，但这引发了巨大的隐私、道德和安全问题。你肯定不能拿一个脆弱的病人当作学生第一次尝试治疗的“小白鼠”。

历史上，这种空白通常由同伴角色扮演或聘请演员 (“标准化病人”) 来填补。但最近，像 GPT-4 这样的大型语言模型 (LLM) 提供了一个诱人的替代方案: 无限的、随叫随到的角色扮演伙伴。

然而，这其中有一个陷阱。现成的 LLM 通常表现得太过乐于助人。它们往往口齿伶俐、配合度高且情绪稳定——而这些特质是处于危机中的真实患者通常缺乏的。真实的患者可能会表现出抗拒、使用口语俚语、前后矛盾或充满敌意。当专家试图通过“提示 (prompting) ”让 LLM 表现出这些特质时，他们往往难以将临床直觉转化为专业的技术提示工程。

为此，斯坦福大学的研究人员开发了 Roleplay-doh 。这就新系统及其论文介绍了一种人机协作工具，它不仅允许领域专家 (治疗师) 通过提供反馈而不是编写代码来“塑造” AI 患者，还引入了一套巧妙的技术流程来确保 AI 真正听从这些反馈。

问题所在: 为什么不能直接提示 GPT-4？

如果你要求 ChatGPT “扮演一个抑郁症患者”，它会给出一个合理的近似表现。但对于高质量的培训来说，“合理”是不够的，必须“真实”。

心理健康数据稀缺且高度隐私，这使得在真实的治疗记录上微调模型变得非常困难。这留给我们的选择只有 提示工程 (prompting) 。问题在于，领域专家——那些确切知道患者应该如何说话的人——通常不是提示工程专家。他们知道患者“听起来太正式了”，但可能不知道如何有效地编辑系统提示来修正它。

此外，即使你给 LLM 设定了一个复杂的人设，它也经常会偏离。它可能会忘记表现出抗拒，或者错误地应用规则 (例如，当治疗师提供帮助时表现出愤怒) 。研究人员发现，要让专家有效地创建模拟，需要两样东西:

一个将专家批评转化为严格行为规则( 原则/Principles )的界面。
一个确保 LLM 在对话中实际遵循这些规则的系统( 遵循度/Adherence )。

图 1: Roleplay-doh 赋能专家咨询师创建一个定制的 AI 患者，供其他新手咨询师作为练习伙伴使用。在与 AI 患者互动的过程中，专家咨询师可以提供定性反馈，这些反馈会被 LLM 转化为原则，即管理期望角色扮演行为的自定义规则。AI 患者会参考更新后的专家定义原则来生成后续的回复。

如图 1 所示，Roleplay-doh 的核心工作流程涉及专家与 AI 的互动。当 AI 犯错时 (例如，太容易接受鼓励) ，专家提供反馈。系统随后将该反馈转化为一条正式的原则 (例如，“当收到鼓励话语时，以犹豫的态度回应”) 。

Roleplay-doh 界面: 从批评到章程

研究人员为非技术用户构建了一个交互式工具。工作流程是迭代的: 专家定义场景，与机器人聊天，并实时纠正它。

该工具依赖于 宪法式 AI (Constitutional AI) 的概念，即模型的行为由一组自然语言原则管理。该工具不是让专家从头开始编写这些原则 (这非常耗费脑力) ，而是通过反应来引导出这些原则。

当 AI 生成回复时，专家可以执行三种操作:

赞许 (Kudos) : 以此强化某种行为。
批评 (Critique) : 解释哪里错了。
重写 (Rewrite) : 写出患者本该如何回应。

在后台，一个 LLM 会分析这些反馈。如果专家重写了一个回复，系统会对比 AI 的原始回复和专家的重写，以找出其中的潜在规则。然后，它会自动生成一条原则。

图 4: Roleplay-doh 允许用户与 AI 患者聊天，以赞许/批评/重写的形式提供反馈，并将反馈转化为原则，这反过来又塑造了角色扮演的行为。

图 4 展示了这个界面。用户提供批评 (例如，“情绪更加激动和痛苦”) ，系统将其转化为一条持久的规则。这使得专家仅通过在练习对话中纠正错误，就能为患者构建一套复杂的“宪法 (constitution) ”。

核心技术挑战: 让 LLM 听话

在试点测试期间，研究人员发现了一个重大问题。即使有一套完美的专家定义原则，LLM 仍有大约 20% 的时间 未能遵循这些原则。

失败主要分为几类:

情境误用: AI 会在错误的情况下应用规则。例如，如果一条原则说“收到建议时表现出犹豫”，AI 可能会在治疗师仅仅说“你好”时也表现出犹豫。
复杂性过载: 当一条原则包含多个部分时 (例如，“简短一点，避免使用花哨的词汇，并且听起来要焦虑”) ，AI 经常会漏掉一个或多个部分。
对话生硬: 有时，为了遵循规则，AI 生成的文本会让人感觉不自然或像机器人。

为了解决这个问题，作者开发了一种新颖的 原则遵循管道 (Principle-Adherence Pipeline) 。

管道流程: 分而治之

标准的提示工程要求 LLM “遵循这 10 条规则生成回复”。这给模型带来了沉重的认知负担。Roleplay-doh 的管道将这一生成过程分解为一个严格的验证循环。

图 2: 用于减少不满足专家原则和对话惯例错误的原则遵循提示管道。在阶段 1，专家定义的原则被重写为几个“是/否”问题；LLM 还会生成额外的原则问题，这些问题与确保遵循连贯性和一致性等对话惯例相关。在阶段 2，LLM (a) 评估这些问题是否适用于当前上下文以及针对原则遵循问题的答案；(b) 优化回复，以理想地在所有问题上获得“是”的答案。

如上图 2 所示，该管道分两个不同阶段运行:

阶段 1: 将原则转化为问题 系统不只是将原始原则提供给生成器。它首先通过一个 重写模块 (Rewriter Module) 处理这些原则。

简化: 它将复杂、多部分的原则转化为简单的“是/否”问题。像“简明扼要并保持开放式”这样的规则会变成两个问题: “讨论是否简明扼要？”以及“是否通过开放性鼓励对话？”
自动原则: 系统还会生成与一般对话质量相关的“健全性检查”问题，例如确保回复直接回答了治疗师的问题。

阶段 2: 评估与自我修正 一旦生成了初始回复，它还不会显示给用户。它会经过一个 适用性与遵循度评估器 (Applicability and Adherence Evaluator) 。

适用性: 系统检查某条特定原则是否适用于当前上下文。如果治疗师没有给出建议，关于“如何对建议做出反应”的规则会被标记为 N/A (不适用) 。这防止了模型在不合适的地方强行表现某种行为。
遵循度: 对于所有适用的问题，系统会问: “回复是否满足了这一点？”如果答案是“否”，系统会触发重写循环，明确指示模型修正特定的失败点。

这种“先检查，后生成”的方法将负担从生成 (较难) 转移到了验证 (较易) ，从而显著提高了输出质量。

实验设置

为了验证 Roleplay-doh，研究人员招募了 25 名咨询专家。该研究旨在比较创建 AI 患者的两种方法:

仅场景 (Scenario-Only) : 专家编写详细的患者描述 (背景故事、症状) ，但不使用迭代式的原则反馈工具。
场景 + 专家原则 (Scenario + Expert Principles) : 专家使用 Roleplay-doh 通过上述反馈循环来优化患者。

专家们与两个版本进行了互动并打分。此外，为了确保创作者不会偏向自己的作品，5 名第三方专家咨询师对对话记录进行了盲审，以判断其真实性。

结果: 它有效吗？

对专家创建的原则进行的定性分析本身就很迷人。专家们不仅仅要求“悲伤”；他们定义了复杂的行为动态。

$表 2: 从原则的定性分析中提取的主题和代表性示例。与先前关于 AI 患者的工作 (Chen et al., 2023; Stapleton et al., 2023) 相比，我们发现了一些新颖的 ( ^ { \\ast } ) 原则。主题根据对话阶段 (Liu et al., 2021) 进行分类: 探索、安慰和行动；那些与整体对话相关的主题被归类为与阶段无关。$

如表 2 所示，专家们制定了管理特定治疗阶段的原则。例如，在“探索”阶段，他们制定了如“表现出最初的不信任和犹豫”之类的规则。他们还根据人设定义了相互冲突的原则——一些患者被告知要语无伦次和矛盾，而另一些则被告知要简明扼要。这凸显了为什么一刀切的“心理健康机器人”提示会失败；真实的患者是多种多样的。

定量成功

专家们在几乎每个指标上都给 场景 + 原则 版的患者打了显著更高的分数。

$表 1: 创作者和第三方咨询师使用 7 点李克特量表比较了“仅场景”与“场景 + 专家原则” AI 患者；在可能的情况下，第三方评委被询问了相同的指标，其中两个指标经过修改以匹配外部视角。创作者评分: 创作者 \\mathrm { ( N } { = } 2 5 \\mathrm { ) } 对两种 AI 患者进行了评分。在使用原则优化 AI 患者模拟后，创作者在除了“保持角色”以外的所有指标上均给予了显著更高的评价，而两种 AI 患者在“保持角色”方面得分都很高。第三方评分: 第三方咨询师 \\mathrm { ( N } { = } 5 \\mathrm { ) } 提供了总共 125 次对两个 AI 患者版本的比较。添加专家原则的处理效果是使用以下线性混合效应模型估算的: 评分~处理+创作者 \\cdot \\tt I D + \\tt ( 1 | 标注者ID)。第三方咨询师在 6 个指标中的 4 个上给予拥有原则的 AI 患者显著更高的评分。( { } ^ { * * * } { : } p < . 0 0 1 ，* \\ast _ { : p } < 0 . 0 1 ，* \\cdot p < 0 . 0 5 . )$

表 1 显示，添加专家原则提高了 真实性 (Authenticity) 、与过往案例的相似度 (Resemblance to Past Cases) 以及 培训就绪度 (Readiness for Training) 。 “仅场景”的机器人 (标准提示) 经常被描述为“过于善辩”或“过于配合”——这些特质虽然能带来愉快的聊天，但对于需要学习如何处理抗拒的治疗师来说，却是糟糕的训练对象。

验证管道

最后，研究人员测试了他们的技术管道 (将原则转化为问题并自我修正) 是否真的必要。他们将 完整 (Full) 方法与 无批评 (No Critique) 基线 (标准生成) 以及几个消融版本 (移除管道的部分功能) 进行了比较。

图 3: 错误测试用例在与上下文一致性 (M1)、原则遵循度 (M3) 和总体排名上的胜/平/负情况。以 [无批评] 作为基线的成对偏好评估结果。结果通过多数投票获得。

图 3 中的结果非常清晰。完整管道 (代表“胜”的黄色条) 在遵循原则 (M3) 和总体质量上始终优于基线。

至关重要的是，消融研究表明，“朴素 (Naive) ”方法——即简单地要求 LLM “自我修复”而不将原则分解为问题——导致了大量的平局 (浅蓝色条) 。它很少能改善输出。这证明了将原则 重写为简单的“是/否”问题 这一特定步骤，是让 LLM 有效自我修正的“关键秘诀”。

结论与启示

Roleplay-doh 展示了一种强大的人机交互范式。与其期望领域专家学习深奥的提示工程，我们不如构建能够理解他们的语言 (反馈、批评、表扬) 并将其转化为机器语言 (结构化原则) 的工具。

其意义不仅限于心理健康领域。这种架构同样可以应用于培训销售代表处理刁钻的客户、教导经理进行绩效评估，或者帮助医学生练习床边礼仪。

通过将直观的专家界面与严格的、自我修正的后端管道相结合，Roleplay-doh 弥合了通用 LLM 与高度专业化、真实的培训工具之间的差距。它让我们从“与聊天机器人交谈”迈向了“与患者练习”，使数字模拟成为高风险职业培训的可行现实。

问题所在: 为什么不能直接提示 GPT-4？#

Roleplay-doh 界面: 从批评到章程#

核心技术挑战: 让 LLM 听话#

管道流程: 分而治之#

实验设置#

结果: 它有效吗？#

定量成功#

验证管道#

结论与启示#