心理健康咨询师的培训是一项高风险的工作。新手需要大量的练习来应对敏感的对话,识别情绪线索,并做出富有同理心的回应。理想情况下,他们应该与真实的患者进行练习,但这引发了巨大的隐私、道德和安全问题。你肯定不能拿一个脆弱的病人当作学生第一次尝试治疗的“小白鼠”。
历史上,这种空白通常由同伴角色扮演或聘请演员 (“标准化病人”) 来填补。但最近,像 GPT-4 这样的大型语言模型 (LLM) 提供了一个诱人的替代方案: 无限的、随叫随到的角色扮演伙伴。
然而,这其中有一个陷阱。现成的 LLM 通常表现得太过乐于助人。它们往往口齿伶俐、配合度高且情绪稳定——而这些特质是处于危机中的真实患者通常缺乏的。真实的患者可能会表现出抗拒、使用口语俚语、前后矛盾或充满敌意。当专家试图通过“提示 (prompting) ”让 LLM 表现出这些特质时,他们往往难以将临床直觉转化为专业的技术提示工程。
为此,斯坦福大学的研究人员开发了 Roleplay-doh 。 这就新系统及其论文介绍了一种人机协作工具,它不仅允许领域专家 (治疗师) 通过提供反馈而不是编写代码来“塑造” AI 患者,还引入了一套巧妙的技术流程来确保 AI 真正听从这些反馈。
问题所在: 为什么不能直接提示 GPT-4?
如果你要求 ChatGPT “扮演一个抑郁症患者”,它会给出一个合理的近似表现。但对于高质量的培训来说,“合理”是不够的,必须“真实”。
心理健康数据稀缺且高度隐私,这使得在真实的治疗记录上微调模型变得非常困难。这留给我们的选择只有 提示工程 (prompting) 。 问题在于,领域专家——那些确切知道患者应该如何说话的人——通常不是提示工程专家。他们知道患者“听起来太正式了”,但可能不知道如何有效地编辑系统提示来修正它。
此外,即使你给 LLM 设定了一个复杂的人设,它也经常会偏离。它可能会忘记表现出抗拒,或者错误地应用规则 (例如,当治疗师提供帮助时表现出愤怒) 。研究人员发现,要让专家有效地创建模拟,需要两样东西:
- 一个将专家批评转化为严格行为规则( 原则/Principles )的界面。
- 一个确保 LLM 在对话中实际遵循这些规则的系统( 遵循度/Adherence )。

如图 1 所示,Roleplay-doh 的核心工作流程涉及专家与 AI 的互动。当 AI 犯错时 (例如,太容易接受鼓励) ,专家提供反馈。系统随后将该反馈转化为一条正式的原则 (例如,“当收到鼓励话语时,以犹豫的态度回应”) 。
Roleplay-doh 界面: 从批评到章程
研究人员为非技术用户构建了一个交互式工具。工作流程是迭代的: 专家定义场景,与机器人聊天,并实时纠正它。
该工具依赖于 宪法式 AI (Constitutional AI) 的概念,即模型的行为由一组自然语言原则管理。该工具不是让专家从头开始编写这些原则 (这非常耗费脑力) ,而是通过反应来引导出这些原则。
当 AI 生成回复时,专家可以执行三种操作:
- 赞许 (Kudos) : 以此强化某种行为。
- 批评 (Critique) : 解释哪里错了。
- 重写 (Rewrite) : 写出患者本该如何回应。
在后台,一个 LLM 会分析这些反馈。如果专家重写了一个回复,系统会对比 AI 的原始回复和专家的重写,以找出其中的潜在规则。然后,它会自动生成一条原则。

图 4 展示了这个界面。用户提供批评 (例如,“情绪更加激动和痛苦”) ,系统将其转化为一条持久的规则。这使得专家仅通过在练习对话中纠正错误,就能为患者构建一套复杂的“宪法 (constitution) ”。
核心技术挑战: 让 LLM 听话
在试点测试期间,研究人员发现了一个重大问题。即使有一套完美的专家定义原则,LLM 仍有大约 20% 的时间 未能遵循这些原则。
失败主要分为几类:
- 情境误用: AI 会在错误的情况下应用规则。例如,如果一条原则说“收到建议时表现出犹豫”,AI 可能会在治疗师仅仅说“你好”时也表现出犹豫。
- 复杂性过载: 当一条原则包含多个部分时 (例如,“简短一点,避免使用花哨的词汇,并且听起来要焦虑”) ,AI 经常会漏掉一个或多个部分。
- 对话生硬: 有时,为了遵循规则,AI 生成的文本会让人感觉不自然或像机器人。
为了解决这个问题,作者开发了一种新颖的 原则遵循管道 (Principle-Adherence Pipeline) 。
管道流程: 分而治之
标准的提示工程要求 LLM “遵循这 10 条规则生成回复”。这给模型带来了沉重的认知负担。Roleplay-doh 的管道将这一生成过程分解为一个严格的验证循环。

如上图 2 所示,该管道分两个不同阶段运行:
阶段 1: 将原则转化为问题 系统不只是将原始原则提供给生成器。它首先通过一个 重写模块 (Rewriter Module) 处理这些原则。
- 简化: 它将复杂、多部分的原则转化为简单的“是/否”问题。像“简明扼要并保持开放式”这样的规则会变成两个问题: “讨论是否简明扼要?”以及“是否通过开放性鼓励对话?”
- 自动原则: 系统还会生成与一般对话质量相关的“健全性检查”问题,例如确保回复直接回答了治疗师的问题。
阶段 2: 评估与自我修正 一旦生成了初始回复,它还不会显示给用户。它会经过一个 适用性与遵循度评估器 (Applicability and Adherence Evaluator) 。
- 适用性: 系统检查某条特定原则是否适用于当前上下文。如果治疗师没有给出建议,关于“如何对建议做出反应”的规则会被标记为 N/A (不适用) 。 这防止了模型在不合适的地方强行表现某种行为。
- 遵循度: 对于所有适用的问题,系统会问: “回复是否满足了这一点?”如果答案是“否”,系统会触发重写循环,明确指示模型修正特定的失败点。
这种“先检查,后生成”的方法将负担从生成 (较难) 转移到了验证 (较易) ,从而显著提高了输出质量。
实验设置
为了验证 Roleplay-doh,研究人员招募了 25 名咨询专家。该研究旨在比较创建 AI 患者的两种方法:
- 仅场景 (Scenario-Only) : 专家编写详细的患者描述 (背景故事、症状) ,但不使用迭代式的原则反馈工具。
- 场景 + 专家原则 (Scenario + Expert Principles) : 专家使用 Roleplay-doh 通过上述反馈循环来优化患者。
专家们与两个版本进行了互动并打分。此外,为了确保创作者不会偏向自己的作品,5 名第三方专家咨询师对对话记录进行了盲审,以判断其真实性。
结果: 它有效吗?
对专家创建的原则进行的定性分析本身就很迷人。专家们不仅仅要求“悲伤”;他们定义了复杂的行为动态。

如表 2 所示,专家们制定了管理特定治疗阶段的原则。例如,在“探索”阶段,他们制定了如“表现出最初的不信任和犹豫”之类的规则。他们还根据人设定义了相互冲突的原则——一些患者被告知要语无伦次和矛盾,而另一些则被告知要简明扼要。这凸显了为什么一刀切的“心理健康机器人”提示会失败;真实的患者是多种多样的。
定量成功
专家们在几乎每个指标上都给 场景 + 原则 版的患者打了显著更高的分数。

表 1 显示,添加专家原则提高了 真实性 (Authenticity) 、与过往案例的相似度 (Resemblance to Past Cases) 以及 培训就绪度 (Readiness for Training) 。 “仅场景”的机器人 (标准提示) 经常被描述为“过于善辩”或“过于配合”——这些特质虽然能带来愉快的聊天,但对于需要学习如何处理抗拒的治疗师来说,却是糟糕的训练对象。
验证管道
最后,研究人员测试了他们的技术管道 (将原则转化为问题并自我修正) 是否真的必要。他们将 完整 (Full) 方法与 无批评 (No Critique) 基线 (标准生成) 以及几个消融版本 (移除管道的部分功能) 进行了比较。
![图 3: 错误测试用例在与上下文一致性 (M1)、原则遵循度 (M3) 和总体排名上的 胜/平/负 情况。以 [无批评] 作为基线的成对偏好评估结果。结果通过多数投票获得。](/en/paper/2407.00870/images/005.jpg#center)
图 3 中的结果非常清晰。 完整 管道 (代表“胜”的黄色条) 在遵循原则 (M3) 和总体质量上始终优于基线。
至关重要的是,消融研究表明,“朴素 (Naive) ”方法——即简单地要求 LLM “自我修复”而不将原则分解为问题——导致了大量的平局 (浅蓝色条) 。它很少能改善输出。这证明了将原则 重写为简单的“是/否”问题 这一特定步骤,是让 LLM 有效自我修正的“关键秘诀”。
结论与启示
Roleplay-doh 展示了一种强大的人机交互范式。与其期望领域专家学习深奥的提示工程,我们不如构建能够理解他们的语言 (反馈、批评、表扬) 并将其转化为机器语言 (结构化原则) 的工具。
其意义不仅限于心理健康领域。这种架构同样可以应用于培训销售代表处理刁钻的客户、教导经理进行绩效评估,或者帮助医学生练习床边礼仪。
通过将直观的专家界面与严格的、自我修正的后端管道相结合,Roleplay-doh 弥合了通用 LLM 与高度专业化、真实的培训工具之间的差距。它让我们从“与聊天机器人交谈”迈向了“与患者练习”,使数字模拟成为高风险职业培训的可行现实。
](https://deep-paper.org/en/paper/2407.00870/images/cover.png)