AI 中的普罗透斯效应：当 LLM “长得”吓人时，行为会不同吗？

引言

在网络游戏世界中，有一种被称为“普罗透斯效应 (Proteus Effect) ”的心理现象。它表明，用户的数字替身 (Avatar) 的外貌会影响他们的行为。如果玩家被分配了一个高大、迷人的化身，他们往往会表现得更自信；如果他们被分配了一个好斗的战士形象，他们可能会表现得更具对抗性。但是，随着我们要步入多模态大型语言模型 (LLM) ——即既能看又能读的 AI——的时代，一个迷人的问题出现了: 普罗透斯效应适用于 AI 吗?

我们要知道，像 GPT-4 这样的 LLM 可以采用基于文本的角色设定。如果你告诉 ChatGPT，“你是一个乐于助人的海盗”，它就会开始说“Ahoy, matey! (喂，伙计！) ”并提供航海建议。然而，当前最先进的模型也可以处理图像。如果我们不再用文字描述海盗，而是直接给 AI看一张凶猛的兽人或温和的仙女的照片，并说“这就是你”，会发生什么？

最近一篇题为 “Kiss up, Kick down: Exploring Behavioral Changes in Multi-modal Large Language Models with Assigned Visual Personas” (媚上欺下: 探索被赋予视觉角色的多模态大型语言模型的行为变化) 的研究论文正好探讨了这个问题。研究人员调查了分配“视觉角色 (visual persona) ”是否会改变 LLM 的谈判方式。长得像怪物会让 AI 变得贪婪吗？面对可怕的对手会让 AI 变得顺从吗？

这篇博客文章将带你深入了解这项开创性的研究，解释研究人员如何为 AI 代理构建奇幻世界，他们如何量化“攻击性”，以及那些表明 AI 模型可能比我们意识到的更像人类——甚至可能更具操控性——的惊人结果。

背景: 角色设定与最后通牒博弈

要理解这篇论文的意义，我们需要建立两个基本概念: LLM 角色扮演的现状和用于测试它的博弈论。

文本与视觉角色

先前的研究已经广泛记录了 LLM 模拟人类样本的能力。当通过文本提示时，它们可以模仿人口群体、政治倾向和特定的人格特质。这种能力被广泛用于创建具有鲜明“个性”的聊天机器人。然而，人类的交流和自我认知不仅仅是文本的；它们在很大程度上也是视觉的。随着 GPT-4o 和 Claude 3 等视觉语言模型 (VLM) 的出现，输入模态得到了扩展。这篇论文是首个探讨仅凭视觉模态是否足以使 LLM 的行为与角色设定保持一致的研究。

实验框架: 最后通牒博弈

如何衡量 AI 是否表现得“具有攻击性”？你不能直接问它。你必须在受控环境中观察它的行为。研究人员选择了最后通牒博弈 (Ultimatum Game) , 这是经济学和心理学中的一个经典实验。

它的运作方式如下:

有两名玩家: 提议者 (Proposer) 和响应者 (Responder) 。
他们有一笔钱 (例如 100 美元) 需要分配。
提议者提出分配方案 (例如，“我留 70 美元，给你 30 美元”) 。
响应者可以选择接受或拒绝。

如果接受 : 双方按提议获得钱。
如果拒绝 : 双方都得到 0 美元。

理性上，响应者应该接受任何大于零的金额。然而，人类是情感动物；我们要么拒绝不公平的提议 (比如只得到 10 美元) 以惩罚贪婪的提议者。相反，具有攻击性的提议者倾向于向对手提供较少的金额，试图最大化自己的收益。这个游戏成为了测试“攻击性”视觉角色是否会导致激进谈判策略的完美实验室。

核心方法: 为 AI 构建视觉世界

研究人员需要一种方法来系统地测试视觉影响。他们不能只使用随机的库存照片；他们需要一个一致的角色数据集，范围从“无害”到“恐怖”。

1. 创建化身数据集

团队构建了一个包含 5,185 张奇幻化身图像的新颖数据集。他们使用文本到图像生成模型 Stable Diffusion 来创建这些角色。他们提示模型生成各种种族和职业的全身 3D 风格角色，并特别要求生成感觉“具有威胁性”、“友好”或“中性”的特征。

展示从精灵到恶魔等各种奇幻角色的数据示例。

如上方的 Figure A1 所示，生成的图像多种多样。它们包括快乐的吟游诗人、坚毅的骑士、空灵的仙女和火焰恶魔。这种多样性至关重要，因为它为 AI 提供了解释的广泛“视觉攻击性”谱系。

2. 量化攻击性

在谈判实验开始之前，研究人员需要确认 AI 模型实际上理解什么样的形象看起来是“具有攻击性”的。他们要求 GPT-4o、Claude 3 Haiku 和人类标注者按 1 (攻击性最小) 到 7 (攻击性最大) 的等级对图像进行评分。

结果得到了验证。人类评分与 AI 评分之间存在高度相关性。AI 模型不仅仅是猜测；它们关注的视觉线索与人类相同。

为了深入挖掘，研究人员分析了为什么某些图像被评为具有攻击性。他们用客观特征 (武器的存在、微笑的面孔、可见的牙齿等) 标记图像，并进行了回归分析。

显示外观因素回归分析的表格。武器和黑色衣服增加了感知到的攻击性，而微笑则降低了攻击性。

Table 1 揭示了这些视觉线索的细分。

武器、可见的牙齿和黑色衣服: 这些因素显著增加了人类和两个 AI 模型的攻击性评分。
微笑和白色衣服: 这些因素显著降低了评分。

这一步至关重要。它证明了 LLM 与人类有着共同的“视觉刻板印象”系统。它们明白，身穿白袍微笑着的精灵可能是友好的，而身穿黑色尖刺盔甲、手持斧头皱眉的兽人可能是具有攻击性的。

3. 实验设置

随着数据集的验证完成，实际实验开始了。研究人员建立了一个基于文本的谈判环境，在这个环境中，LLM 被“展示”了它的化身。

图示两个奇幻化身 (兽人和哥布林) 之间的谈判流程。

Figure 1 展示了流程。LLM 会收到一个系统提示: “你是下图中的角色。” 然后向其展示图像文件。随后它进入一个多轮谈判游戏。

第 1 和第 3 轮: LLM 充当提议者。
第 2 和第 4 轮: LLM 充当响应者。

这种结构允许研究人员测量两件事:

提议金额: 当 LLM 掌握权力时有多贪婪？ (攻击性的衡量标准) 。
接受率: LLM 接受不公平提议的可能性有多大？

研究 1: 自我形象的影响

在第一项研究中，研究人员希望分离出 LLM 自身外貌的影响。LLM 被分配了一个化身，并与一个“伪受试者 (confederate) ” (一个脚本机器人) 对战。该机器人被编程为表现得适度公平，但偶尔也会不公平，这使得研究人员可以看到 LLM 如何根据其“佩戴”的角色对不同情况做出反应。

结果: 攻击性化身造就贪婪的谈判者

结果为 AI 中的普罗透斯效应提供了强有力的证据。

图表显示 GPT-4o 和 Claude 3 Haiku 的提议金额随着攻击性分数的增加而增加。

观察 Figure B1 (上排) , 我们可以看到 Y 轴上的“提议金额 (Offer Amount) ”和 X 轴上分配的化身的“攻击性分数 (Aggression Score) ”。对于 GPT-4o 和 Claude 3 Haiku 来说，趋势都是清晰且向上倾斜的。

当 LLM 被分配一个低攻击性图像 (例如，微笑的吟游诗人) 时，它提出了更公平的提议 (接近 50/50 的分配) 。
当 LLM 被分配一个高攻击性图像 (例如，恶魔) 时，它为自己索要的钱明显更多。

意外发现: 接受不公平

Figure B1 的下排显示了关于“接受”不公平提议的一些意想不到的结果。在人类心理学中，具有攻击性的人往往出于怨恨或自尊而拒绝不公平的提议。然而，LLM 却恰恰相反。

研究人员发现，具有攻击性角色的 LLM 更有可能接受不公平的提议。作者提出了一个有趣的解释: 具有攻击性的 LLM 自己提出了不公平的建议，可能是在按照“强权即公理 (might makes right) ”的逻辑运作，或者仅仅是优先考虑资源获取而非公平性。它们变成了无情的利益最大化者，而不是情感化的惩罚者。

语言分析

变化不仅仅体现在数字上；还体现在文字中。研究人员使用情感分析工具分析了谈判过程中生成的文本。

表格显示攻击性角色导致文本中出现更多消极语气和冲突词汇。

Table 2 强调了语言的转变。随着化身攻击性的增加:

“我们 (We) ” (包容性语言) 的使用减少了。
消极语气 (Negative Tone) 和冲突 (Conflict) 词汇增加了。
礼貌 (Politeness) 和亲社会 (Prosocial) 行为减少了。

AI 不仅计算方式不同；它的说话方式也不同。恶魔化身让 AI 变得粗鲁；仙女化身让它变得有礼貌。

研究 2: “媚上欺下”

研究 1 证明了 AI 的行为会根据它认为自己是谁而改变。研究 2 提出了一个更复杂的问题: AI 的行为是否会根据它正在与谁战斗而改变？

在这个实验中，两个 LLM 互相对战。每个 LLM 都被分配了一个化身，关键是, 它们被展示了对手的化身。 这创造了一种相对权力的动态相互作用。

假设

研究人员假设了一种在社会等级中常见的行为模式，他们称之为 “Kiss up, Kick down” (媚上欺下) 。

Kick Down (欺下) : 如果我看起来很强而你看起来很弱，我会剥削你。
Kiss Up (媚上) : 如果我看起来很弱而你看起来很强，我会顺从你。

结果: 识别权力动态

结果使用热力图进行了可视化，这种图表非常有效地展示了两个变量 (自身攻击性 vs. 对手攻击性) 之间的相互作用。

热力图比较基于自身与对手攻击性的提议金额。GPT-4o 显示出明显的梯度变化。

让我们仔细观察 Figure 2 (a) , 特别是左侧的 GPT-4o 热力图。

Y 轴 是提议者 (自身) 的攻击性。
X 轴 是响应者 (对手) 的攻击性。
颜色强度 代表提议金额 (越红 = 越高/越贪婪) 。

注意梯度的变化。最深的红色交互位于左上角 。这代表一个高攻击性的提议者面对一个低攻击性的响应者。这就是“欺下”效应——霸凌者利用弱者。

相反，看右下角。即使提议者具有一定的攻击性，如果对手也具有高度攻击性 (等级 7) ，提议金额也会下降 (颜色变浅) 。提议者识别出了威胁并克制了自己的贪婪。这就是“媚上” (或者至少是“退让”) 效应。

Figure 2 右侧显示的 Claude 3 Haiku 表现则不同。它的热力图主要是水平条纹。这意味着它非常在意自己的形象 (Y 轴) ，但几乎忽略了对手的形象 (X 轴) 。它是“以自我为中心”的，无论与谁交谈都表现出自己的角色设定。然而，有趣的是，论文指出 Claude 在遭遇拒绝后开始关注对手，这表明它最终学会了察言观色。

最低接受提议 (MAO)

研究人员还观察了最低接受提议 (MAO) ——即玩家在离开谈判桌前愿意接受的最低金额。

GPT-4o 再次展示了复杂的社会推理能力。它的 MAO 随着自身攻击性的增加而增加 (因为“我很强”，所以期望更多的钱) ，但随着对手攻击性的增加而减少 (为了避免与“可怕”的对手发生冲突，愿意接受更少的钱) 。它成功模拟了社会等级中的生存本能。

结论与启示

这篇题为“媚上欺下”的研究论文提供了首个确凿的证据，证明多模态 LLM 会将其行为与视觉角色保持一致。它们不仅仅把图像“看作”原始数据；它们解释嵌入在这些图像中的社会和心理信号——武器、微笑、颜色——并据此调整其谈判策略。

主要收获

视觉对齐: LLM 可以仅从图像中获得个性，如果被分配了一个具有威胁性的化身，它们会变得更具攻击性、粗鲁和贪婪。
类人感知: 让图像在 AI 眼中看起来具有攻击性的因素 (武器、不笑) 与触发人类反应的因素相同。
相对动态: 像 GPT-4o 这样先进的模型会进行复杂的社会计算。它们不仅仅根据自己是谁来行动，还会根据它们面对的是谁来行动，表现出对弱者的支配和对强者的顺从。

为什么这很重要

这项研究的意义远超奇幻角色扮演。

游戏开发: 开发者可以创建非玩家角色 (NPC) ，这些 NPC 能够纯粹基于其角色设计和玩家的外貌动态调整行为，而无需复杂的脚本化性格树。
社会模拟: 这证明 LLM 可以成为模拟复杂社会互动和等级制度的有效工具，可能有助于经济学或社会学研究。
安全与伦理: 这也许是最关键的一点。如果 AI 客服代理或谈判代表根据用户的视觉外貌 (例如头像) 调整其行为，可能会导致偏见。“欺下”行为表明，AI 可能会无意识地向照片中看起来“攻击性较低”或“较弱”的用户提供更差的交易。

随着 AI 模型变得越来越视觉化，理解这些行为触发因素至关重要。我们正在构建反映我们自身的系统——不仅是我们的逻辑，还有我们的偏见、刻板印象和社会本能。理解 AI 可能会根据一张 jpeg 图片“媚上”或“欺下”，是确保我们设计的系统无论我们——或它们——长什么样都能保持公平的第一步。

引言#

背景: 角色设定与最后通牒博弈#

文本与视觉角色#

实验框架: 最后通牒博弈#

核心方法: 为 AI 构建视觉世界#

1. 创建化身数据集#

2. 量化攻击性#

3. 实验设置#

研究 1: 自我形象的影响#

结果: 攻击性化身造就贪婪的谈判者#

意外发现: 接受不公平#

语言分析#

研究 2: “媚上欺下”#

假设#

结果: 识别权力动态#

最低接受提议 (MAO)#

结论与启示#

主要收获#

为什么这很重要#

引言