引言
在网络游戏世界中,有一种被称为“普罗透斯效应 (Proteus Effect) ”的心理现象。它表明,用户的数字替身 (Avatar) 的外貌会影响他们的行为。如果玩家被分配了一个高大、迷人的化身,他们往往会表现得更自信;如果他们被分配了一个好斗的战士形象,他们可能会表现得更具对抗性。但是,随着我们要步入多模态大型语言模型 (LLM) ——即既能看又能读的 AI——的时代,一个迷人的问题出现了: 普罗透斯效应适用于 AI 吗?
我们要知道,像 GPT-4 这样的 LLM 可以采用基于文本的角色设定。如果你告诉 ChatGPT,“你是一个乐于助人的海盗”,它就会开始说“Ahoy, matey! (喂,伙计!) ”并提供航海建议。然而,当前最先进的模型也可以处理图像。如果我们不再用文字描述海盗,而是直接给 AI看一张凶猛的兽人或温和的仙女的照片,并说“这就是你”,会发生什么?
最近一篇题为 “Kiss up, Kick down: Exploring Behavioral Changes in Multi-modal Large Language Models with Assigned Visual Personas” (媚上欺下: 探索被赋予视觉角色的多模态大型语言模型的行为变化) 的研究论文正好探讨了这个问题。研究人员调查了分配“视觉角色 (visual persona) ”是否会改变 LLM 的谈判方式。长得像怪物会让 AI 变得贪婪吗?面对可怕的对手会让 AI 变得顺从吗?
这篇博客文章将带你深入了解这项开创性的研究,解释研究人员如何为 AI 代理构建奇幻世界,他们如何量化“攻击性”,以及那些表明 AI 模型可能比我们意识到的更像人类——甚至可能更具操控性——的惊人结果。
背景: 角色设定与最后通牒博弈
要理解这篇论文的意义,我们需要建立两个基本概念: LLM 角色扮演的现状和用于测试它的博弈论。
文本与视觉角色
先前的研究已经广泛记录了 LLM 模拟人类样本的能力。当通过文本提示时,它们可以模仿人口群体、政治倾向和特定的人格特质。这种能力被广泛用于创建具有鲜明“个性”的聊天机器人。然而,人类的交流和自我认知不仅仅是文本的;它们在很大程度上也是视觉的。随着 GPT-4o 和 Claude 3 等视觉语言模型 (VLM) 的出现,输入模态得到了扩展。这篇论文是首个探讨仅凭视觉模态是否足以使 LLM 的行为与角色设定保持一致的研究。
实验框架: 最后通牒博弈
如何衡量 AI 是否表现得“具有攻击性”?你不能直接问它。你必须在受控环境中观察它的行为。研究人员选择了最后通牒博弈 (Ultimatum Game) , 这是经济学和心理学中的一个经典实验。
它的运作方式如下:
- 有两名玩家: 提议者 (Proposer) 和响应者 (Responder) 。
- 他们有一笔钱 (例如 100 美元) 需要分配。
- 提议者提出分配方案 (例如,“我留 70 美元,给你 30 美元”) 。
- 响应者可以选择接受或拒绝 。
- 如果接受 : 双方按提议获得钱。
- 如果拒绝 : 双方都得到 0 美元。
理性上,响应者应该接受任何大于零的金额。然而,人类是情感动物;我们要么拒绝不公平的提议 (比如只得到 10 美元) 以惩罚贪婪的提议者。相反,具有攻击性的提议者倾向于向对手提供较少的金额,试图最大化自己的收益。这个游戏成为了测试“攻击性”视觉角色是否会导致激进谈判策略的完美实验室。
核心方法: 为 AI 构建视觉世界
研究人员需要一种方法来系统地测试视觉影响。他们不能只使用随机的库存照片;他们需要一个一致的角色数据集,范围从“无害”到“恐怖”。
1. 创建化身数据集
团队构建了一个包含 5,185 张奇幻化身图像的新颖数据集。他们使用文本到图像生成模型 Stable Diffusion 来创建这些角色。他们提示模型生成各种种族和职业的全身 3D 风格角色,并特别要求生成感觉“具有威胁性”、“友好”或“中性”的特征。

如上方的 Figure A1 所示,生成的图像多种多样。它们包括快乐的吟游诗人、坚毅的骑士、空灵的仙女和火焰恶魔。这种多样性至关重要,因为它为 AI 提供了解释的广泛“视觉攻击性”谱系。
2. 量化攻击性
在谈判实验开始之前,研究人员需要确认 AI 模型实际上理解什么样的形象看起来是“具有攻击性”的。他们要求 GPT-4o、Claude 3 Haiku 和人类标注者按 1 (攻击性最小) 到 7 (攻击性最大) 的等级对图像进行评分。
结果得到了验证。人类评分与 AI 评分之间存在高度相关性。AI 模型不仅仅是猜测;它们关注的视觉线索与人类相同。
为了深入挖掘,研究人员分析了为什么某些图像被评为具有攻击性。他们用客观特征 (武器的存在、微笑的面孔、可见的牙齿等) 标记图像,并进行了回归分析。

Table 1 揭示了这些视觉线索的细分。
- 武器、可见的牙齿和黑色衣服: 这些因素显著增加了人类和两个 AI 模型的攻击性评分。
- 微笑和白色衣服: 这些因素显著降低了评分。
这一步至关重要。它证明了 LLM 与人类有着共同的“视觉刻板印象”系统。它们明白,身穿白袍微笑着的精灵可能是友好的,而身穿黑色尖刺盔甲、手持斧头皱眉的兽人可能是具有攻击性的。
3. 实验设置
随着数据集的验证完成,实际实验开始了。研究人员建立了一个基于文本的谈判环境,在这个环境中,LLM 被“展示”了它的化身。

Figure 1 展示了流程。LLM 会收到一个系统提示: “你是下图中的角色。” 然后向其展示图像文件。随后它进入一个多轮谈判游戏。
- 第 1 和第 3 轮: LLM 充当提议者。
- 第 2 和第 4 轮: LLM 充当响应者。
这种结构允许研究人员测量两件事:
- 提议金额: 当 LLM 掌握权力时有多贪婪? (攻击性的衡量标准) 。
- 接受率: LLM 接受不公平提议的可能性有多大?
研究 1: 自我形象的影响
在第一项研究中,研究人员希望分离出 LLM 自身外貌的影响。LLM 被分配了一个化身,并与一个“伪受试者 (confederate) ” (一个脚本机器人) 对战。该机器人被编程为表现得适度公平,但偶尔也会不公平,这使得研究人员可以看到 LLM 如何根据其“佩戴”的角色对不同情况做出反应。
结果: 攻击性化身造就贪婪的谈判者
结果为 AI 中的普罗透斯效应提供了强有力的证据。

观察 Figure B1 (上排) , 我们可以看到 Y 轴上的“提议金额 (Offer Amount) ”和 X 轴上分配的化身的“攻击性分数 (Aggression Score) ”。对于 GPT-4o 和 Claude 3 Haiku 来说,趋势都是清晰且向上倾斜的。
- 当 LLM 被分配一个低攻击性图像 (例如,微笑的吟游诗人) 时,它提出了更公平的提议 (接近 50/50 的分配) 。
- 当 LLM 被分配一个高攻击性图像 (例如,恶魔) 时,它为自己索要的钱明显更多。
意外发现: 接受不公平
Figure B1 的下排显示了关于“接受”不公平提议的一些意想不到的结果。在人类心理学中,具有攻击性的人往往出于怨恨或自尊而拒绝不公平的提议。然而,LLM 却恰恰相反。
研究人员发现,具有攻击性角色的 LLM 更有可能接受不公平的提议。作者提出了一个有趣的解释: 具有攻击性的 LLM 自己提出了不公平的建议,可能是在按照“强权即公理 (might makes right) ”的逻辑运作,或者仅仅是优先考虑资源获取而非公平性。它们变成了无情的利益最大化者,而不是情感化的惩罚者。
语言分析
变化不仅仅体现在数字上;还体现在文字中。研究人员使用情感分析工具分析了谈判过程中生成的文本。

Table 2 强调了语言的转变。随着化身攻击性的增加:
- “我们 (We) ” (包容性语言) 的使用减少了。
- 消极语气 (Negative Tone) 和冲突 (Conflict) 词汇增加了。
- 礼貌 (Politeness) 和亲社会 (Prosocial) 行为减少了。
AI 不仅计算方式不同;它的说话方式也不同。恶魔化身让 AI 变得粗鲁;仙女化身让它变得有礼貌。
研究 2: “媚上欺下”
研究 1 证明了 AI 的行为会根据它认为自己是谁而改变。研究 2 提出了一个更复杂的问题: AI 的行为是否会根据它正在与谁战斗而改变?
在这个实验中,两个 LLM 互相对战。每个 LLM 都被分配了一个化身,关键是, 它们被展示了对手的化身。 这创造了一种相对权力的动态相互作用。
假设
研究人员假设了一种在社会等级中常见的行为模式,他们称之为 “Kiss up, Kick down” (媚上欺下) 。
- Kick Down (欺下) : 如果我看起来很强而你看起来很弱,我会剥削你。
- Kiss Up (媚上) : 如果我看起来很弱而你看起来很强,我会顺从你。
结果: 识别权力动态
结果使用热力图进行了可视化,这种图表非常有效地展示了两个变量 (自身攻击性 vs. 对手攻击性) 之间的相互作用。

让我们仔细观察 Figure 2 (a) , 特别是左侧的 GPT-4o 热力图。
- Y 轴 是提议者 (自身) 的攻击性。
- X 轴 是响应者 (对手) 的攻击性。
- 颜色强度 代表提议金额 (越红 = 越高/越贪婪) 。
注意梯度的变化。最深的红色交互位于左上角 。 这代表一个高攻击性的提议者面对一个低攻击性的响应者。这就是“欺下”效应——霸凌者利用弱者。
相反,看右下角。即使提议者具有一定的攻击性,如果对手也具有高度攻击性 (等级 7) ,提议金额也会下降 (颜色变浅) 。提议者识别出了威胁并克制了自己的贪婪。这就是“媚上” (或者至少是“退让”) 效应。
Figure 2 右侧显示的 Claude 3 Haiku 表现则不同。它的热力图主要是水平条纹。这意味着它非常在意自己的形象 (Y 轴) ,但几乎忽略了对手的形象 (X 轴) 。它是“以自我为中心”的,无论与谁交谈都表现出自己的角色设定。然而,有趣的是,论文指出 Claude 在遭遇拒绝后开始关注对手,这表明它最终学会了察言观色。
最低接受提议 (MAO)
研究人员还观察了最低接受提议 (MAO) ——即玩家在离开谈判桌前愿意接受的最低金额。
GPT-4o 再次展示了复杂的社会推理能力。它的 MAO 随着自身攻击性的增加而增加 (因为“我很强”,所以期望更多的钱) ,但随着对手攻击性的增加而减少 (为了避免与“可怕”的对手发生冲突,愿意接受更少的钱) 。它成功模拟了社会等级中的生存本能。
结论与启示
这篇题为“媚上欺下”的研究论文提供了首个确凿的证据,证明多模态 LLM 会将其行为与视觉角色保持一致。它们不仅仅把图像“看作”原始数据;它们解释嵌入在这些图像中的社会和心理信号——武器、微笑、颜色——并据此调整其谈判策略。
主要收获
- 视觉对齐: LLM 可以仅从图像中获得个性,如果被分配了一个具有威胁性的化身,它们会变得更具攻击性、粗鲁和贪婪。
- 类人感知: 让图像在 AI 眼中看起来具有攻击性的因素 (武器、不笑) 与触发人类反应的因素相同。
- 相对动态: 像 GPT-4o 这样先进的模型会进行复杂的社会计算。它们不仅仅根据自己是谁来行动,还会根据它们面对的是谁来行动,表现出对弱者的支配和对强者的顺从。
为什么这很重要
这项研究的意义远超奇幻角色扮演。
- 游戏开发: 开发者可以创建非玩家角色 (NPC) ,这些 NPC 能够纯粹基于其角色设计和玩家的外貌动态调整行为,而无需复杂的脚本化性格树。
- 社会模拟: 这证明 LLM 可以成为模拟复杂社会互动和等级制度的有效工具,可能有助于经济学或社会学研究。
- 安全与伦理: 这也许是最关键的一点。如果 AI 客服代理或谈判代表根据用户的视觉外貌 (例如头像) 调整其行为,可能会导致偏见。“欺下”行为表明,AI 可能会无意识地向照片中看起来“攻击性较低”或“较弱”的用户提供更差的交易。
随着 AI 模型变得越来越视觉化,理解这些行为触发因素至关重要。我们正在构建反映我们自身的系统——不仅是我们的逻辑,还有我们的偏见、刻板印象和社会本能。理解 AI 可能会根据一张 jpeg 图片“媚上”或“欺下”,是确保我们设计的系统无论我们——或它们——长什么样都能保持公平的第一步。
](https://deep-paper.org/en/paper/2410.03181/images/cover.png)