简介

在人工智能生成内容 (AIGC) 时代,在线创建和分享的视觉媒体数量呈现爆炸式增长。从社交媒体信息流到生成艺术平台,图像的流动无穷无尽。但这种创造力也伴随着巨大的风险: 从血腥暴力到色情内容,有害内容的泛滥成灾。

多年来,标准的解决方案一直是人工审核。平台雇佣成千上万的人员查看令人不适的图片,并根据规则手册 (安全章程) 将其标记为“安全”或“不安全”。这种方法有两个巨大的问题: 它既昂贵又难以扩展,而且对人工标注员造成了沉重的心理负担。

那么,为什么不直接使用 AI 呢?具体来说,为什么不使用像 GPT-4V 或 LLaVA 这样的多模态大语言模型 (MLLM) ?毕竟,它们既能“看”图像,又能“读”规则。

事实证明,事情并没有那么简单。如果你拿一个标准的 MLLM 问它: “这张图片违反了安全策略 X 吗?”,结果往往不可靠。正如最近一篇题为 “MLLM-as-a-Judge for Image Safety without Human Labeling” 的论文所指出的,简单地查询预训练模型会因为三个主要挑战而失败:

  1. 主观性 (Subjectivity) : 安全规则往往含糊不清 (例如,“不当内容”) 。
  2. 复杂性 (Complexity) : 模型难以推理冗长、多条款的法律式规则。
  3. 偏差 (Bias) : 模型具有内在偏差——有时因为背景语境或语言先验而看到不存在的东西。

展示简单查询预训练 MLLM 所面临挑战的示例。

图 1: 朴素 MLLM 安全判断的三个主要挑战。(a) 主观规则使模型困惑。(b) 冗长的规则导致推理失败。(c) 偏差导致误报 (例如,看到地上的血迹就假设喉咙被割开了) 。

在这篇文章中,我们将解构一种名为 CLUE (Constitutional MLLM JUdgmEnt,基于章程的 MLLM 裁判) 的新方法。该框架允许 MLLM 在 零样本 (zero-shot) 设置下充当精确的安全裁判——这意味着它 不需要任何人类标记的训练数据

让我们深入了解研究人员是如何将一个困惑的聊天机器人转变为精确的安全检查员的。


背景: 朴素提示的问题

要理解 CLUE,我们需要先明白为什么“简单的方法”行不通。

在完美的世界里,你会向 MLLM 输入一张图像和一条安全规则,它会输出“安全”或“不安全”。然而,MLLM 是在海量的互联网数据上训练出来的,这给了它们很强的“先验知识”。

例如,如果你问模型: “这个人是裸体的吗?”并展示一张上半身赤裸 (但下半身穿着衣服) 的人的图像,模型可能会产生裸体的幻觉,因为它的训练数据经常将裸露的皮肤与全裸联系起来。此外,如果一条安全规则很复杂——“不要展示表明濒临死亡的伤害”——模型通常会抓住“伤害”这个词,而忽略“濒临死亡”这个条件。

现有的解决方案通常涉及在数千张人工标记的图像 (如 Q16 数据集) 上微调模型。但是,如果你的安全策略发生了变化 (例如,关于“AI 生成的深度伪造”的新策略) ,你就必须重新标记数据并重新训练模型。CLUE 通过遵循 安全章程 (Safety Constitution) 且无需重新训练来解决这个问题。


CLUE 方法

研究人员提出了一种管道流程,旨在模仿细心的人类检查员的工作方式: 理解具体规则,检查其是否适用,将其分解为清单,并客观地验证每一项。

CLUE 框架由四个不同的阶段组成。

1. 规则客观化 (Rule Objectification)

第一步是修正人类的输入。安全准则通常是主观的。像“图像不应包含色情内容”这样的规则对 AI 来说是一场噩梦,因为“色情内容”是一个宽泛、模糊的概念。

作者使用了一种“LLM 作为优化器 (LLM-as-an-Optimizer) ”的方法。他们将原始的安全章程输入给 LLM,并要求它将规则重写为 客观的 描述。

  • 原始: “不应描绘色情图像。”
  • 客观化后: “透过此图像不应看见人类的生殖器、肛门或耻骨区域。”

这种转变至关重要。它将定性判断 (“这是色情的吗?”) 转变为视觉目标检测任务 (“这个身体部位可见吗?”) 。

客观化规则与原始规则的结果比较。

表 5: 客观化的影响巨大。仅仅通过使规则具体化,准确率就从 74% 跃升至 98%。

2. 相关性扫描 (Relevance Scanning - 效率过滤器)

一份安全章程可能有几十条甚至几百条规则。运行一个庞大的 MLLM (如 GPT-4 或 InternVL-76B) 来针对每一张图像检查每一条规则,在计算上是极其浪费的。

为了解决这个问题,CLUE 使用了一个 相关性扫描 模块。他们使用一个更轻量、更快的模型——CLIP——来计算图像与规则文本之间的余弦相似度。

如果相似度得分低于某个阈值,系统就假设该规则与图像无关并跳过它。

相关性扫描模块的性能。

图 7: 效率提升显著。如图所示,系统可以过滤掉 67% 的规则 (绿线) ,同时仅遗漏约 3.4% 的实际违规情况 (蓝线) 。

3. 前置条件提取与分解 (Precondition Extraction & Decomposition)

这可能是该框架最巧妙的部分。即使有了客观的规则,MLLM 仍然难以处理复杂的逻辑。

以这条规则为例: “不应描绘任何身体遭受可见的、流血伤害,且该伤害似乎会导致其濒临死亡的人或动物。”

标准的 MLLM 看到“流血伤害”就会高喊“不安全!”,即使伤害很轻微。为了解决这个问题,CLUE 将规则分解为 前置条件链 (Precondition Chain)

作者使用 LLM 将规则分解为一个逻辑流程图:

  1. 人或动物是否可见?
  2. 是否有可见的、流血的伤害?
  3. 该伤害是否表明濒临死亡?

只有当链条中的 所有 条件均为“是”时,才算违反规则。

从规则中提取的前置条件流程图。

图 2: 模型不是回答一个大问题,而是回答一系列更简单的检查。如果任何检查失败 (绿色箭头) ,图像就是安全的。

为了可视化提取过程,作者提供了用于通过 LLM 自动生成这些链的提示词:

前置条件提取的详细过程。

图 10: 系统自动将策略文本转换为逻辑 JSON 结构。

为什么前置条件很重要

直接询问完整规则与检查前置条件之间的性能差异是显而易见的。在下面的例子中,你可以看到像 GPT-4o 这样的先进模型是如何被完整规则搞糊涂,但当被问及具体条件 (濒临死亡) 时却能正确回答。

GPT-4o 性能比较。

图 13: 在 (a) 中,GPT-4o 错误地将一张图像标记为违反“濒临死亡”规则。在 (b) 中,当具体被问及前置条件“这会导致濒临死亡吗?”时,它正确地回答了“否”。

4. 去偏 Token 概率判断 (Debiased Token Probability Judgment)

现在系统需要回答那些前置条件问题 (例如,“有流血伤害吗?”) 。CLUE 不是要求 MLLM 生成文本回复 (这可能很冗长或产生幻觉) ,而是查看 “Yes” Token 的概率

然而,简单地检查 Prob(Yes) > Prob(No) 是危险的,因为存在偏差。

偏差类型 A: 语言先验 (Language Priors)

有时,MLLM 会说“No”,仅仅因为在其训练数据中,句子结构使得“No”成为最可能出现的下一个词,而不管图像内容如何。

  • 修正: CLUE 计算包含图像时的得分和 不包含 图像时的得分。如果添加图像后“Yes”的得分没有显著增加,模型很可能只是基于文本在产生幻觉。

偏差类型 B: 非中心内容 (Non-Centric Content)

如果规则询问特定物体 (例如,“喉咙被割开了吗?”) ,模型可能会被图像中其他地方的红色像素 (如地上的血迹) 分散注意力并回答“Yes”。

  • 修正: CLUE 使用开放词汇目标检测器 (OWLv2) 来查找规则中提到的物体 (例如,“喉咙”) 。然后,它将图像裁剪到该特定区域或移除中心物体,以查看得分如何变化。

去偏方法的图解。

图 3 & 4: (左) 基本的 Token 评分公式。 (右) 去偏策略。通过比较完整图像的得分与移除中心物体的图像的得分,系统可以确定模型是否真的在看正确的东西。

这种裁剪策略真的有效吗?数据表明是的。

得分差异的分布。

图 8: 当完整图像与裁剪版本之间的得分差异很大时,这与前置条件被满足有很强的相关性。

5. 级联推理 (Cascaded Reasoning - “思考”步骤)

最后,如果 Token 概率处于边缘状态 (不是强烈的“Yes”或“No”) 会发生什么?

CLUE 会切换到一种较慢但更周全的模式: 思维链 (Chain-of-Thought, CoT) 推理 。 它要求模型“一步一步地思考”来分析图像。这在计算上很昂贵,所以它只作为快速 Token 检查不确定时的后备方案。

级联推理判断的过程。

图 5: 如果快速检查 (步骤 1) 没有定论,系统会触发推理模块 (步骤 2) 。


实验与结果

为了测试这一点,研究人员必须建立一个新的数据集,称为 OS Bench (客观安全基准,Objective Safety Bench) , 包含约 1,400 张图像。关键是,他们包括了“边缘安全”图像——那些看起来很危险但技术上不违反规则的图像 (例如,番茄酱看起来像血,或者一个人弯腰但穿着整齐) 。

击败基线 (Baselines)

结果令人印象深刻。CLUE 显著优于标准的零样本提示技术。

展示与零样本基线比较的表格。

表 2: 与标准提示或简单的思维链相比,CLUE (底部几行) 在不同模型 (Qwen, InternVL, LLaVA) 上实现了显著更高的 F-1 分数。

优于微调模型

也许最令人惊讶的结果是 CLUE 与专门为安全而 微调 的模型 (如 LLaVA Guard 或 Q16) 的对比。由于这些模型是在特定的、通常是主观的数据集上训练的,它们难以泛化到 OS Bench 严格、客观的规则上。

与基于微调的方法的表格比较。

表 3: CLUE 使用 LLaVA-v1.6-34B 实现了 0.871 的 F-1 分数,而微调后的 LLaVA Guard 在此基准上仅达到 0.401。这凸显了零样本章程方法的灵活性。

细粒度性能

该方法在不同类型的安全违规中也非常有效,从“濒临死亡”到特定的裸露限制。

详细的二元分类性能。 表 4: 使用 InternVL2-76B 在各种特定安全规则上均具有高精确率和召回率。


结论与启示

这篇关于“MLLM-as-a-Judge”的论文提出了一个令人信服的观点: 我们不一定需要更多的标记数据来解决 AI 安全问题;我们需要更好的 推理架构

通过分解问题——客观化规则、分解逻辑和去偏模型输出——CLUE 将通用的 MLLM 转变为专业的安全检查员。

给学生的关键要点:

  1. 仅靠提示是不够的: 对于高风险任务,你不能仅仅问 LLM 一个问题。你需要构建它的推理过程。
  2. 逻辑链: 将复杂问题分解为简单的“是/否”前置条件是控制 LLM 行为的强大技术。
  3. 偏差修正: 永远假设你的模型有先验知识。将输出与“空白”输入或裁剪输入进行比较,提供了一种衡量置信度的数学方法。
  4. 零样本的力量: 有了正确的架构,零样本方法可以优于微调方法,尤其是在任务规则频繁变化的情况下。

这项研究为自动内容审核铺平了道路,使其具有可扩展性、适应性,并将人类从最令人不安的内容审核工作中解脱出来。随着 MLLM 变得越来越聪明,像 CLUE 这样的框架可能会成为保持互联网——以及 AI 生成内容——安全的标准。