引言
我们正处于视觉合成的黄金时代。像 Stable Diffusion、Midjourney 和 DALL-E 这样的文生图模型彻底改变了我们创造内容的方式,让我们只需一句话就能从无到有地变出逼真的场景。然而,如果你花过时间尝试这些工具,你很可能遇到过 AI 生成的“恐怖谷”: 解剖结构问题。
你要求生成一张吉他手的肖像,模型生成了绝佳的布光、完美的皮肤纹理,以及……三只手。或者是站在田野里的人,少了一只耳朵,或者双腿与草地融为一体。这些“异常人体”不仅仅是小瑕疵;它们是破坏真实感的结构性崩坏。
要修复这些图像,我们首先必须回答一个看似简单的问题: 这个生成的人在物理上真的可能存在吗?
直觉上,你可能认为我们可以直接让 GPT-4V 或 Claude 这样强大的视觉语言模型 (VLM) 来“找茬”。毕竟,这些模型可以解释复杂的梗图和分析图表。但事实证明,即使是最先进的 VLM 在细粒度的解剖结构检查方面也表现得极其糟糕。

这篇博客文章将深入探讨最近的一篇研究论文 “Is this Generated Person Exist in Real-world? Fine-grained Detecting and Calibrating Abnormal Human-body” (生成的这个人存在于现实世界吗?细粒度检测与校准异常人体) 。我们将探索 HumanCalibrator , 这是一个新颖的框架,旨在自动检测这些特定的解剖学恐怖场景,更棒的是,它能在不破坏图像其余部分的情况下修复它们。
当前 AI 与评估存在的问题
在研究解决方案之前,我们需要了解为什么这是一个独特的问题。在人工智能生成内容 (AIGC) 的领域中,检测通常集中在以下两件事之一:
- 深伪 (Deepfake) 检测: 这张图片是由 AI 生成的还是由相机拍摄的?
- 质量评估: 图片模糊吗?光线好吗?它符合文本提示词吗?
然而,这两者都没有解决解剖学正确性这一具体问题。一张图像可以是高分辨率的,完美符合“一个弹吉他的女孩”的文本提示,并且很明显是由 AI 生成的,但仍然包含像多出一条手臂这样的巨大结构性错误。
研究人员引入了一项新任务来填补这一空白: 细粒度人体异常检测 (Fine-grained Human-body Abnormality Detection, FHAD) 。

如上图 2 所示,FHAD 的独特之处在于它要求模型识别出什么是错的 (例如,“冗余的手臂”) 以及它在哪里 (边界框) 。
为什么不能直接用 GPT-4?
这是论文中最有趣的发现之一。研究人员测试了最先进的 VLM 发现缺失或多余肢体的能力。你可能会期望这些庞大的模型能理解人类通常有两条手臂。
然而,由于这些模型是基于通用的图文对齐而不是特定的“正确与错误”解剖数据集进行训练的,它们表现得很吃力。当看到一张缺了一只手的人的照片时,像 GPT-4o 这样的模型通常会产生幻觉,认为手只是“隐藏”或“被遮挡”了,而不是将其识别为生成失败。
数据挑战: 构建基准真相 (Ground Truth)
要训练模型来发现错误,你需要数据。但你不能轻易下载一个“扭曲的 AI 手部”数据集,因为错误是随机的。研究人员通过创建两个不同的数据集解决了这个问题:
- COCO Human-Aware Val: 一个由真实照片创建的合成数据集。他们选取真实的人物图像 (来自 COCO 数据集) ,并通过数字手段“擦除”身体部位 (如遮盖一条腿) 来模拟缺失异常。
- AIGC Human-Aware 1K: 这是一个“真枪实弹”的数据集。作者收集了由 AI (使用 Pika) 生成的视频,并手动标注了 1,000 帧 AI 搞砸了的画面。

这个数据集至关重要,因为它捕捉到了 AI 幻觉的怪异之处——比如从肩膀长出一只手——这很难通过合成手段来模拟。
核心方法: HumanCalibrator
研究人员开发了 HumanCalibrator , 这是一个不仅仅会问“这错了吗?”,而是应用严格的多步骤流程来验证人体解剖结构的框架。
他们观察到解剖错误主要有两种类型,每种都需要不同的检测策略:
- 缺失部位 (Absent Parts) : 本该有手或腿的地方却没有。
- 冗余部位 (Redundant Parts) : 出现了不该有的多余肢体。
1. 检测缺失部位: 相关性策略
你怎么知道缺了东西?你要看现有的东西。如果你看到前臂伸向一个物体,你的大脑会预期末端有一只手。这就是身体部位相关性 (body part correlation) 。
研究人员训练了一个专门的组件,称为缺失人体检测器 (Absent Human-body Detector, AHD) 。

如图 4 所示,训练过程包括:
- 选取一张正常的人类照片。
- 识别身体部位 (手臂、手等) 。
- 遮盖其中一个部位 (用背景替换它) 。
- 强迫 VLM 回答这个问题: “基于剩余的身体部位,这里是否有缺失的部位?”
这训练了模型理解身体部位之间的关系。如果它看到了肩膀和手肘,它就会学会寻找前臂和手。
2. 检测冗余部位: 重生成测试
检测多余的肢体更难,因为它们可能出现在任何地方。多余的手可能漂浮在头附近,或者连在膝盖上。你无法轻易依赖“肩-肘-手”的链式逻辑。
为此,HumanCalibrator 使用了一种巧妙的重绘一致性检查 (Inpainting Consistency Check) 。
逻辑很简单:
- 识别图像中所有潜在的身体部位。
- 对于一个可疑的部位 (例如,一只手) ,将其遮盖掉。
- 要求一个标准的、高质量的重绘模型 (它知道人类通常长什么样) 使用文本提示词“手”来填充那个空洞。
- 比较: 重绘模型真的画了一只手吗?还是它画了背景/衣服?
如果重绘模型——基于标准解剖学知识——拒绝在那个位置画一只手,而是画了衬衫纹理,这意味着原始的“手”很可能是一个冗余错误。
在数学上,这是通过查看原始部位和重生成部位之间的语义差异来实现的。如果差异很大 (低于某个相似度阈值 \(\tau\)) ,该部位就被标记为冗余:

3. HumanCalibrator 框架
这两种策略被组合成一个循环框架。模型不只是看一次;它是循环进行的。

工作流程:
- 感知 (冗余) : 使用重绘检查扫描多余的肢体。如果发现则移除。
- 感知 (缺失) : 使用 AHD (基于相关性训练) 检查缺失的部位。
- 重生成: 如果缺失了某个部位 (例如,一只手) ,使用重绘模型在正确的位置生成它。
- 循环: 输出图像被反馈回检测器。“我们修好了吗?还有什么缺失吗?”这个过程重复进行,直到解剖结构干净为止。
这种循环方法允许模型进行“自我完善”,确保修复一个错误不会引入另一个错误。
实验与结果
那么,它有效吗?与通用模型相比,结果相当显著。
基线模型的失败
作者将他们专门的 AHD 模型与 GPT-4o、InternVL2 和 CLIP 等巨头在寻找缺失身体部位的任务上进行了比较。

图 6 对当前的 VLM 来说是毁灭性的打击。虚线代表“随机猜测”。当被问及是否有身体部位缺失时,大多数数十亿参数的模型表现得比随机猜测更差或仅好一点点。然而,专门的 AHD (绿色条) 实现了高准确率。
定量成功
当在现实世界的 AIGC Human-Aware 1K 数据集 (包含真实的 AI 视频错误) 上进行测试时,HumanCalibrator 占据了主导地位。

查看表 1:
- 手部检测: HumanCalibrator 在检测缺失手部方面达到了 79.75% 的准确率,而 GPT-4o 仅为 8.02% 。
- 冗余部位: 在识别多余手部方面,HumanCalibrator 达到了 65.26% 的准确率,相比之下 GPT-4o 仅为 7.37% 。
“错误发现率” (FDR) 也很关键——你不想让模型删掉真的手。HumanCalibrator 保持了平衡,在保持较低 FDR 的同时实际上找到了错误。
视觉证据: 修复效果
数字固然重要,但在视觉生成中,眼见为实。HumanCalibrator 的修复质量令人印象深刻,因为它在修复解剖结构的同时没有改变图像的风格或背景。

- 案例 (a): 这位女士的手臂末端是断肢。HumanCalibrator 生成了一只与光照和肤色相匹配的手。
- 案例 (c): 一位女士肩膀上长出了一条可怕的多余手臂。模型将其移除并无缝填充了背景 (墙壁/窗户) 。
超越图像: 修复视频
这项技术最强大的应用之一是在视频领域。视频生成模型 (如 Sora、CogVideo 或 Runway) 经常在帧与帧之间出现解剖结构的闪烁或变形。
HumanCalibrator 可以应用于视频的关键帧 (特别是第一帧和最后一帧) 。通过修复起点和终点并使用插值,整体视频的一致性得到了显著提高。

图 9 表明 HumanCalibrator 不仅仅适用于某一个特定模型——它可以充当通用的“后处理器”。无论图像是来自 AnimateDiff、T2VZ 还是 Pyramid Flow,HumanCalibrator 都可以充当安全网,捕捉基础模型产生的多余耳朵和缺失的手。
结论与启示
这篇题为“生成的这个人存在于现实世界吗?”的论文突出了当前 AI 热潮中的一个关键盲点。我们过于专注于扩大模型规模以生成更多像素和更狂野的概念,以至于我们忽略了现实的基本物理约束。
主要收获:
- VLM 存在盲点: 我们不能盲目相信 GPT-4 或类似模型能对 AI 图像进行细粒度的解剖结构质量检查。它们根本“看”不到我们所看到的。
- 上下文为王: 检测缺失部位需要理解可见部位之间的相关性 (肩 \(\to\) 肘 \(\to\) ?) 。
- 重绘作为真理测试: 使用生成模型来检查自身 (通过重绘一致性检查) 是一种发现幻觉的聪明方法。
- 自动修复是可能的: 我们正在走向这样一个工作流: 人工验证被专门的“校准”智能体取代,它们会在人类看到之前清理输出。
HumanCalibrator 代表了向“基于物理现实的”AI 生成迈出的重要一步。随着这些检测框架的改进,我们可以期待数 AI 生成的手上有几根手指的日子将屈指可数。生成式 AI 的未来不仅仅是高分辨率——它是关于解剖学的真实性。
](https://deep-paper.org/en/paper/2411.14205/images/cover.png)