难题已解: 为何 AI 画不好手,以及 FoundHand 如何解决这一问题
如果你曾使用过 Midjourney 或 Stable Diffusion 等生成式 AI 工具,你可能遇到过“手部难题”。当你提示生成一张逼真的人物照片时,面部看起来极其完美,光线如同电影般质感,但手部却是一场灾难。多余的手指、不可能存在的关节,或者看起来像是一碗由血肉组成的意大利面。
为什么这个特定的身体部位会成为现代 AI 的阿喀琉斯之踵?答案在于复杂性。手部具有高度的关节活动能力,经常出现复杂的自遮挡 (手指被其他手指挡住) ,并且呈现出无穷无尽的方向。此外,在用于训练 Stable Diffusion 等模型的海量数据集中,相对于整张图像,手部通常只占据极少的像素,这意味着模型在训练过程中很少能“看清”它们。
在这篇文章中,我们将深入探讨 FoundHand , 这是一篇迎难而上解决该问题的最新研究论文。研究人员提出了一个基于海量新数据集训练的特定领域模型,它不仅能生成手部,还能以手术般的精度控制它们。

如上图所示,FoundHand 不仅仅是一个生成器;它是一个能够进行手势迁移、修复畸形图像甚至合成视频的综合系统,所有这些都由一个名为 FoundHand-10M 的新数据集驱动。
数据瓶颈: FoundHand-10M 简介
在修复模型之前,我们必须先修复数据。通用数据集 (如 LAION-5B) 虽然广博,但在特定解剖结构方面却很浅薄。现有的手部特定数据集通常太小,采集于无菌的实验室环境,或者缺乏多样的光照和纹理。
研究人员的首要贡献是 FoundHand-10M , 这是一个包含 1000 万张手部图像的海量数据集。他们没有从头开始采集新数据,而是采用了巧妙的聚合策略。他们结合了 12 个现有的数据集——范围涵盖第一人称视角 (Ego4D) 到手语数据集和动作捕捉库 (DexYCB, ARCTIC) 。
统一化的挑战
合并数据集并不像把文件复制到一个文件夹那么简单。每个数据集都有不同的标注格式。有的使用 3D 网格,有的使用 2D 边界框。为了建立一个统一的训练场,作者使用标准化的流程重新标注了整个集合:
- 使用 MediaPipe 提取 2D 关键点 (手部的骨架结构) 。
- 使用 Segment Anything Model (SAM) 生成精确的分割掩码 (将手部与背景分离) 。
这产生了一个极具多样性的数据集——包含手拿物体、与其他手互动以及做手势的手——所有这些都通过 2D 关键点和掩码这一通用“语言”统一起来。
FoundHand 架构
这项研究的核心是 FoundHand 模型本身。它是一个姿态条件扩散模型 (pose-conditioned diffusion model) 。 与输入“一只挥舞的手”的文本转图像模型不同,这里你提供的是视觉条件: 你希望手部呈现的骨架姿态。
为什么是 2D 关键点?
以前的可控手部生成尝试通常依赖于 3D 网格 (如 MANO 模型) 。虽然准确,但在“自然场景 (in-the-wild) ”图像中获取 3D 网格计算昂贵且困难。
作者的关键见解是: 2D 关键点是一种通用表示。 手部的 2D 投影自然编码了关节活动 (手指如何弯曲) 和相机视点。如果你知道 2D 关节在哪里,你就隐式地知道了手相对于相机的方向。
模型管线
让我们看看模型实际是如何处理数据的。FoundHand 将生成视为一个图像到图像的转换任务 。

如图 2 所示,工作流程涉及两个主要输入:
- 参考 (Reference) : 提供视觉风格 (肤色、光照、纹理) 。
- 目标 (Target) : 提供结构 (所需的姿态) 。
该架构建立在视觉 Transformer (ViT) 主干之上,具体来说是一个扩散 Transformer (DiT)。以下是分步流程:
- 输入编码: 模型接收参考图像、参考关键点和参考掩码。它还接收目标关键点 (我们要生成的姿态) 。
- 热图表示: 2D 关键点不是输入原始坐标数字,而是被转换为高斯热图 。 这是一个关键细节。右手有 21 个通道,左手有 21 个通道。这种通道分离有助于模型处理遮挡问题——如果一个手指在另一个手指后面,它们的热图位于不同的通道上,从而防止了其他模型中常见的“融合”伪影。
- 共享嵌入器: 图像特征 (来自 VAE) 、热图和掩码经过空间对齐并通过一个共享嵌入器。这将视觉特征建立在手部的物理结构之上。
- 3D 自注意力: 这是“魔法”组件。Transformer 不仅在单张图像内使用自注意力,还在参考帧和目标帧之间使用自注意力。这使得模型能够从参考图像中“复制”戒指或纹身的纹理,并将其准确地“粘贴”到目标姿态的几何结构上。
训练策略
为了使模型具有鲁棒性,研究人员使用了成对图像进行训练。
- 动作对 (Motion Pairs) : 来自同一视频的两帧 (同一只手,不同姿态) 。这教会模型手是如何移动的。
- 多视角对 (Multi-view Pairs) : 两个相机看着同一个冻结的手部瞬间。这教会模型关于 3D 结构和视点的知识。
他们还采用了随机条件 (stochastic conditioning) , 在训练期间随机丢弃参考图像。这迫使模型学习强大的先验——即使没有参考,它也知道手应该长什么样,这对于从零开始修复畸形手至关重要。
核心能力
一旦训练完成,FoundHand 就能解锁几种超越简单图像生成的强大能力。
1. 手势迁移 (Gesture Transfer)
这是最直接的应用。你有一张手的照片 (参考) 和一个火柴人姿态 (目标) 。模型会在保持身份特征的同时生成新姿态的手。

在上图中,请看最底下一行 (Ours) 。注意 FoundHand 是如何保留指甲油、皮肤纹理和光照条件等精细细节的。
通过定量比较,我们发现 FoundHand 与之前的最先进方法之间存在显著差距:

该表强调 FoundHand 在 PSNR (峰值信噪比) 和 SSIM (结构相似性指数) 方面取得了优异的成绩,这些指标用于衡量图像保真度。它在 LPIPS 和 FID 上得分最低,这两个指标衡量感知距离 (越低越好) ,意味着生成的图像看起来更自然,更接近参考图像。
2. 领域迁移 (模拟到现实,Sim-to-Real)
合成数据 (来自 3D 渲染) 易于生成,但看起来很假。FoundHand 可以获取合成渲染图并将其“风格迁移”为逼真的图像,有效地弥合了“模拟到现实”的鸿沟。

这对于训练计算机视觉模型非常有用。通过将合成数据集转换为逼真的数据集,研究人员可以为 3D 手部姿态估计创建更好的训练数据。

如上表所示,当 3D 网格恢复模型 (HaMeR) 在 FoundHand 生成的数据上进行微调时,其错误率 (PA-MPJPE) 显著下降。这证明生成的图像不仅仅是好看;它们在解剖学上足够精确,可以用来训练其他 AI 模型。
3. 新视点合成 (Novel View Synthesis, NVS)
也许最令人惊讶的能力是新视点合成 。 给定单张手部图像,FoundHand 可以生成该手从侧面、顶部或背面的样子。

它在没有显式训练 3D 相机参数的情况下实现了这一点。因为模型是从 FoundHand-10M 数据集中的多视角对中学习的,它隐式地理解了 3D 几何结构。它“知道”如果一只手旋转 90 度,拇指通常会消失在手掌后面。
与专门为 3D 合成设计的模型相比,这里的性能令人咋舌:

在图 6 中,注意像 ZeroNVS 这样的竞争对手经常产生模糊或扭曲的伪影。FoundHand (Ours) 保持了清晰的边缘和正确的光照。定量数据也支持了这一点:

FoundHand 达到了 27.72 的 PSNR,显著高于 ImageDream (19.97)。尽管不是原生视频模型,它在视频生成任务中也表现出了竞争力。
零样本应用: 涌现行为
生成模型真正的考验在于其执行未显式训练过的任务 (零样本学习) 的能力。FoundHand 在这两个方面表现出色。
手部修复 (重绘)
这对许多用户来说是“杀手级应用”。如果你有一张 AI 生成的手部扭曲的图像,FoundHand 可以修复它。你遮罩掉那只坏手,提供一个目标骨架 (或者让模型推断一个) ,它就会重新生成一只物理上合理且与原图光照和风格相匹配的手。

与那些在图像上粘贴通用手部的其他“手部修复器”不同,FoundHand 尊重上下文。如果角色拿着发光的球体或游戏手柄,FoundHand 会生成一只与该物体互动的手。
隐式物体理解
这引出了最有趣的发现: 物体恒常性与物理学。
该模型是针对手部训练的,而不是物体。然而,由于训练数据中包含数百万只手拿着东西,模型通过关联学习了物体。

在上图中,模型被赋予了一张手拿粉色海绵的参考图像。当目标姿态闭合 (模拟挤压) 时,模型自动使粉色海绵变形 (被压扁) 。它从未被显式教导过海绵的物理学;它学到的是当手在粉色物体周围闭合时,粉色物体会变小。
同样,在第一行中,它理解刚体运动——随手移动杯子,而不是让它悬浮在半空中。
视频合成
最后,FoundHand 可以生成连贯的视频序列。通过使用一种称为随机条件 (stochastic conditioning) 的技术——每一新帧都以第一帧 (为了一致性) 和前一帧 (为了平滑运动) 为条件——它创造了时间上稳定的视频。

图 9 将 FoundHand 与视频专用的扩散模型进行了对比。FoundHand 产生的运动遵循人类骨骼的解剖限制,而其他模型在运动过程中经常允许手指反向弯曲或像面条一样不自然地摆动。
结论与未来展望
FoundHand 代表了生成式 AI 向前迈出的重要一步。通过将重点从“更大的模型”转移到“更好、特定领域的数据”,研究人员解决了 AI 生成中最持久的视觉伪影之一。
这种方法的成功依赖于三大支柱:
- 规模: 一个 1000 万张图像的数据集 (FoundHand-10M) 提供了必要的体量。
- 表示: 使用 2D 关键点热图提供了一种轻量级但信息密集的信号,同时编码了姿态和视角。
- 架构: 带有 3D 自注意力的图像到图像转换方法确保了风格和结构的完美对齐。
其影响不仅仅在于漂亮的图片。执行领域迁移的能力意味着我们可以为机器人生成无限的训练数据,帮助机械手通过在 AI 生成的图像上练习来学习抓取物体。对物体物理学的隐式理解表明,扩大视觉数据规模可以教会模型关于物理世界运作方式的惊人知识。
虽然该模型目前限制在 256x256 的分辨率 (需要放大以获得高分辨率输出) ,但该方法证明了我们不一定需要复杂的 3D 引擎来实现 3D 一致的结果。有时候,2D 数据——如果你有足够多并且以正确的方式看待它——就是你所需要的一切。
](https://deep-paper.org/en/paper/2412.02690/images/cover.png)