在计算机视觉飞速发展的今天,多模态大语言模型 (MLLMs) 已经实现了过去被认为是不可能的事情: 它们能够观察一张图片,并以近乎人类的流畅度进行描述。像 GPT-4V 或 LLaVA 这样的模型可以识别照片中的人,告诉你他们在微笑,甚至描述他们的衣着。
然而,如果你要求这些通用模型识别具体的、细粒度的细节——比如“鱼尾纹”的确切位置、眼线的风格,或者皮肤瑕疵的精确边界——它们往往会失败。它们缺乏细粒度定位 (fine-grained grounding) 能力,即将特定的文本概念与高分辨率人脸上的精确像素联系起来的能力。
这正是 CVPR 发表的新框架 GroundingFace 所要解决的问题。研究人员提出了一种方法,弥合了通用场景理解与面部分析所需的微观感知之间的鸿沟。

如上图 1 所示,GroundingFace 不仅仅是“看”到一张脸;它将其解析为“鼻梁”、“颧骨褐斑”和“下颌线”等细粒度组件,同时提供有关妆容和皮肤状况的详细描述。
在这篇文章中,我们将详细拆解该模型的工作原理、为训练它而构建的海量数据集,以及使其能够在保持通用知识的同时成为面部专家的创新架构选择。
1. 数据难题: 为什么通用模型在人脸任务上会失败
要理解解决方案,首先必须理解瓶颈所在。当前的 MLLM 数据集是为通用物体设计的。它们包含诸如“一只狗在草地上跑”或“一个拿着杯子的男人”之类的描述。
当这些数据集包含人脸时,标注通常很粗糙 (例如,“脸”、“眼睛”、“鼻子”) 。它们缺乏以下词汇:
- 皮肤属性: 痤疮、红斑痤疮、痣、皱纹。
- 妆容: 眼线风格、口红质地、修容。
- 层级语义: 理解“看起来老”意味着存在“皱纹”和“白发”。
现有的面部数据集 (如 CelebA 或 FFHQ) 虽然适合分类任务,但缺乏现代 MLLM 所需的像素级定位的文本-图像对齐 。
解决方案: FacePlayGround-240K
为了训练一个模型成为面部专家,作者构建了一个名为 FacePlayGround-240K 的新数据集。这是第一个大规模、像素级定位的人脸描述和问答 (QA) 数据集。它包含 24 万张图像,拥有涵盖 47 个详细类别的 540 万个掩码 (mask) 标注。
该数据集的构建是自动化数据工程的大师级典范。如下图所示,该流程包含四个不同的阶段:

- 综合描述生成 (Comprehensive Caption Generation) : 研究人员没有依赖简单的模板,而是使用商业 API 提取原始面部数据 (姿态、皮肤类型、情绪) 。然后,他们将这些数据输入大语言模型 (InternVL) ,生成涵盖简短、详细和整体语义层面的丰富描述性文本。
- 细粒度部件掩码标注 (Fine-Grained Part Mask Annotation) : 这是实现像素精度的关键。团队结合了自动解析 (使用 MediaPipe 获取结构) 、商业 API (用于皮肤缺陷) 和人工标注 (专门针对妆容等难以分割的项目) 。
- 文本-掩码对齐 (Text-Mask Alignment) : 如果模型不知道哪个词对应哪个像素,那么描述对于定位来说就是无用的。该流程将特定的名词短语 (例如“深色眼线”) 与其对应的分割掩码对齐。
- 定位分层语义问答 (Grounded Hierarchical Semantic QA) : 最后,LLM 生成问答对。这将数据从静态描述转化为交互式指令,例如“瑕疵在哪里?”或“为什么这个人看起来很生气?”
该数据集的统计细分揭示了其深度。与之前可能只标记“眼睛”和“鼻子”的数据集不同,FacePlayGround-240K 包含了具体的类别,如“鼻唇沟”、“鱼尾纹”和各种妆容类型。

2. 架构: GroundingFace 内部解析
数据准备就绪后,作者需要一个能够利用这些数据的模型架构。他们在 GLaMM (Grounding Large Multimodal Model,定位大像多模态模型) 这一最先进的通用模型基础上构建了 GroundingFace。
然而,标准的 GLaMM 在应用于人脸时存在局限性:
- 分辨率: 全局视觉编码器通常会缩小图像,从而丢失毛孔或睫毛等微小细节。
- 解码器敏感度: 标准的分割解码器 (如原生 SAM 解码器) 是为物体训练的,而不是为精细的面部线条训练的。
GroundingFace 架构引入了三个特定组件来解决这些问题: 面部先验采样器 (Face Prior Sampler) 、HQ-SAM 适配器 (HQ-SAM Adapter) 和多阶段训练配方 (Multi-Stage Training Recipe) 。

组件 A: 细粒度人脸部件分割 (HQ-SAM 适配器)
这篇论文的一个关键洞察与视觉 Transformer (ViT) 在不同深度“看”图像的方式有关。
- 深层 (Deep layers) 捕捉高层语义 (例如,“这是一张人脸”) 。
- 浅层 (Shallow layers) 捕捉低层细节 (例如,边缘、纹理、线条) 。
标准模型通常严重依赖深层特征。对于面部分析来说,这是一个错误,因为像皱纹或皮肤纹理这样的特征属于低层细节,在深层中会被平滑掉。
下面的可视化展示了这种现象。请注意浅层特征 (左侧列) 如何保留清晰的边缘和纹理,而深层特征 (右侧列) 则变成了抽象的斑块。

为了解决这个问题,GroundingFace通过重用 SAM (Segment Anything Model) 视觉编码器的浅层特征。他们引入了一个浅层-深层融合 (Shallow-Deep Fusion) 模块,将这些高频细节与深层的语义理解相结合,使掩码解码器能够在微小的面部特征周围绘制精确的边界。
组件 B: 面部先验采样器
处理高分辨率图像计算成本高昂。MLLM 通常将图像调整为标准正方形 (例如 336x336) ,这会破坏面部细节。
GroundingFace 没有处理整个高分辨率图像,而是使用了面部先验采样器 。 由于面部关键点很容易检测,模型利用它们从高分辨率输入中裁剪并对齐面部。这些“面部 Token”随后被压缩并注入到模型中。
这使得模型能够“放大”面部,而无需承担处理整个高分辨率背景的计算成本。
3. 训练配方: 混合专家 (MoE)
AI 微调中的一个常见问题是灾难性遗忘 (catastrophic forgetting) 。 如果你拿一个了解汽车、树木和狗的通用模型,专门在人脸数据上对其进行微调,它会成为面部专家,但会“忘记”如何分割汽车。
GroundingFace 采用了一种巧妙的配备了 LoRA (低秩适应) 和混合专家 (MoE) 路由器的两阶段训练策略来解决这个问题。

阶段 1: 模型在通用数据和新人脸数据的混合数据上进行训练。 阶段 2: 模型冻结大部分参数,并在高质量人工标注数据上训练特定的“高质量 (HQ) 适配器”和特定的 LoRA 模块 (LoRA3) 。
关键在于,他们实现了一个路由器 (Router) 。 当模型接收到输入时,路由器决定该 Token 需要“高质量”专家处理 (用于精细的面部细节) 还是“低质量”处理 (用于通用场景理解) 。
路由逻辑充当交通指挥员,确保专门的面部训练不会覆盖模型的通用能力。该路由的数学公式非常直观:

在这里,\(S^l(x)\) 决定了 Token \(x\) 被路由到特定专家的概率。如果是面部细节,它会去往 HQ 专家 (\(A_{HQ}^l B_{HQ}^l\)) ;否则,它走标准路径。
4. 实验与结果
研究人员在四个任务上评估了 GroundingFace: 像素级定位人脸描述 (Pixel Grounded Face Captioning) 、人脸指称分割 (Face Referring Segmentation) 、定位 VQA 和零样本人脸属性识别。
定性结果
模型定位特定属性的能力在视觉上令人印象深刻。在下面的示例中,你可以看到模型准确地识别了复杂的概念,如“严重的鱼尾纹”,或基于面部几何形状解读情绪状态。

定量分析
定量结果凸显了通用模型与 GroundingFace 之间的差距。作者将他们的模型与 GLaMM 基线进行了比较。
人脸描述与分割: 在表 2 中,我们看到了消融实验。第 1 行代表基线 GLaMM。第 7 行代表完整的 GroundingFace 模型。
- METEOR (描述质量) : 从 1.1 提高到 23.1。这是一个巨大的飞跃,表明基线模型几乎无法理解细粒度的面部提示词。
- gIoU (分割质量) : 广义交并比 (Generalized Intersection over Union) 分数的提高表明掩码更加紧密、准确。

像素级定位 VQA: 表 3 展示了视觉问答的性能。同样,从 GLaMM 到所提方法的提升是巨大的,定位描述的 METEOR 分数从 0.9 上升到 21.9。

零样本属性识别: 也许最有趣的是,该模型在标准数据集 (RAF-DB, LFWA) 上识别属性 (如年龄、性别和情绪) 表现出色,即使没有经过显式训练。尽管它只是一个 70 亿参数 (7B) 的小模型,但其表现优于像 InternVL-v1.5 (260 亿参数) 这样的大型模型,这完全归功于其对齐训练的有效性。

5. 结论
GroundingFace 代表了细粒度视觉理解向前迈出的重要一步。通过认识到与通用物体 (深层、语义特征) 相比,人脸需要一套不同的视觉特征 (浅层、高频特征) ,作者成功地将一个通用 MLLM 改造成了面部专家。
对于学生和从业者来说,关键的收获是:
- 数据为王: 创建具有层级化、像素对齐标注的 FacePlayGround-240K 是成功的先决条件。
- 特征层级至关重要: 对于涉及纹理和细纹的分割任务,不能仅仅依赖深层特征。
- MoE 用于专业化: 使用混合专家模型允许模型学习新的特定领域,而不会遭受通用预训练知识的灾难性遗忘。
这项工作为数字妆容、自动化皮肤病学以及更细致的人机交互等高级应用铺平了道路,在这些应用中,计算机不仅能理解你在微笑,还能理解你如何微笑。
](https://deep-paper.org/en/paper/file-2061/images/cover.png)