引言

“情人眼里出西施。”这句话我们已经听过无数遍了,它意味着审美判断本质上是主观的。然而,在计算机视觉和人工智能领域,多年来我们一直在通过平均大众的观点来教机器理解“美”。这种方法被称为通用美学评估 (Generic Aesthetics Assessment, GAA) , 对于判断一张照片是否具有普遍的“高质量”——是否对焦准确?光线是否良好?构图是否标准?——非常有效。

但是,当我们超越技术质量,转向个人偏好时会发生什么呢?一个人可能喜欢野兽派建筑粗犷、鲜明的构图,而另一个人则偏爱印象派花园柔和、混乱的色彩。当一个基于“平均”观点训练出来的 AI 试图预测这些独特的偏好时,它往往会失败。这个领域被称为个性化美学评估 (Personalized Aesthetics Assessment, PAA)

现有的 PAA 方法有一个根本性的缺陷: 它们试图在通用的地基上建造个性化的房子。它们在海量的“平均”意见数据集上预训练模型,然后试图针对个人进行微调。最近的一篇论文 《Rethinking Personalized Aesthetics Assessment: Employing Physique Aesthetics Assessment as An Exemplification》 (反思个性化美学评估: 以形体美学评估为例) 指出,这个地基是破裂的。研究人员提出了一种全新的范式——PAA+——通过利用人类形体美学这一复杂且高度主观的领域作为试验场,重新构想了机器如何学习主观品味。

在这篇深度文章中,我们将探讨为何旧方法在数学上是失效的,PAA+ 范式是如何工作的,以及旨在理解人体 3D 细微差别的新颖架构。


问题所在: AI 中的“投票悖论”

要理解为什么当前的 AI 难以处理个人品味,我们需要看看它们是如何训练的。流行的 PAA 范式通常遵循两个阶段:

  1. 预训练 (Pre-training) : 模型在一个大型数据集上进行训练,许多人对图像进行投票。模型学习的是“平均”分数。
  2. 微调 (Fine-tuning) : 使用特定用户评分的一小部分图像对模型进行轻微调整。

研究人员确定了第一阶段中的一个关键问题,该问题植根于社会选择理论: 投票悖论 (Voting Paradox) (或孔多塞悖论) 。

集体偏好与个人理性

在通用数据集中,我们要聚合许多个人的偏好。然而,集体偏好往往无法满足“传递性”。传递性是一条逻辑规则: 如果你喜欢 A 胜过 B,且喜欢 B 胜过 C,那么你必须喜欢 A 胜过 C。

图 1. GAA 中投票悖论的简单示例,三位标注者对图像 A、B 和 C 进行美学评估。如果 A > B,则意味着 A 的美学得分高于 B。

图 1 所示,想象三位标注者对三张图像 (A、B 和 C) 进行排名。

  • 标注者 1 偏好 A > B > C。
  • 标注者 2 偏好 B > C > A。
  • 标注者 3 偏好 C > A > B。

当我们把这些独特、理性的个人观点聚合成一个“集体”观点 (GAA 模型) 时,我们得到一个循环: 群体偏好 A 胜过 B,B 胜过 C,以及 C 胜过 A。结果就是 A > B > C > A

这个循环是非理性的。当一个通用 AI 模型在这个相互矛盾的数据上进行预训练时,它学到的是一种“混乱”的美学表示。使用这种混乱的模型作为学习你特定、理性品味的起点 (骨干网络) ,是适得其反的。这就是论文解决的第一个主要挑战: 通用美学模型是预训练的最佳选择吗?答案是否定的。

现状中的其他局限性

除了投票悖论,作者还强调了另外两个显著的空白:

  1. 静态问卷: 目前的方法可能会询问用户的年龄或性别以帮助“个性化”结果。然而,偏好是会演变的。在开始时进行一次静态问卷无法捕捉到变化的口味或关于对象本身的具体偏好 (例如,“我喜欢高对比度的灯光” vs “我是一个 25 岁的男性”) 。
  2. 浪费的反馈: 在流行的范式中,一旦模型部署,用户反馈很少被用于实时更新模型。学习恰恰在它最应该开始的时候停止了。

核心解决方案: PAA+ 范式

为了解决这些问题,作者提出了 PAA+ , 这是一个三阶段的范式,旨在从训练过程的一开始就尊重个体差异。

图 2. 现行 PAA 范式与我们的 PAA+ 范式之间的范式比较

图 2 清晰地展示了新旧方法的对比。

第一阶段: 个性化预训练

PAA+ 范式不是训练一个遭受投票悖论困扰的巨大“通用”模型,而是基于不同的人格类型训练多个专家模型 。 通过基于一致的审美偏好 (使用 MBTI 人格类型作为代理) 对数据进行分组,模型能够学习连贯、可传递的美学表示。这消除了通用模型中存在的“混乱”先验知识。

第二阶段: 微调

这一阶段与传统方法相似,但更有效,因为起点更好。用户选择 (或被匹配) 最接近其人格类型的预训练专家模型。然后,使用用户的特定数据对该模型进行微调。

第三阶段: 持续学习

这是一个至关重要的补充。PAA+ 引入了一个循环,模型根据用户的交互不断自我完善。随着用户对预测进行评分或提供反馈,模型会进行更新,确保它适应随时间推移而变化的偏好。


示例应用: 形体美学评估

为了证明这一范式有效,研究人员选择了一个具有挑战性的领域: 形体美学评估 (Physique Aesthetics Assessment, PhysiqueAA)

为什么选择形体?因为它极具主观性。一个人可能欣赏健美运动员的块头,而另一个人可能欣赏长跑运动员的线条。此外,形体不仅仅关于 2D 图像;它涉及 3D 几何、姿态和健康感,这使其成为一个复杂的计算机视觉问题。

PhysiqueFrame 架构

研究人员开发了一个名为 PhysiqueFrame 的特定框架来处理这项任务。

图 3. (a) 我们的 PAA+ 范式的验证。(b) PhysiqueFrame 架构 (包含两个网络: PANet,利用双分支模块提取 3D 形体相关特征,如形状、姿态和面部表情;以及 PENet,旨在从多模态偏好数据中有效捕捉用户偏好) 。

图 3 所示,该框架由两个协同工作的主要网络组成:

  1. PANet (形体分析网络) : 从图像中提取客观特征。
  2. PENet (偏好提取网络) : 理解用户的主观愿望。

让我们详细分解一下。

1. PANet: 以 3D 视角看身体

标准的图像评估模型只看像素。然而,判断形体需要理解身体形状和骨骼结构。PANet 使用两个模块来实现这一点:

A. 网格感知模块 (Mesh Perceiving Module, MPM) 该模块从 2D 图像中提取人体的 3D 网格。它创建了身体表面的数学表示。然而,3D 网格数据可能是不规则且稀疏的。为了处理这个问题,作者利用了一种基于仿射几何的归一化技术。

网格上局部点的变换通过以下公式计算:

网格归一化公式

在这里,该模块在保留旋转和缩放等几何属性的同时对点云进行归一化。这使得网络能够“理解”图像中人物的体积和形状,无论他们在画面中的位置如何。

B. 姿态分析模块 (Posture Analyzing Module, PAM) 美学也关乎优雅和姿势。PAM 将人体骨骼视为一个图 (Graph) ,其中关节是节点,骨骼是边。

图 5. 关键点解码器的结构。

图 5 详述,系统使用了一个关键点解码器 (Keypoints Decoder) 。 它结合了来自图像的视觉特征 (通过 Swin Transformer) 和关节的几何位置。这些被输入到一个图卷积网络 (GCN) 中。这使得模型能够分析姿势的“流畅度”——这对于判断舞蹈或运动形式至关重要。

2. PENet: 通过大语言模型理解用户

PANet 分析图像,而 PENet 分析用户。它接收多模态反馈——文本描述 (“我喜欢苗条的身材”) 、问卷结果,甚至是音频——并使用大语言模型 (LLaVA++) 进行处理。

使用思维链 (Chain of Thought, CoT) 方法,大语言模型将复杂的用户反馈分解为关于“风格”、“形状”和“表现力”等因素的可量化分数。这将抽象的人类偏好转化为视觉模型可以用来调整其预测的数学向量。


PhysiqueAA50K 数据集

为了训练这样一个特定的系统,研究人员需要不存在的数据。他们创建了 PhysiqueAA50K , 这是第一个用于个性化形体美学的大规模数据集。

图 4. PhysiqueAA50K 数据集概览: (a) 分布;(b) 可视化;(c) 带有标注的示例

图 4 展示了这项庞大工作的概览:

  • 规模: 超过 50,000 张涵盖不同运动和活动 (瑜伽、健美、舞蹈) 的图像。
  • 标注: 他们不仅仅是让随机的人投票。他们采用了人机协作的方法。
  • 他们使用 AI 生成伪标签。
  • 16 位专家 , 每位代表 16 种 MBTI 人格类型之一,审查并修正这些标签。
  • 维度: 每张图像都在外观 (Appearance) 、健康 (Health) 和姿态 (Posture) 方面进行评分。

这种严格的数据收集确保了 PAA+ 的“预训练”阶段有高质量、独特的人格档案可供学习,而不是模糊的平均值。


实验与结果

新范式真的有效吗?结果表明答案是肯定的。

1. 击败“平均值” (第一和第二阶段验证)

研究人员比较了在通用数据上预训练的模型 (GAA) 与在人格匹配数据上预训练的模型 (Ours) 。他们在三个特定的用户档案 (ISFJ, ESFJ, ISTJ) 上进行了测试。

表 1. GAA 模型与人格匹配的个性化模型在作为预训练模型时的性能比较,每个模型都在三个数据集 (User-ISFJ, User-ESFJ, User-ISTJ) 上进行了第二和第三阶段的微调以评估性能。

表 1 展示了对比结果。你可以看到这些指标:

  • S (SRCC) & L (LCC): 相关系数 (越高越好) 。
  • A (Accuracy): 二分类准确率。
  • Sat: 满意率。

在几乎每个类别中, Ours 列都优于 GAA 列。例如,看 User-ISFJ 的外观得分,相关性从 0.650 (GAA) 跃升至 0.699 (Ours)。这证明了从一个人格对齐的模型开始远优于从一个通用模型开始。

2. 个性化问卷的力量

该研究还分析了“问卷” (用户陈述的偏好) 对结果的影响程度。

图 6. 个性化问卷对 PhysiqueAA 预测的影响,图标分别代表外观、健康和姿态。

图 6 定性地说明了这一点。模型被赋予了三个剪影 (A, B, C) 。

  • 当问卷显示“我喜欢苗条的身材”时,剪影 A (苗条) 获得了高分 (8.8) 。
  • 当问卷变为“我喜欢丰满的身材”时,剪影 A 的分数下降 (6.5) ,而剪影 C (丰满) 的分数显著上升。
  • 这展示了模型能够根据用户输入从根本上改变其审美标准。

3. 持续学习是有效的

最令人兴奋的结果之一来自第三阶段: 持续反馈循环。

图 7. 三个用户的反馈更新轮次 (每轮 100 张图像) 与他们在持续学习阶段的满意率之间的关系。图 8. 反馈过程及其对 PhysiqueAA 的影响。

图 7 绘制了随时间推移的用户满意度。对于所有三个不同的用户 (ESFJ, ISTJ, ISFJ) ,随着模型经历更多的“更新轮次 (Update Epochs) ”,满意率稳步攀升。这证实了模型不是静态的;它有效地从持续的交互中学习。

图 8 可视化了这个循环。在第 1 轮中,用户说: “我喜欢苗条、优雅的身材。”在第 2 轮中,模型调整了后续图像的分数 (由红色和绿色箭头表示) ,使未来的预测与该反馈保持一致。

4. AI 在看哪里? (显著图)

最后,为了证明 PhysiqueFrame 确实是在看身体而不是背景风景,研究人员使用 GradCAM 可视化了模型的注意力。

图 9. 9 个模型的显著图。我们模型的注意力更多地集中在人体形体上。

图 9 中,将“Ours” (第一行) 与其他领先模型如 NIMA 或 MaxViT 进行比较。“Ours”的热力图紧密集中在受试者的四肢和躯干上。其他模型经常被地板或背景元素分心。这种专注是专为 3D 身体感知设计的 PANet 架构的直接结果。


结论与启示

“PAA+”范式代表了我们对主观 AI 思考方式的重大转变。通过承认“集体”偏好往往是一个数学谬误 (投票悖论) ,研究人员为个性化开辟了一条新航线。

主要的收获包括:

  1. 不要从平均开始: 在不同的人格聚类上进行预训练比在巨大的、通用的平均值上进行预训练能产生更好的结果。
  2. 上下文很重要: 理解美学需要理解主体。对于形体而言,这意味着构建 3D 感知模块 (PANet) ,而不是依赖标准的 2D 图像处理器。
  3. 永不停止学习: 持续学习阶段的整合确保了 AI 与用户共同成长。

虽然这篇论文专注于形体,但其影响延伸到了时尚、室内设计、艺术推荐以及任何其他“好”是主观的领域。未来的 AI 不会仅仅告诉我们什么是流行的;它将具体理解我们觉得什么是美的。