我们经常听到 AI 能“看”东西的说法。计算机视觉模型可以以超越人类的准确率识别图像中的狗、汽车或人。生成式模型能够从零开始创造出照片般逼真的场景。但在摄影中,除了单纯识别物体之外,还有一个微妙的艺术层面: 构图

构图是在框架内安排视觉元素以创造连贯性和美感的艺术。这就是为什么专业摄影师拍出的照片看起来很“对味”,而业余爱好者拍摄同样的场景却可能显得杂乱或失衡的原因。

人工智能能否理解这一抽象概念?AI 能否看着一张图像并告诉你它使用的是“三分法”还是“对角线”布局?

最近一篇题为 “Can Machines Understand Composition?” (机器能理解构图吗?) 的 CVPR 论文通过这一下问题进行了探讨。来自北京邮电大学的研究人员意识到,虽然 AI 变得越来越聪明,但它对艺术构图的掌握却出奇地薄弱。为了解决这个问题,他们引入了一个庞大的新数据集 (PICD) 和一套严格的基准测试。

在这篇深度文章中,我们将探讨他们如何教机器对构图进行分类,目前顶级模型 (包括多模态大语言模型) 的局限性,以及这对计算摄影的未来意味着什么。

问题: AI 混淆了“内容”与“形式”

在分析解决方案之前,我们必须了解当前研究中的空白。该领域主要使用两种类型的 AI 模型:

  1. 专用模型 (Specialized Models) : 这些是为特定任务 (如图像裁剪或美学评分) 设计的神经网络。它们将图像转换为代表其风格的数学向量 (嵌入) 。
  2. 多模态大语言模型 (MLLMs) : 这些是像 GPT-4V 或 LLaVA 这样的重量级模型,可以用自然语言讨论图像。

研究人员在两者中都发现了一个致命缺陷: 这些模型难以区分 语义 (图片里有什么) 和 构图 (它是如何安排的) 。例如,如果你用“居中构图”来训练模型,而大多数训练图像恰好是居中的花朵,模型可能会错误地认为“花”就等于“居中”。

这个问题很大程度上源于数据。以前的构图数据集规模小,标签充满噪声,或者缺乏场景多样性。

数据集特征对比,显示 PICD 的优势。

如上方的 Table 1 所示,像 KUPCP 或 CADB 这样的早期数据集在类别和规模上都很有限。这篇论文引入的新数据集 PICD 扩展到了近 37,000 张图像,并大幅提高了标签质量和场景多样性。

解决方案: 摄影图像构图数据集 (PICD)

要教机器构图,首先必须对其进行严格定义。作者借鉴了经典艺术理论,特别是康定斯基 (Kandinsky) 的原则,建立了一个基于两个维度的分类法: 元素类型排列方式

1. 构图的解剖

研究人员将构图分解为一个矩阵。

  • 元素 (“What”) :
  • 点 (Points) : 吸引注意力的小而清晰的物体。
  • 线 (Lines) : 引导视线的细长物体或连接的点。
  • 面/形状 (Shapes) : 具有边界的较大区域。
  • 排列方式 (“How”) :
  • 常见规则,如三分法、居中、对角线、水平、垂直、三角形、曲线 (C形、O形、S形) 等。

通过将这些元素与这些排列方式交叉组合,研究人员创建了一个包含 24 个不同构图类别 的结构化标签系统。

PICD 标签系统矩阵。

Figure 2 展示了这个构图的“元素周期表”。左侧的绿色列列出了排列方式 (例如,Rule of Thirds [三分法], Diagonal [对角线]) ,而顶部的列定义了元素是点、线还是形状。

例如:

  • Category 1 (P-RoT): 一个按照三分法放置的单一
  • Category 19 (LS-S-Cur): 形成S形曲线的一条线或形状 (如蜿蜒的道路) 。

这种细粒度的方法使得数据集极其精确。它不仅仅是说“这是一张好照片”;它解释了背后的几何逻辑。

2. 这些类别看起来是怎样的?

为了形象化这一点,请看下面的样本图像。这种多样性有助于模型学习到,“对角线”构图不仅仅是关于桥梁或栅栏——它也可以是一排食物、一个影子或人类的肢体。

24 个构图类别的样本图像。

3. 确保质量和多样性

构建 PICD 不仅仅是从网络上抓取数据。团队使用了一个多阶段的流程:

  1. 收集: 聚合来自 Unsplash、Flickr 和现有数据集 (COCO, OpenImages) 的图像。
  2. 脚本筛选: 使用目标检测和线条检测算法自动筛选候选图像 (例如,“查找中心有一个小物体的图像”) 。
  3. 专家投票: 这是黄金标准。五位摄影专家对图像进行了审查。只有当至少三位专家对标签达成一致时,图像才会被纳入数据集。

至关重要的是,他们监控了 场景多样性 。 如果“居中”类别中有太多狗的照片,系统会强制包含其他场景,如风景或建筑。

图像数量和场景多样性的比较。

Figure 3 突出了这一成就。蓝色条代表图像数量,而赭色 (橙色) 线代表场景类型。与以前的数据集相比,PICD (最右侧) 在几乎所有类别中都保持了很高的场景多样性,确保模型不会过拟合特定的物体。

基准测试: 如何测试机器的“眼力”

有了数据集,作者提出了一套全面的基准测试来评估专用模型和 MLLM。他们设计了四个不同的任务。

任务 I: 构图三元组区分

这是一个“找出那个‘异类’”的测试。模型会被给予三张图像:

  • 图像 A (类别 X)
  • 图像 B (类别 X)
  • 图像 C (类别 Y)

模型必须识别出图像 C 是异常值。这测试了模型是否可以忽略内容而仅根据构图对图像进行聚类。

任务 II: 对语义干扰的鲁棒性

这是最棘手的测试。

  • 图像 A: 一只在中心
  • 图像 B: 一只在中心
  • 图像 C: 一只使用三分法

一个依赖语义的模型可能会将 A 和 C 归为一类,因为它们都是狗。一个理解构图的模型会正确地将 A 和 B 归为一类,因为它们都是居中构图。

指标: CDA

为了对这些任务进行评分,研究人员提出了一个名为 构图判别准确率 (Composition Discrimination Accuracy, CDA) 的新指标。

CDA 公式。

虽然公式看起来很正式,但概念很简单: 它是模型正确识别负样本 (异常值) 的三元组比例。\(N\) 是三元组的数量,如果预测结果 (\(n\hat{e}g\)) 与真值 (\(neg\)) 匹配,则函数返回 1,否则返回 0。

MLLM 的评估

由于 MLLM (如 GPT-4V) 可以“说话”,它们被赋予了稍微不同的任务,包括计数元素和通过多项选择题识别排列类型。

MLLM 评估的样本问题。

Figure 4 所示,MLLM 被问及直接的问题,如“这三张图中哪一张的构图与其他不同?”或“有多少个构图元素?”

结果: 挑战依然严峻

基准测试的结果发人深省。尽管围绕 AI 视觉的炒作很多,但理解构图仍然是一个巨大的障碍。

1. 专用模型在多样性面前举步维艰

研究人员在 PICD 基准上测试了各种架构 (裁剪模型、美学评估模型) 。

专用模型的平均 CDA 分数。

Figure 5 展示了不同数据集上的性能 (CDA) 。请注意 PICD (紫色条) 的分数与 KUPCP 等较简单的数据集相比是如何下降的。这证实了以前的数据集太容易或存在偏差,给了我们关于 AI 能力的错误安全感。在严格的 PICD 数据集上,大多数模型的准确率徘徊在 0.40–0.48 左右,远非完美。

Table 2 中的数据进行了更深入的挖掘:

展示专用模型性能的表格。

看看 Task II (Semantic Interference) 这一列。分数始终低于 Task I。这证明 语义干扰是真实存在的 。 当主题内容 (例如,猫 vs. 汽车) 发生变化时,模型会感到困惑并失去对构图结构的把握。

2. 一个发现: CDA 是有效的替代指标

该论文的一个技术胜利是验证了他们的新指标 CDA。通常,研究人员使用“平均精度均值” (mAP) 进行检索任务,但计算 mAP 既耗费算力又复杂。

mAP 和 CDA 指标之间的相关性。

Figure 6 显示了轻量级的 CDA 指标与重量级的 mAP 指标之间存在很强的正相关关系。这意味着未来的研究人员可以使用更简单的 CDA 指标来快速调整模型,从而节省时间和计算资源。

3. MLLM 还没准备好做艺术评论家

也许最令人惊讶的结果来自于多模态大语言模型。你可能期望这些庞大的“大脑”能轻松处理构图。但它们没有。

MLLM 在评估任务中的表现。

Table 3 揭示了像 LLaVA、InternVL 和 Qwen-VL 等模型的表现。

  • Task I (Distinction): 大多数模型的得分接近 0.33,对于一个三选一的问题来说,这基本上等同于随机猜测。
  • Task III (Counting): 它们难以准确计算构图元素的数量。
  • Task IV (Arrangement): 它们无法可靠地命名布局 (例如,垂直 vs. 水平) 。

这表明,虽然 MLLM 擅长描述物体,但它们缺乏对空间关系和几何排列的基本理解。它们能看到“像素”,但看不到“画面”。

结论: 跨越语义鸿沟

“Can Machines Understand Composition?” 这篇论文为计算机视觉敲响了警钟。它突出了当前 AI 的一个特定盲点: 无法将图像的内容与其结构解耦。

PICD 的引入是向前迈出的重要一步。通过提供一个大规模、多样化且精心标注的数据集,研究人员为社区提供了探索这一领域所需的地图。

主要收获:

  1. 语境很重要: 当前的 AI 模型很容易被物体本身所吸引,而忽略了它的位置。
  2. 新标准: PICD 取代了更小、噪声更多的数据集,为未来的研究提供了可靠的基准真相。
  3. 未来工作: 我们需要能够明确建模几何关系 (点、线、拓扑结构) 的新网络架构,而不仅仅是从像素中学习模式。

对于学生和研究人员来说,这开启了一条令人兴奋的道路。我们不仅需要能生成艺术的模型;我们需要能理解艺术原则的模型。只有这样,机器才能真正协助摄影师捕捉到完美的瞬间。