想象一下，你正看着一张照片，照片里一位老人坐在窗边的轮椅上。一个孩子问你: “我需要够高处的东西。你能帮我把这把椅子移过来用吗？”

作为人类，你的大脑会瞬间处理这一复杂的因果关系网络。你看到了椅子，看到了老人，并且理解了其中的关系: “椅子支撑着老人。”移动椅子会导致老人摔倒或发生位移。因此，答案显而易见是“不”。

然而，如果你问最先进的 AI 同样的问题，答案可能会让你大吃一惊。它可能只是识别出“椅子”这个物体，将椅子与“爬上去够东西”联系起来，然后愉快地回答: “是的，我可以帮忙！”

视觉语言环境中的因果推理示例。LVLM (例如 GPT-4o) 可能会由于对因果关系理解有限而生成不恰当的回复。

这种差异凸显了现代人工智能中的一个关键缺口。虽然像 GPT-4o 这样的大型视觉语言模型 (LVLM) 非常擅长描述图像中有什么，但它们往往难以理解事物为什么是这样的——即支配物理和社会世界的因果逻辑。

在这篇深度文章中，我们将探讨一篇名为 “CELLO: Causal Evaluation of Large Vision-Language Models” (CELLO: 大型视觉语言模型的因果评估) 的最新研究论文。我们将解析研究人员如何定义视觉因果关系，他们如何构建庞大的数据集来测试它，以及他们开发的新提示策略如何帮助 AI 像因果推理者一样“思考”。

问题: 看到却不理解

因果推理是人类智能的基石。它使我们能够预测未来 (“如果我扔掉这个杯子，它会碎”) 并解释过去 (“地板湿了是因为下雨了”) 。对于 AI 智能体，例如家庭机器人或街上的自动驾驶汽车，这种能力是不可或缺的。机器人不能仅仅“看到”一个花瓶；它必须理解推花瓶会导致它倒下。

以前在这方面的测试尝试主要集中在“常识性因果关系”——即事件之间的基本关联。然而，这些测试通常缺乏形式化的因果图 。它们依赖于松散的关联而不是严格的逻辑。这使得很难准确查明 AI 的推理在何处崩溃。

CELLO 背后的研究人员认为，要真正评估 AI，我们需要一个涉及人与物体之间相互作用的细粒度因果关系定义，并将其映射到“因果阶梯”上。

背景: 因果阶梯

要理解 CELLO 基准，我们首先必须理解它所使用的理论框架: 朱迪亚·珀尔 (Judea Pearl) 的因果阶梯 (Ladder of Causation) 。研究人员扩展了这个阶梯，使其包含四个不同的层级 (或“横档”) :

第 0 级: 发现 (Discovery) 。 识别关系的存在。 (例如，“风和树的移动之间有联系吗？”)
第 1 级: 关联 (Association) 。 识别依赖性和相关性。 (例如，“当风吹时，树移动的可能性有多大？”)
第 2 级: 干预 (Intervention) 。 理解行动的效果。这涉及“do 算子”。 (例如，“如果我把树砍倒，它还会动吗？”)
第 3 级: 反事实 (Counterfactuals) 。 想象替代现实。 (例如，“如果风没有吹，树会动吗？”)

大多数现有的数据集只触及了第 1 级的皮毛。CELLO 旨在测试所有四个层级的模型。

核心方法: 定义视觉因果关系

这篇论文的核心在于作者如何将抽象的因果理论转化为具体的视觉问题。他们提出了一个受“因果倾向”启发的统一分定义。简而言之: 当一个实体影响另一个实体的状态时，就存在因果关系。

这通过反事实推理最容易理解: 如果移除了“原因”对象，“结果”对象还会保持原样吗？

研究人员将这些相互作用分为三类:

物体-物体: 棍子支撑着气球。 (没有棍子，气球就会飞走) 。
人-物体: 女人拿着棍子。 (没有女人，棍子就会掉下来) 。
人-人: 女人抱着孩子。 (没有女人，孩子就不会被抱着) 。

视觉语言环境中考虑的三种不同的因果关系: 物体-物体、人-物体和人-人因果关系。

如图 2 所示，这些关系可以映射到因果图中——这是一种图表，其中节点代表实体 (女人、孩子、棍子、气球) ，箭头代表影响的方向。该图提供了 AI 必须理解才能正确回答问题的“基准”逻辑。

构建 CELLO 数据集

创建几个因果问题很容易；创建 14,094 个问题来训练和测试 AI 则是一个巨大的工程挑战。作者开发了一个自动化流程来生成 CELLO 数据集。

如图 3 所示，该过程遵循三个主要步骤:

因果图提取: 他们利用 Visual Genome 数据集，该数据集已经包含了“场景图” (描述对象及其关系的数据结构，如“在……上”、“持有”、“固定在”) 。他们将这些场景图映射到形式化的因果结构 (直接、混淆、对撞和链式) 。
因果任务选择: 根据提取的图，他们从因果阶梯中分配特定任务。例如，如果存在“混淆”结构 (一个物体影响另外两个物体) ，他们可能会分配一个“混淆因子识别”任务。
问题构建: 使用大型语言模型 (LLM) 和严格的模板，他们生成选择题。

CELLO 的数据集构建流程 (以混淆因子识别任务为例) 。

以图 3 中的例子为例。系统识别出一个混淆 (Confounder) 结构: “墙”支撑着“架子”，同时“墙”也 (间接地) 支撑着“书”。

问题: “为什么书放得很稳？”
逻辑: 正确答案必须承认混淆因子。“因为固定在墙上的架子使书保持整齐和直立。”
干扰项: 系统还会生成基于图像 (例如提到窗户) 、基于图表 (只提到架子但忽略墙) 或纯文本幻觉的错误答案。

这种系统化的方法确保了问题不仅仅是在测试 AI 是否能识别“书”，而是在测试它是否理解保持书直立的结构支撑系统。

质量保证

我们如何知道这些计算机生成的问题质量如何？研究人员分析了 CELLO 与 VQA 和 VisualCOMET 等现有数据集相比的语言质量。

CELLO 与其他视觉语言数据集在词汇多样性和流畅性方面的问答质量比较。

如图 4 所示，CELLO (最右侧的点) 表现出显着更高的词汇多样性 , 同时保持了良好的困惑度 (流畅性) 。这意味着这些问题比标准数据集重复性更低、更复杂，对模型构成了更严峻的挑战。

解决方案: CELLO-CoT

在构建数据集后，研究人员测试了标准的 LVLM (如 LLaVA 和原始的 GPT-4o) ，发现它们表现欠佳。模型经常进行猜测或产生幻觉。

为了弥补这一差距，作者引入了 CELLO-CoT , 这是一种专为因果推理设计的“思维链 (Chain-of-Thought) ”提示策略。CELLO-CoT 不会让模型直接跳到答案，而是通过提示强制模型遵循人类的认知步骤。

该策略将推理过程分解为四个明确的步骤:

提取核心实体: 查看文本和图像。谁是主要参与者？ (例如，“架子”、“墙”、“书”) 。
识别因果图: 分析图像以确定结构。X 导致 Y 吗？Z 是否导致两者？
确定任务类型: 这是什么样的因果问题？ (例如，“混淆因子识别”) 。
汇编知识: 检索与该任务相关的特定因果规则。

我们的 CELLO-CoT 策略图解。

通过强制模型输出这些中间步骤 (如图 5 所示) ，最终答案将建立在逻辑之上，而不是统计概率之上。

实验与结果

研究人员评估了十个领先的 LVLM，包括 GPT-4o 和 Claude-3 等专有模型，以及 LLaVA 和 Qwen-VL 等开源模型。结果发人深省。

1. 模型在因果关系上举步维艰

标准模型的整体表现很差。一些模型，如 BLIP-2 和 Claude-3-Sonnet，在二元 (是/否) 问题上的表现甚至不如随机猜测。这证实了一个假设: 目前的视觉语言模型擅长识别，但在推理方面很糟糕。

2. CELLO-CoT 行之有效

提出的提示策略产生了巨大的差异。当应用于 GPT-4o 时，准确率显着跃升。

对我们提出的 CELLO-CoT 的消融研究。

图 6(a) 中的消融研究显示了添加思维链每一步的影响。

步骤 1 (实体提取) 对低层级任务 (如发现) 的提升最大。
步骤 2-4 (图和知识) 对于反事实推理 (第 3 级) 等复杂任务至关重要。

这证明，给模型提供关于因果关系的“结构化提示”，可以让它们获得原本处于休眠状态的推理能力。

3. “乐于助人”的陷阱 (鲁棒性测试)

也许最引人入胜的结果来自鲁棒性测试 。研究人员设计了一些“陷阱”问题，其中的请求很有礼貌，但在物理上是不可能的或危险的 (就像引言中的轮椅例子) 。

在这些场景中，模型往往优先考虑“乐于助人”，而不是“因果正确”。

不同 LVLM 的鲁棒性测试。可以观察到性能显着下降。

图 7 展示了 BakLlava 和 Qwen-VL 等模型性能的急剧崩溃。当被问到“你能移动这个架子吗？” (架子被固定在墙上并放着物品) 时，模型忽略了物理限制并回答“可以”。

BakLlava 的准确率从 57% 跌至 3% 。
GPT-4o 是唯一保持稳定的模型，这可能归功于其大量的“安全”训练 (RLHF) ，它学会了拒绝不合理的请求——尽管通常是用通用的“我是一个 AI”来回答，而不是基于物理的解释。

4. 模型在哪里失败？

错误分析 (图 8) 显示，绝大多数错误 (近 90%) 是“选错答案 (Mischosen Answers) ”。

LVLM 的错误分析。

这表明模型并没有崩溃或无法理解格式；它们只是自信地选择了错误的因果解释。它们被图像中无关的物体 (视觉干扰项) 或语言偏见分散了注意力。

一个具体例子: 反事实推理

为了可视化这些失败，让我们看看论文中关于反事实推理的一个具体案例研究。

问题是: “如果拿着香蕉的人走到一边，影子还会存在吗？”

常识: 不会。人挡住了光线才产生了影子。
模型失败: 许多模型回答“会”。它们未能将“影子” (结果) 的存在与“人/香蕉” (原因) 的存在联系起来。它们将影子视为场景中的永久固定装置，而不是一种从属状态。

反事实推理的案例研究。

如图 20 所示，虽然一些先进模型答对了，但许多开源模型未能追踪这一简单的因果联系，证明了第 3 级 (反事实) 任务的难度。

结论与启示

CELLO 论文是对 AI 社区的一次现实检验。它表明，虽然我们已经构建了可以写诗和识别犬种的模型，但我们还没有构建出真正理解“架子支撑书本”的物理原理或“移动轮椅”的社会含义的模型。

关键要点是:

因果关系不同于识别: 识别物体不等同于理解它们之间的相互作用。
显式结构有帮助: CELLO-CoT 策略证明，如果我们强迫模型以图表和实体的方式思考，它们的推理能力会大幅提高。
鲁棒性是一个安全问题: 模型倾向于对物理上不可能的请求说“是”，这对未来的具身智能体 (机器人) 构成了真正的危险。

通过提供严格的数据集和统一的视觉因果关系定义，CELLO 为下一代 AI 铺平了道路——这些系统不仅仅是观察世界，而是真正理解世界是如何运作的。

问题: 看到却不理解#

背景: 因果阶梯#

核心方法: 定义视觉因果关系#

构建 CELLO 数据集#

质量保证#

解决方案: CELLO-CoT#

实验与结果#

1. 模型在因果关系上举步维艰#

2. CELLO-CoT 行之有效#

3. “乐于助人”的陷阱 (鲁棒性测试)#

4. 模型在哪里失败？#

一个具体例子: 反事实推理#

结论与启示#