引言

想象一下,你正在阅读一本历史书。书中写道,“第四次霍乱大流行”持续时间为 1863 年至 1875 年,而“第二次世界大战”发生在 1939 年至 1945 年。如果有人问你: “大流行是在二战之前发生的吗?”答案是显而易见的。你不需要进行复杂的微积分运算;你只需要比较一下时间线。这种对时间直观的掌握——理解事件有持续时间,它们可以重叠、同时开始或通过先后顺序相连——是人类认知的基石。

但对于大语言模型 (LLMs) 来说,这个“简单”的任务却出奇地困难。尽管像 GPT-4 和 Llama 这样的模型已经掌握了句法、语法甚至创意写作,但它们在推理时间区间 (即具有起点和终点的不同时间段) 的能力仍然是一个主要障碍。

这为什么很重要?如果我们希望 AI 协助法律取证 (分析证据的时间线) 、医疗诊断 (追踪症状进展) 或历史研究,它就不能仅仅背诵日期。它必须理解时间段之间的逻辑关系。

在这篇文章中,我们将深入探讨 ChronoSense , 这是一篇引人入胜的研究论文,它揭示了现代 LLMs 在时间推理方面的局限性。研究人员 Duygu Sezen Islakoglu 和 Jan-Christian Kalo 开发了一个基准测试,旨在测试这些模型是真正理解时间,还是仅仅在复述死记硬背的事实。

背景: 时间的架构

要理解 LLMs 为何陷入困境,我们首先需要了解在计算机科学中是如何形式化时间的。仅仅看一个时间戳是不够的。现实世界的事件具有持续时间。

Allen 区间代数

30 多年前,James Allen 开发了一个被称为 Allen 区间代数 (Allen’s Interval Algebra) 的框架。它是定义两个时间区间如何相互关联的黄金标准。

当我们比较两个事件,比如事件 A (粉色) 和事件 B (蓝色) 时,它们之间确切存在 13 种可能的交互方式。这些不是随机的;它们涵盖了所有的数学可能性。

Figure 1: 13 Allen relations between two intervals, covering all combinations.

如图 1 所示,这些关系从简单到微妙不等:

  1. 相离关系 (Disjoint Relations) : Before (在…之前) 和 After (在…之后) 。事件之间存在间隔。
  2. 邻接关系 (Adjacency) : Meets (相接) 和 Met-by (被…相接) 。一个事件恰好在另一个事件开始的那一刻结束。
  3. 包含关系 (Containment) : During (在…期间) 和 Contains (包含) 。一个事件完全发生在另一个事件的时间范围内。
  4. 重叠关系 (Overlapping) : Overlaps (重叠) 和 Overlapped-by (被…重叠) 。它们共享一段时间,但谁也不完全包含谁。
  5. 对齐关系 (Alignment) : Starts (开始于) 、Started-by (被…开始) 、Finishes (结束于) 、Finished-by (被…结束) 和 Equals (等于) 。这些关系涉及事件共享特定的起点或终点。

对于人类来说,区分 OverlapsDuring 需要快速检查开始和结束日期。对于将文本作为 Token 序列处理的 LLMs 来说,推理“1863 年在 1939 年之前”是一回事;但要推理一个始于 1863 年终于 1875 年的事件完全在另一个始于 1939 年的事件之前 , 则需要同时维护多个数值约束。

ChronoSense 基准测试

为了严格测试这一点,研究人员创建了 ChronoSense , 这是一个旨在诊断 LLMs “时间盲区”的数据集。该数据集主要分为两类: Allen 关系任务时间算术任务

1. 比较现实世界事件 (Allen 关系)

基准测试的核心涉及从 Wikidata 抓取真实的特定历史事件数据。研究人员提取了事件对,确定了它们的实际开始和结束年份,然后根据 Allen 代数为它们之间的关系打上了真实标签 (ground-truth labeled) 。

测试过程被构建为“背景、假设、正确性”问题。

Figure 2: An example for comparing two temporal events with LLMs.

如图 2 所示,模型收到的提示包含:

  1. 背景 (Context) : 事实。 (例如,“第四次霍乱大流行发生在 1863 年至 1875 年之间。”)
  2. 假设 (Hypothesis) : 关于它们关系的问题。 (例如,“‘第四次霍乱大流行’是否发生在‘第二次世界大战’之前且没有任何重叠……?”)
  3. 任务 (The Task) : LLM 必须输出 True (真) 或 False (假) 。

这种设置非常巧妙,因为它明确提供了日期。模型不需要从训练记忆中检索日期;它只需要对提示中提供的数字进行推理

2. 时间算术

理解关系是一回事;计算时间是另一回事。该基准测试包括要求模型对年份进行数学运算的算术任务。这些任务是合成的 (使用像“事件 A”这样的通用名称) ,以防止模型依赖死记硬背的历史知识。

三个算术挑战是:

  • 结束时间点 (End Timepoint) : 给定开始年份和持续时间,事件何时结束?
  • 下一次发生 (Next Occurrence) : 给定开始年份和频率 (例如,“每 4 年一次”) ,事件是否在 X 年发生?
  • 中间时间点 (Intermediate Timepoint) : 给定开始和结束年份,事件是否在特定的中间年份处于活跃状态?

提示词 (Prompts)

你如何提问至关重要。研究人员并没有只是简单地倾倒原始数据;他们精心制作了模板,将 13 种 Allen 关系转化为自然的英语。

Table 3: Templates used in ChronoSense.

表 3 展示了这些模板。注意语言的精确性。对于 Before 关系,提示明确指出“……两个事件之间没有任何重叠”。对于 Overlaps,它阐明了“开始于……之前并结束于……之前,两个事件之间有一些重叠”。这减少了歧义,确保如果模型失败,那是由于缺乏推理能力,而不是误解了问题。

实验与方法论

研究人员测试了一系列最近的 7 个 LLM,包括像 GPT-4oLlama-3.1-8BMistral-7B 这样的重量级模型。

他们在几种设置下评估了模型:

  • 0-shot (零样本) : 直接提问,不提供示例。
  • Few-shot (少样本,1-shot, 3-shot) : 在提示中提供一个或三个已解决的示例,以“教”模型格式。
  • Chain-of-Thought (思维链 CoT) : 添加神奇的短语“Let’s think step by step” (让我们一步步思考) ,鼓励模型在给出最终答案之前输出其推理过程。
  • 抽象设置 (Abstract Setting) : 一个关键的对照测试,其中真实的事件名称 (如“第二次世界大战”) 被替换为“事件 A”和“事件 B”。这样做是为了验证模型是在使用逻辑,还是仅仅记得二战发生在霍乱大流行之后。

结果: 它们表现如何?

结果描绘了当前 AI 在时间处理能力方面不容乐观的图景。尽管围绕这些模型的炒作很多,但它们处理基本时间逻辑的能力并不一致,在许多情况下甚至很差。

总体性能概览

Table 1: The average performance comparison between diffrent settings on two different question types in ChronoSense.

表 1 提供了高层级的总结。以下是关键要点:

  1. 低基线: 随机猜测将产生 50% 的准确率 (0.50) 。许多模型,特别是在 0-shot 设置下,徘徊在这一基线附近,甚至低于这一基线,情况岌岌可危。
  2. “不明确”问题: Gemma 和 Llama-3.1 等模型旁边的星号 (*) 表示未能遵循指令。这些模型往往语无伦次或给出模棱两可的答案,而不是回答 TrueFalse,导致分数极低。
  3. 记忆 vs. 推理: 看一下 Abstract (抽象) 这一行。当事件名称被移除 (迫使模型只看数字) 时,性能通常比标准设置有所下降。这有力地表明,当 LLM 回答有关二战的问题时,它在一定程度上依赖于其记忆中对该事件的“感觉”,而不是严格的时间比较。
  4. 算术很难: 模型在 0-shot 设置下的算术表现非常挣扎,通常比关系任务表现更差。

深入探究: Allen 关系

并非所有的时间关系都是平等的。有些关系直观上比其他关系更容易让模型掌握。

Table 2: O-shot setting results for GPT-4o,Mixtral-8x7B, and Phi-3-mini on 13 Allen relations.

表 2 按关系类型细分了性能。

  • 简单的部分: 模型通常在 BeforeAfter 上表现最好。这是英语中最常见的时间词汇,所以模型在训练中已经见过数十亿次了。
  • 困难的部分: 看看 Equals 的分数。即使是 GPT-4o 也降到了 0.69,而 Mixtral 更是暴跌至 0.336 (比抛硬币还差) 。为什么?Equals 需要严格的逻辑检查: 开始时间 A == 开始时间 B 结束时间 A == 结束时间 B。
  • 对称性失效: 逻辑上,如果你能识别 Before,你应该也能识别 After。它们是对称的。然而,模型在对称对 (Meets vs. Met-byContains vs. During) 上表现出差异很大的性能。这表明模型没有使用稳健的逻辑框架,而是依赖于语言模式。

“让我们一步步思考”的力量

最令人鼓舞的发现之一来自时间算术任务,特别是在使用 思维链 (CoT) 提示时。

Table 9: The results on all temporal arithmetic questions in O-,1-,and 3-shot settings,as wellas using CoT prompting.

表 9 (在源图像组中标记为 Table 11) 揭示了显著的改进。

  • 看看 0-shot 部分。表现平平。
  • 现在看看底部的 CoT 部分。GPT-4o 跃升至近乎完美的分数 (0.99) 。即使是像 Phi-3-mini 这样较小的模型也达到了 0.98。

为什么? 像“始于 1555 年且每 6 年发生一次的事件是否在 1561 年发生?”这样的算术任务需要计算。如果没有 CoT,模型会试图立即预测下一个 Token。有了 CoT,它会生成中间步骤 (1555 + 6 = 1561) ,从而使其得出正确的结论。

然而,请注意,即使是 CoT 也没有解决 Allen 关系的所有问题 (表 1) ,这表明比较区间在概念上与执行简单的加法不同。

它们为什么会失败?

研究人员对模型如何搞砸进行了定性分析。这不仅仅是随机猜测;错误是有规律的。

Table 12: Qualitative examples for failure cases.

表 12 展示了一些令人尴尬的失败案例:

  • 案例 1 (GPT-4o-mini): 模型正确识别了年份,但未能通过 Finishes 关系的逻辑检查。
  • 案例 4 (Mistral-7B): 一个典型的计算错误。模型试图将持续时间加到开始年份上,但算错了。
  • 案例 6 (Mixtral-8x7B): 过度复杂化。模型被问及一个从 1555 年开始每 6 年发生一次的事件是否在 1561 年发生。它试图用 1561 除以 6 (不正确的逻辑) ,而不是简单地将 6 加到开始年份。它产生了幻觉,认为数学上算不通。

这些错误凸显了 LLMs 的脆弱性。它们可以说得“头头是道”,但在逻辑上却语无伦次。

讨论与结论

ChronoSense 论文作为一个至关重要的现实检验。虽然我们习惯了 LLMs 通过律师资格考试或写诗,但它们对基本时间概念 (我们每天用来组织生活的概念) 的掌握却是摇摇欲坠的。

关键要点

  1. 指令遵循是瓶颈: 许多模型失败仅仅是因为它们无法坚持 True/False 的格式。这使得它们对于期望结构化输出的自动化系统来说不可靠。
  2. 记忆优于逻辑: “抽象”设置中的性能下降证明,模型依赖于其训练数据的事实知识,而不是纯粹的推理。它们知道“二战”是一个发生在其他事件之后的大事件,但它们很难纯粹从数值上将“事件 A (1939-1945)”与“事件 B (1863-1875)”进行比较。
  3. 提示很重要: 思维链对于任何涉及日期和数字的任务都至关重要。如果你正在构建一个使用 LLMs 处理时间线的应用程序,你必须强制模型展示其工作过程。

未来影响

作者指出,这些限制对于下游应用至关重要。

  • 法律 AI: 审查案件档案的 AI 可能会误解事件的顺序,混淆 OverlapsDuring,从而可能改变犯罪叙述。
  • 历史分析: 旨在自动生成时间线的工具可能会产生错误的连接或搞错事件顺序。

ChronoSense 通过确切指出基础中的裂缝在哪里,推动了该领域的发展。通过关注 13 个 Allen 区间,作者为未来的模型提供了路线图。我们不仅需要知道更多事实的模型;我们需要理解这些事实相对于彼此是何时发生的模型。在那之前,我们可能还是得自己检查日期。