引言

想象一下，你正在阅读一本历史书。书中写道，“第四次霍乱大流行”持续时间为 1863 年至 1875 年，而“第二次世界大战”发生在 1939 年至 1945 年。如果有人问你: “大流行是在二战之前发生的吗？”答案是显而易见的。你不需要进行复杂的微积分运算；你只需要比较一下时间线。这种对时间直观的掌握——理解事件有持续时间，它们可以重叠、同时开始或通过先后顺序相连——是人类认知的基石。

但对于大语言模型 (LLMs) 来说，这个“简单”的任务却出奇地困难。尽管像 GPT-4 和 Llama 这样的模型已经掌握了句法、语法甚至创意写作，但它们在推理时间区间 (即具有起点和终点的不同时间段) 的能力仍然是一个主要障碍。

这为什么很重要？如果我们希望 AI 协助法律取证 (分析证据的时间线) 、医疗诊断 (追踪症状进展) 或历史研究，它就不能仅仅背诵日期。它必须理解时间段之间的逻辑关系。

在这篇文章中，我们将深入探讨 ChronoSense , 这是一篇引人入胜的研究论文，它揭示了现代 LLMs 在时间推理方面的局限性。研究人员 Duygu Sezen Islakoglu 和 Jan-Christian Kalo 开发了一个基准测试，旨在测试这些模型是真正理解时间，还是仅仅在复述死记硬背的事实。

背景: 时间的架构

要理解 LLMs 为何陷入困境，我们首先需要了解在计算机科学中是如何形式化时间的。仅仅看一个时间戳是不够的。现实世界的事件具有持续时间。

Allen 区间代数

30 多年前，James Allen 开发了一个被称为 Allen 区间代数 (Allen’s Interval Algebra) 的框架。它是定义两个时间区间如何相互关联的黄金标准。

当我们比较两个事件，比如事件 A (粉色) 和事件 B (蓝色) 时，它们之间确切存在 13 种可能的交互方式。这些不是随机的；它们涵盖了所有的数学可能性。

Figure 1: 13 Allen relations between two intervals, covering all combinations.

如图 1 所示，这些关系从简单到微妙不等:

相离关系 (Disjoint Relations) : Before (在…之前) 和 After (在…之后) 。事件之间存在间隔。
邻接关系 (Adjacency) : Meets (相接) 和 Met-by (被…相接) 。一个事件恰好在另一个事件开始的那一刻结束。
包含关系 (Containment) : During (在…期间) 和 Contains (包含) 。一个事件完全发生在另一个事件的时间范围内。
重叠关系 (Overlapping) : Overlaps (重叠) 和 Overlapped-by (被…重叠) 。它们共享一段时间，但谁也不完全包含谁。
对齐关系 (Alignment) : Starts (开始于) 、Started-by (被…开始) 、Finishes (结束于) 、Finished-by (被…结束) 和 Equals (等于) 。这些关系涉及事件共享特定的起点或终点。

对于人类来说，区分 Overlaps 和 During 需要快速检查开始和结束日期。对于将文本作为 Token 序列处理的 LLMs 来说，推理“1863 年在 1939 年之前”是一回事；但要推理一个始于 1863 年终于 1875 年的事件完全在另一个始于 1939 年的事件之前 , 则需要同时维护多个数值约束。

ChronoSense 基准测试

为了严格测试这一点，研究人员创建了 ChronoSense , 这是一个旨在诊断 LLMs “时间盲区”的数据集。该数据集主要分为两类: Allen 关系任务和时间算术任务 。

1. 比较现实世界事件 (Allen 关系)

基准测试的核心涉及从 Wikidata 抓取真实的特定历史事件数据。研究人员提取了事件对，确定了它们的实际开始和结束年份，然后根据 Allen 代数为它们之间的关系打上了真实标签 (ground-truth labeled) 。

测试过程被构建为“背景、假设、正确性”问题。

Figure 2: An example for comparing two temporal events with LLMs.

如图 2 所示，模型收到的提示包含:

背景 (Context) : 事实。 (例如，“第四次霍乱大流行发生在 1863 年至 1875 年之间。”)
假设 (Hypothesis) : 关于它们关系的问题。 (例如，“‘第四次霍乱大流行’是否发生在‘第二次世界大战’之前且没有任何重叠……？”)
任务 (The Task) : LLM 必须输出 True (真) 或 False (假) 。

这种设置非常巧妙，因为它明确提供了日期。模型不需要从训练记忆中检索日期；它只需要对提示中提供的数字进行推理。

2. 时间算术

理解关系是一回事；计算时间是另一回事。该基准测试包括要求模型对年份进行数学运算的算术任务。这些任务是合成的 (使用像“事件 A”这样的通用名称) ，以防止模型依赖死记硬背的历史知识。

三个算术挑战是:

结束时间点 (End Timepoint) : 给定开始年份和持续时间，事件何时结束？
下一次发生 (Next Occurrence) : 给定开始年份和频率 (例如，“每 4 年一次”) ，事件是否在 X 年发生？
中间时间点 (Intermediate Timepoint) : 给定开始和结束年份，事件是否在特定的中间年份处于活跃状态？

提示词 (Prompts)

你如何提问至关重要。研究人员并没有只是简单地倾倒原始数据；他们精心制作了模板，将 13 种 Allen 关系转化为自然的英语。

Table 3: Templates used in ChronoSense.

表 3 展示了这些模板。注意语言的精确性。对于 Before 关系，提示明确指出“……两个事件之间没有任何重叠”。对于 Overlaps，它阐明了“开始于……之前并结束于……之前，两个事件之间有一些重叠”。这减少了歧义，确保如果模型失败，那是由于缺乏推理能力，而不是误解了问题。

实验与方法论

研究人员测试了一系列最近的 7 个 LLM，包括像 GPT-4o、Llama-3.1-8B 和 Mistral-7B 这样的重量级模型。

他们在几种设置下评估了模型:

0-shot (零样本) : 直接提问，不提供示例。
Few-shot (少样本，1-shot, 3-shot) : 在提示中提供一个或三个已解决的示例，以“教”模型格式。
Chain-of-Thought (思维链 CoT) : 添加神奇的短语“Let’s think step by step” (让我们一步步思考) ，鼓励模型在给出最终答案之前输出其推理过程。
抽象设置 (Abstract Setting) : 一个关键的对照测试，其中真实的事件名称 (如“第二次世界大战”) 被替换为“事件 A”和“事件 B”。这样做是为了验证模型是在使用逻辑，还是仅仅记得二战发生在霍乱大流行之后。

结果: 它们表现如何？

结果描绘了当前 AI 在时间处理能力方面不容乐观的图景。尽管围绕这些模型的炒作很多，但它们处理基本时间逻辑的能力并不一致，在许多情况下甚至很差。

总体性能概览

Table 1: The average performance comparison between diffrent settings on two different question types in ChronoSense.

表 1 提供了高层级的总结。以下是关键要点:

低基线: 随机猜测将产生 50% 的准确率 (0.50) 。许多模型，特别是在 0-shot 设置下，徘徊在这一基线附近，甚至低于这一基线，情况岌岌可危。
“不明确”问题: Gemma 和 Llama-3.1 等模型旁边的星号 (*) 表示未能遵循指令。这些模型往往语无伦次或给出模棱两可的答案，而不是回答 True 或 False，导致分数极低。
记忆 vs. 推理: 看一下 Abstract (抽象) 这一行。当事件名称被移除 (迫使模型只看数字) 时，性能通常比标准设置有所下降。这有力地表明，当 LLM 回答有关二战的问题时，它在一定程度上依赖于其记忆中对该事件的“感觉”，而不是严格的时间比较。
算术很难: 模型在 0-shot 设置下的算术表现非常挣扎，通常比关系任务表现更差。

深入探究: Allen 关系

并非所有的时间关系都是平等的。有些关系直观上比其他关系更容易让模型掌握。

Table 2: O-shot setting results for GPT-4o,Mixtral-8x7B, and Phi-3-mini on 13 Allen relations.

表 2 按关系类型细分了性能。

简单的部分: 模型通常在 Before 和 After 上表现最好。这是英语中最常见的时间词汇，所以模型在训练中已经见过数十亿次了。
困难的部分: 看看 Equals 的分数。即使是 GPT-4o 也降到了 0.69，而 Mixtral 更是暴跌至 0.336 (比抛硬币还差) 。为什么？Equals 需要严格的逻辑检查: 开始时间 A == 开始时间 B 且结束时间 A == 结束时间 B。
对称性失效: 逻辑上，如果你能识别 Before，你应该也能识别 After。它们是对称的。然而，模型在对称对 (Meets vs. Met-by，Contains vs. During) 上表现出差异很大的性能。这表明模型没有使用稳健的逻辑框架，而是依赖于语言模式。

“让我们一步步思考”的力量

最令人鼓舞的发现之一来自时间算术任务，特别是在使用 思维链 (CoT) 提示时。

Table 9: The results on all temporal arithmetic questions in O-,1-,and 3-shot settings,as wellas using CoT prompting.

表 9 (在源图像组中标记为 Table 11) 揭示了显著的改进。

看看 0-shot 部分。表现平平。
现在看看底部的 CoT 部分。GPT-4o 跃升至近乎完美的分数 (0.99) 。即使是像 Phi-3-mini 这样较小的模型也达到了 0.98。

为什么? 像“始于 1555 年且每 6 年发生一次的事件是否在 1561 年发生？”这样的算术任务需要计算。如果没有 CoT，模型会试图立即预测下一个 Token。有了 CoT，它会生成中间步骤 (1555 + 6 = 1561) ，从而使其得出正确的结论。

然而，请注意，即使是 CoT 也没有解决 Allen 关系的所有问题 (表 1) ，这表明比较区间在概念上与执行简单的加法不同。

它们为什么会失败？

研究人员对模型如何搞砸进行了定性分析。这不仅仅是随机猜测；错误是有规律的。

Table 12: Qualitative examples for failure cases.

表 12 展示了一些令人尴尬的失败案例:

案例 1 (GPT-4o-mini): 模型正确识别了年份，但未能通过 Finishes 关系的逻辑检查。
案例 4 (Mistral-7B): 一个典型的计算错误。模型试图将持续时间加到开始年份上，但算错了。
案例 6 (Mixtral-8x7B): 过度复杂化。模型被问及一个从 1555 年开始每 6 年发生一次的事件是否在 1561 年发生。它试图用 1561 除以 6 (不正确的逻辑) ，而不是简单地将 6 加到开始年份。它产生了幻觉，认为数学上算不通。

这些错误凸显了 LLMs 的脆弱性。它们可以说得“头头是道”，但在逻辑上却语无伦次。

讨论与结论

ChronoSense 论文作为一个至关重要的现实检验。虽然我们习惯了 LLMs 通过律师资格考试或写诗，但它们对基本时间概念 (我们每天用来组织生活的概念) 的掌握却是摇摇欲坠的。

关键要点

指令遵循是瓶颈: 许多模型失败仅仅是因为它们无法坚持 True/False 的格式。这使得它们对于期望结构化输出的自动化系统来说不可靠。
记忆优于逻辑: “抽象”设置中的性能下降证明，模型依赖于其训练数据的事实知识，而不是纯粹的推理。它们知道“二战”是一个发生在其他事件之后的大事件，但它们很难纯粹从数值上将“事件 A (1939-1945)”与“事件 B (1863-1875)”进行比较。
提示很重要: 思维链对于任何涉及日期和数字的任务都至关重要。如果你正在构建一个使用 LLMs 处理时间线的应用程序，你必须强制模型展示其工作过程。

未来影响

作者指出，这些限制对于下游应用至关重要。

法律 AI: 审查案件档案的 AI 可能会误解事件的顺序，混淆 Overlaps 和 During，从而可能改变犯罪叙述。
历史分析: 旨在自动生成时间线的工具可能会产生错误的连接或搞错事件顺序。

ChronoSense 通过确切指出基础中的裂缝在哪里，推动了该领域的发展。通过关注 13 个 Allen 区间，作者为未来的模型提供了路线图。我们不仅需要知道更多事实的模型；我们需要理解这些事实相对于彼此是何时发生的模型。在那之前，我们可能还是得自己检查日期。

引言#

背景: 时间的架构#

Allen 区间代数#

ChronoSense 基准测试#

1. 比较现实世界事件 (Allen 关系)#

2. 时间算术#

提示词 (Prompts)#

实验与方法论#

结果: 它们表现如何？#

总体性能概览#

深入探究: Allen 关系#

“让我们一步步思考”的力量#

它们为什么会失败？#

讨论与结论#

关键要点#

未来影响#

引言