引言
想象一下,你正在阅读一本历史书。书中写道,“第四次霍乱大流行”持续时间为 1863 年至 1875 年,而“第二次世界大战”发生在 1939 年至 1945 年。如果有人问你: “大流行是在二战之前发生的吗?”答案是显而易见的。你不需要进行复杂的微积分运算;你只需要比较一下时间线。这种对时间直观的掌握——理解事件有持续时间,它们可以重叠、同时开始或通过先后顺序相连——是人类认知的基石。
但对于大语言模型 (LLMs) 来说,这个“简单”的任务却出奇地困难。尽管像 GPT-4 和 Llama 这样的模型已经掌握了句法、语法甚至创意写作,但它们在推理时间区间 (即具有起点和终点的不同时间段) 的能力仍然是一个主要障碍。
这为什么很重要?如果我们希望 AI 协助法律取证 (分析证据的时间线) 、医疗诊断 (追踪症状进展) 或历史研究,它就不能仅仅背诵日期。它必须理解时间段之间的逻辑关系。
在这篇文章中,我们将深入探讨 ChronoSense , 这是一篇引人入胜的研究论文,它揭示了现代 LLMs 在时间推理方面的局限性。研究人员 Duygu Sezen Islakoglu 和 Jan-Christian Kalo 开发了一个基准测试,旨在测试这些模型是真正理解时间,还是仅仅在复述死记硬背的事实。
背景: 时间的架构
要理解 LLMs 为何陷入困境,我们首先需要了解在计算机科学中是如何形式化时间的。仅仅看一个时间戳是不够的。现实世界的事件具有持续时间。
Allen 区间代数
30 多年前,James Allen 开发了一个被称为 Allen 区间代数 (Allen’s Interval Algebra) 的框架。它是定义两个时间区间如何相互关联的黄金标准。
当我们比较两个事件,比如事件 A (粉色) 和事件 B (蓝色) 时,它们之间确切存在 13 种可能的交互方式。这些不是随机的;它们涵盖了所有的数学可能性。

如图 1 所示,这些关系从简单到微妙不等:
- 相离关系 (Disjoint Relations) :
Before(在…之前) 和After(在…之后) 。事件之间存在间隔。 - 邻接关系 (Adjacency) :
Meets(相接) 和Met-by(被…相接) 。一个事件恰好在另一个事件开始的那一刻结束。 - 包含关系 (Containment) :
During(在…期间) 和Contains(包含) 。一个事件完全发生在另一个事件的时间范围内。 - 重叠关系 (Overlapping) :
Overlaps(重叠) 和Overlapped-by(被…重叠) 。它们共享一段时间,但谁也不完全包含谁。 - 对齐关系 (Alignment) :
Starts(开始于) 、Started-by(被…开始) 、Finishes(结束于) 、Finished-by(被…结束) 和Equals(等于) 。这些关系涉及事件共享特定的起点或终点。
对于人类来说,区分 Overlaps 和 During 需要快速检查开始和结束日期。对于将文本作为 Token 序列处理的 LLMs 来说,推理“1863 年在 1939 年之前”是一回事;但要推理一个始于 1863 年终于 1875 年的事件完全在另一个始于 1939 年的事件之前 , 则需要同时维护多个数值约束。
ChronoSense 基准测试
为了严格测试这一点,研究人员创建了 ChronoSense , 这是一个旨在诊断 LLMs “时间盲区”的数据集。该数据集主要分为两类: Allen 关系任务和时间算术任务 。
1. 比较现实世界事件 (Allen 关系)
基准测试的核心涉及从 Wikidata 抓取真实的特定历史事件数据。研究人员提取了事件对,确定了它们的实际开始和结束年份,然后根据 Allen 代数为它们之间的关系打上了真实标签 (ground-truth labeled) 。
测试过程被构建为“背景、假设、正确性”问题。

如图 2 所示,模型收到的提示包含:
- 背景 (Context) : 事实。 (例如,“第四次霍乱大流行发生在 1863 年至 1875 年之间。”)
- 假设 (Hypothesis) : 关于它们关系的问题。 (例如,“‘第四次霍乱大流行’是否发生在‘第二次世界大战’之前且没有任何重叠……?”)
- 任务 (The Task) : LLM 必须输出
True(真) 或False(假) 。
这种设置非常巧妙,因为它明确提供了日期。模型不需要从训练记忆中检索日期;它只需要对提示中提供的数字进行推理。
2. 时间算术
理解关系是一回事;计算时间是另一回事。该基准测试包括要求模型对年份进行数学运算的算术任务。这些任务是合成的 (使用像“事件 A”这样的通用名称) ,以防止模型依赖死记硬背的历史知识。
三个算术挑战是:
- 结束时间点 (End Timepoint) : 给定开始年份和持续时间,事件何时结束?
- 下一次发生 (Next Occurrence) : 给定开始年份和频率 (例如,“每 4 年一次”) ,事件是否在 X 年发生?
- 中间时间点 (Intermediate Timepoint) : 给定开始和结束年份,事件是否在特定的中间年份处于活跃状态?
提示词 (Prompts)
你如何提问至关重要。研究人员并没有只是简单地倾倒原始数据;他们精心制作了模板,将 13 种 Allen 关系转化为自然的英语。

表 3 展示了这些模板。注意语言的精确性。对于 Before 关系,提示明确指出“……两个事件之间没有任何重叠”。对于 Overlaps,它阐明了“开始于……之前并结束于……之前,两个事件之间有一些重叠”。这减少了歧义,确保如果模型失败,那是由于缺乏推理能力,而不是误解了问题。
实验与方法论
研究人员测试了一系列最近的 7 个 LLM,包括像 GPT-4o、Llama-3.1-8B 和 Mistral-7B 这样的重量级模型。
他们在几种设置下评估了模型:
- 0-shot (零样本) : 直接提问,不提供示例。
- Few-shot (少样本,1-shot, 3-shot) : 在提示中提供一个或三个已解决的示例,以“教”模型格式。
- Chain-of-Thought (思维链 CoT) : 添加神奇的短语“Let’s think step by step” (让我们一步步思考) ,鼓励模型在给出最终答案之前输出其推理过程。
- 抽象设置 (Abstract Setting) : 一个关键的对照测试,其中真实的事件名称 (如“第二次世界大战”) 被替换为“事件 A”和“事件 B”。这样做是为了验证模型是在使用逻辑,还是仅仅记得二战发生在霍乱大流行之后。
结果: 它们表现如何?
结果描绘了当前 AI 在时间处理能力方面不容乐观的图景。尽管围绕这些模型的炒作很多,但它们处理基本时间逻辑的能力并不一致,在许多情况下甚至很差。
总体性能概览

表 1 提供了高层级的总结。以下是关键要点:
- 低基线: 随机猜测将产生 50% 的准确率 (0.50) 。许多模型,特别是在 0-shot 设置下,徘徊在这一基线附近,甚至低于这一基线,情况岌岌可危。
- “不明确”问题: Gemma 和 Llama-3.1 等模型旁边的星号 (*) 表示未能遵循指令。这些模型往往语无伦次或给出模棱两可的答案,而不是回答
True或False,导致分数极低。 - 记忆 vs. 推理: 看一下 Abstract (抽象) 这一行。当事件名称被移除 (迫使模型只看数字) 时,性能通常比标准设置有所下降。这有力地表明,当 LLM 回答有关二战的问题时,它在一定程度上依赖于其记忆中对该事件的“感觉”,而不是严格的时间比较。
- 算术很难: 模型在 0-shot 设置下的算术表现非常挣扎,通常比关系任务表现更差。
深入探究: Allen 关系
并非所有的时间关系都是平等的。有些关系直观上比其他关系更容易让模型掌握。

表 2 按关系类型细分了性能。
- 简单的部分: 模型通常在
Before和After上表现最好。这是英语中最常见的时间词汇,所以模型在训练中已经见过数十亿次了。 - 困难的部分: 看看
Equals的分数。即使是 GPT-4o 也降到了 0.69,而 Mixtral 更是暴跌至 0.336 (比抛硬币还差) 。为什么?Equals需要严格的逻辑检查: 开始时间 A == 开始时间 B 且 结束时间 A == 结束时间 B。 - 对称性失效: 逻辑上,如果你能识别
Before,你应该也能识别After。它们是对称的。然而,模型在对称对 (Meetsvs.Met-by,Containsvs.During) 上表现出差异很大的性能。这表明模型没有使用稳健的逻辑框架,而是依赖于语言模式。
“让我们一步步思考”的力量
最令人鼓舞的发现之一来自时间算术任务,特别是在使用 思维链 (CoT) 提示时。

表 9 (在源图像组中标记为 Table 11) 揭示了显著的改进。
- 看看 0-shot 部分。表现平平。
- 现在看看底部的 CoT 部分。GPT-4o 跃升至近乎完美的分数 (0.99) 。即使是像 Phi-3-mini 这样较小的模型也达到了 0.98。
为什么? 像“始于 1555 年且每 6 年发生一次的事件是否在 1561 年发生?”这样的算术任务需要计算。如果没有 CoT,模型会试图立即预测下一个 Token。有了 CoT,它会生成中间步骤 (1555 + 6 = 1561) ,从而使其得出正确的结论。
然而,请注意,即使是 CoT 也没有解决 Allen 关系的所有问题 (表 1) ,这表明比较区间在概念上与执行简单的加法不同。
它们为什么会失败?
研究人员对模型如何搞砸进行了定性分析。这不仅仅是随机猜测;错误是有规律的。

表 12 展示了一些令人尴尬的失败案例:
- 案例 1 (GPT-4o-mini): 模型正确识别了年份,但未能通过
Finishes关系的逻辑检查。 - 案例 4 (Mistral-7B): 一个典型的计算错误。模型试图将持续时间加到开始年份上,但算错了。
- 案例 6 (Mixtral-8x7B): 过度复杂化。模型被问及一个从 1555 年开始每 6 年发生一次的事件是否在 1561 年发生。它试图用 1561 除以 6 (不正确的逻辑) ,而不是简单地将 6 加到开始年份。它产生了幻觉,认为数学上算不通。
这些错误凸显了 LLMs 的脆弱性。它们可以说得“头头是道”,但在逻辑上却语无伦次。
讨论与结论
ChronoSense 论文作为一个至关重要的现实检验。虽然我们习惯了 LLMs 通过律师资格考试或写诗,但它们对基本时间概念 (我们每天用来组织生活的概念) 的掌握却是摇摇欲坠的。
关键要点
- 指令遵循是瓶颈: 许多模型失败仅仅是因为它们无法坚持
True/False的格式。这使得它们对于期望结构化输出的自动化系统来说不可靠。 - 记忆优于逻辑: “抽象”设置中的性能下降证明,模型依赖于其训练数据的事实知识,而不是纯粹的推理。它们知道“二战”是一个发生在其他事件之后的大事件,但它们很难纯粹从数值上将“事件 A (1939-1945)”与“事件 B (1863-1875)”进行比较。
- 提示很重要: 思维链对于任何涉及日期和数字的任务都至关重要。如果你正在构建一个使用 LLMs 处理时间线的应用程序,你必须强制模型展示其工作过程。
未来影响
作者指出,这些限制对于下游应用至关重要。
- 法律 AI: 审查案件档案的 AI 可能会误解事件的顺序,混淆
Overlaps和During,从而可能改变犯罪叙述。 - 历史分析: 旨在自动生成时间线的工具可能会产生错误的连接或搞错事件顺序。
ChronoSense 通过确切指出基础中的裂缝在哪里,推动了该领域的发展。通过关注 13 个 Allen 区间,作者为未来的模型提供了路线图。我们不仅需要知道更多事实的模型;我们需要理解这些事实相对于彼此是何时发生的模型。在那之前,我们可能还是得自己检查日期。
](https://deep-paper.org/en/paper/2501.03040/images/cover.png)