引言

在当前的人工智能时代,大型语言模型 (LLMs) 如 GPT-4 和 LLaMA 似乎成了应对各种问题的万能工具。从编写代码到分析法律文件,它们的泛化能力简直非凡。最近,这种兴奋感已经蔓延到了时间序列预测领域——即基于过去的数据预测未来数值的艺术。

其前提非常诱人: 如果一个 LLM 可以预测句子中的下一个单词,那它不也能预测序列中的下一个数字吗?这催生了“零样本预测 (Zero-Shot Forecasting) ”的概念,即使用预训练的 LLM 来预测股价、天气或能源消耗,而无需任何特定领域的训练。

然而,最近一篇题为 “Revisiting LLMs as Zero-Shot Time-Series Forecaster: Small Noise Can Break Large Models” (重访 LLM 作为零样本时间序列预测器: 微小噪声即可击溃大模型) 的研究论文给这股热潮泼了一盆冷水。研究人员将 LLM 与最先进的特定领域模型进行了严格的对比评估。他们的发现令人震惊: LLM 不仅难以匹配专用模型的准确性,甚至经常被那些几秒钟就能训练完成的简单线性模型所超越。

在这篇文章中,我们将解构这篇论文,了解为什么 LLM 在数值预测方面表现挣扎,探究 GPT-4 与简单线性回归之间的“大卫与歌利亚”之战,以及困扰基于 token (词元) 模型的根本问题: 对噪声的敏感性

背景: 零样本的承诺

时间序列预测传统上由专门设计用于处理数值序列的模型来处理。这些模型范围广泛,从 ARIMA 等统计方法到 PatchTST 或 iTransformer 等复杂的基于 Transformer 的架构。这些模型通常需要对历史数据进行训练,以学习该特定领域的模式 (季节性、趋势) 。

零样本预测试图绕过这个训练阶段。通过将数字序列转换为文本字符串 (例如,“12, 14, 16, …”) ,研究人员可以提示 (prompt) LLM 来“完成序列”。

如果有效,这将改变游戏规则。它将允许对新数据集进行即时预测,而无需从头开始训练新模型的计算成本和时间。但是,要成为一个可行的替代方案,它必须至少满足两个标准之一:

  1. 速度: 它必须比训练和部署特定模型更快。
  2. 准确性: 它必须更准确 (或至少相当) ,以证明其成本是合理的。

研究人员正是着手测试这这两个标准。

核心调查

为了评估 LLM 的真实有效性,作者将它们与两类竞争对手进行了比较:

  1. SoTA 特定领域模型:iTransformerPatchTST 这样的复杂深度学习模型。
  2. 单次样本 (Single-Shot) 线性模型: 极其简单的线性模型 (DLinear-S, RLinear-S) ,仅在提供给 LLM 的输入序列上进行训练。

引入“单次样本线性模型”是这项研究的关键部分。它确保了比较的公平性: 如果 LLM 只能看到最后的 100 个数据点来进行预测 (零样本) ,那么线性模型也被限制为只能从这同样的 100 个数据点中学习 (单次样本) 。

权衡: 准确性与效率

下图清晰地总结了这种比较的结果。

特定领域模型与 LLM 之间的 MAE 和推理时间比较。 图 1: (左) 平均绝对误差 (MAE) 比较。越低越好。特定领域模型通常优于 LLM。 (右) 对数刻度的时间成本。LLM 的推理速度明显更慢。

图 1 的关键结论:

  • 准确性 (左图) : 红星表示在“最后样本 (Last Sample) ” (评估 LLM 的标准方法) 上的表现。请注意,与 PatchTST 或简单的 DLinear-S 等模型相比,LLM (如 GPT-4 和 LLaMA) 始终显示出更高的错误率 (更高的 MAE) 。
  • 速度 (右图) : 速度上的差异是巨大的 (注意是对数刻度) 。LLM 推理的计算成本极其昂贵。事实上,灰色条形图显示,训练并运行一个特定领域模型的时间比从大型 LLM 获得单个预测的时间还要快。

这直接挑战了 LLM 用于实时预测的可行性。如果一个简单的线性模型既更准确又快几个数量级,那么使用 LLM 的理由就大大减少了。

单次样本线性模型策略

值得详细说明“单次样本”模型,因为它们是 LLM 未能击败的基准。作者设计了一种方法,仅使用输入序列通过滑动窗口方法来训练线性模型。

计算窗口数量 K 的方程。

如上式所示,可用的输入长度 (\(I\)) 被切成更小的训练窗口,以教导线性模型局部趋势。这使得简单的回归模型能够即时“学习”当前数据流的模式,有效地模仿了 LLM 的“零样本”能力,但依靠的是数学精度而非概率性文本生成。

阿喀琉斯之踵: 噪声敏感性

为什么拥有海量“世界知识”的 LLM 在预测数字方面会失败?研究人员确定了根本原因: 噪声

当模式完美时 (例如斐波那契数列) ,LLM 擅长模式匹配。然而,现实世界的数据——能源使用、交通流量、汇率——是混乱的。它包含“噪声”,这会产生微小的波动,掩盖真实的潜在信号。

确凿的证据

研究人员利用了一个包含干净数学波形的“函数数据集”,并添加了不同数量的噪声来测试鲁棒性。结果在视觉上非常惊人。

基于噪声水平的函数数据集性能变化。 图 2: 该图展示了引入噪声时 LLM 的灾难性失败。左侧顶部行显示了一个 Sigmoid 函数。在 0 噪声 (最左侧) 时,预测是完美的。添加微小噪声 (0.001,中间) 后,预测开始偏离。稍微增加噪声 (0.01,右侧) ,预测完全崩溃。

正如在图 2 中观察到的,LLM (在此测试中为 GPT-4) 在干净数据上表现完美。然而,仅添加标准差为 0.001 的高斯噪声就会导致误差激增。

图 2 右侧的条形图量化了这一点。随着噪声水平从 0.0 增加到 0.1,各种函数类型的平均绝对误差 (MAE) 飙升。这表明 LLM 实际上并不是通过理解数值趋势来“预测”;它们是在对 token 序列进行模式匹配。 当噪声破坏了确切的 token 序列时,模型检索正确后续内容的能力就会崩溃。

噪声的数学定义

为了严谨起见,作者针对鲁棒性文献中常见的三种特定噪声类型进行了测试:

  1. 恒定噪声 (Constant Noise) : 在数值上增加一个固定的偏差。 恒定噪声方程。

  2. 缺失噪声 (Missing Noise) : 数值完全丢失的情况。 缺失噪声方程。

  3. 高斯噪声 (Gaussian Noise) : 随机统计变化。 高斯噪声方程。

在所有情况下,虽然线性模型保持了鲁棒性 (因为它们可以通过噪声拟合出一条线) ,但 LLM 将噪声视为模式的一部分,导致了不稳定的预测。

我们能修复它吗?提示词和过滤器

自然地,人们可能会问: “我们不能仅仅使用更好的提示词吗?”或者“我们不能先过滤噪声吗?”论文探索了这两条途径。

1. 更好的提示工程

研究人员测试了标准提示策略 (如 LLMTime) 与更先进的技术,如思维链 (TS-CoT) (要求模型“一步一步地思考”趋势) 和上下文学习 (TS-InContext)

TS-CoT 和 TS-InContext 提示词示例。 图 4: 使用的提示词示例。即使有复杂的指令 (b) ,token 化的根本问题依然存在。

尽管采用了这些复杂的提示策略,性能提升仍然微乎其微。研究中的表 5 显示,虽然不同的提示词稍微改变了性能,但没有一个能缩小与简单线性模型的差距。

2. 增加上下文长度

也许模型只需要看到更多的数据就能忽略噪声?研究人员增加了输入序列的长度,希望 LLM 能学会平均化波动。

MAE 与输入长度的关系图。 图 3: 增加输入长度 (周期数) 显著改善了线性模型 (紫色虚线) 。然而,LLM (橙色、绿色、蓝色线) 显示出极小的改善,很快就进入了平台期。

图 3 说明了一个关键的局限性。当你给线性模型更多数据时 (在 x 轴上向右移动) ,其误差 (y 轴) 急剧下降,因为它有更多的点来拟合一条稳健的线。然而,LLM 难以有效地利用长数值上下文。它们的表现保持相对平坦,表明更长的上下文窗口并不能帮助它们区分信号和噪声。

实验结果: 最终裁决

论文最后对多个真实世界数据集进行了综合评估,包括电力、交通和天气数据。

定量结果

这些实验的总结虽然密集,但说明了一切。

五个数据集上的多变量预测结果。 图 12: 跨数据集的综合结果。条形的高度代表误差 (MAE) 。几乎在每个类别中,单次样本线性模型 (红/橙色条) 和特定领域模型 (灰色条) 都显著低于 LLM 方法。

图 12 中的数据强化了早期的发现。无论是处理 862 个通道的交通数据,还是 7 个通道的 ETTm2 (电力变压器温度) 数据,基于 LLM 的预测器通常都落后。

定性结果: 眼见为实

表格中的数字是一回事,但可视化实际的预测曲线让差异显而易见。

电力数据集: 电力数据集上的定性结果。 图 7: 黑线是真实值 (Ground Truth) 。紫线是单次样本线性模型 (RLinear-S) 。黄线是 LLMTime。请注意紫线如何紧紧跟随黑线,而黄线经常偏离或未能捕捉到幅度。

交通数据集: 交通数据集上的定性结果。 图 11: 交通数据具有高度周期性。线性模型 (紫色) 几乎完美地捕捉到了这种节奏。LLM (黄色) 在波峰和波谷的幅度上表现挣扎。

这些可视化突出了数值数据中的“幻觉”问题。LLM 生成了一个看起来像时间序列的序列 (它有起伏) ,但它未能将这种生成建立在输入数据的精确数学现实之上。

结论

论文 “Revisiting LLMs as Zero-Shot Time-Series Forecaster” 提供了一个至关重要的现实检验。虽然 LLM 是强大的推理引擎,但它们的架构——基于文本 token 化——本质上不适合精确、不容忍噪声的数值预测世界。

主要结论:

  1. 低效率: LLM 比特定领域模型慢几个数量级,且成本更高。
  2. 噪声敏感性: 几乎所有现实世界数据中都存在的微量噪声,会导致 LLM 产生不成比例的巨大误差。
  3. 简单致胜: 针对这一特定任务,即时训练的简单线性模型 (单次样本) 比 GPT-4 更快、更便宜且更准确。

未来之路: 作者建议,我们不应完全放弃将 LLM 用于时间序列,但我们应该放弃“零样本”的幻想。未来可能在于微调 (Fine-tuning) ——调整 LLM 的内部权重以更好地处理数值序列——而不是依赖模型从文本提示中“猜测”模式。在那之前,对于您的预测需求,标准的统计或线性模型仍然是冠军。