大型语言模型 (LLM) 已经精通写诗、生成代码和总结邮件。但是,如果你把一张原始股市数据的电子表格交给 LLM,问它: “这里面有什么故事?”,结果往往令人大跌眼镜。

虽然像 GPT-4 这样的模型在流畅度方面表现出色,但它们在数据叙事 (Data Narration) ——即将复杂的结构化数据转化为有意义的、分析性的故事——这一能力上仍然举步维艰。在商业世界中,这是一项至关重要的技能。仅仅说“股票 X 上涨了”是不够的;分析师需要解释趋势、找出原因并预测影响

今天,我们将深入探讨一篇名为 《DATATALES: A Benchmark for Real-World Intelligent Data Narration》 的研究论文。这项工作引入了一个新的、严格的基准测试,旨在测试 AI 是否真的能像金融分析师一样行事。我们将探讨该数据集是如何构建的、它所要求的复杂推理能力,以及为什么即使是最先进的模型目前也未能达到要求。

问题所在: 为何现有的基准测试不够用

在了解解决方案之前,我们需要了解该领域的空白。AI 领域有一个名为“数据到文本生成 (Data-to-Text Generation) ”的子领域。这里已经有几个基准测试,例如:

  • RotoWire: 根据技术统计数据生成篮球比赛总结。
  • ToTTo: 根据维基百科表格生成句子。

然而,这些任务主要是描述性的。它们要求模型将单元格数值 (例如“得分: 24”) 转化为句子 (“球员 X 获得了 24 分”) 。它们很少需要深度的分析。

财务报告则不同。它需要分析复杂性 (Analytical Complexity) 。 一份好的财务报告不仅仅是读取数字;它需要综合这些数字来发现洞察。如下例所示,一份好的报告涉及历史参考 (“自 11 月以来”) 、趋势分析 (“20 个基点的波动”) 以及因果推理 (“投资者重新评估加息押注”) 。

图 1: DATATALES 示例,包含一份报告和涉及 28 个股市实体的表格数据,共 7 列。加粗文本表示提到的 6 个实体。历史参考涵盖了月份 (“自 11 月以来”) 、星期 (“在周五”) 和天数 (“连续第七个交易日”) 的时间段,如斜体所示。蓝色文本描述了分析,例如趋势 (“20 个基点的波动”) 、因果关系 (“投资者重新评估加息押注”) 和预测分析 (“预计下一次增加 25 个基点至 4.25%”) 。

研究人员意识到,现有的数据集太简单了,无法测试这种水平的推理能力。他们需要一个能反映现实世界金融分析难度的基准测试。于是, DATATALES 应运而生。

DATATALES 简介

DATATALES 是一个包含 4900 份金融市场报告及其对应表格数据的数据集。与以往可能专注于小型表格的数据集不同,DATATALES 将叙述与全面的金融代码数据配对。

它是如何构建的?

创建一个高质量的数据叙事数据集不仅仅是抓取网络数据那么简单。研究人员遵循了一个细致的三步流程:

  1. 市场报告收集: 他们从涵盖股票、国债、货币和商品的金融平台收集每日市场报告。
  2. 句子分类: 现实世界的报告通常包含数据中找不到的信息 (如政治新闻) 。为了确保基准测试确实是在测试数据推理能力,他们对文本进行了过滤。他们保留了关于“市场走势”和“预测”的句子 (这些基于数据) ,并删除了纯粹的外部背景信息。
  3. 数据提取: 他们将文本与从 Yahoo! Finance 等来源提取的实际历史市场数据 (开盘价、最高价、最低价、收盘价、成交量等) 进行对齐。

图 2: DATATALES 的收集步骤。

如图 2 所示,这个流程产生了一个“干净”的数据集,其中的文本严格基于附带表格中提供的数字。这允许进行公平的评估: 如果模型臆造了一个数字,那是推理的失败,而不是因为缺乏外部新闻的访问权限。

复杂度的飞跃

DATATALES 与前面提到的“简单”基准测试相比如何?下表突出了其中的差异。像 ToTTo 这样的数据集通常输入规模较小且不需要高级分析,而 DATATALES 涉及大规模输入,并要求因果关系、趋势分析和预测能力。

表 1: DATATALES 与 QuickInsight、TAT-QA、FinQA、ToTTo、RotoWire 和 SciGen 的比较,展示了与任务相关的统计数据、输入输出对的数量、领域、每个输入的表格数据大小、目标文本的平均 token 数以及涉及的高级分析类型。

核心方法: 金融洞察解构

这篇论文的核心在于分析洞察是如何生成的。研究人员不仅仅是堆砌数据;他们对撰写这些报告所需的推理类型进行了分类。他们确定了七个关键操作,从简单到复杂依次排列。

操作层级

  1. 简单查找 (Simple Lookup) : 检索特定数字 (例如,“股票收盘价为 100 美元”) 。
  2. 基础定量 (Basic Quantitative) :
  • *比较 (Comparison) : * “股票 A 的表现优于股票 B。”
  • *减法/变化率 (Subtraction/Rate of Change) : * 计算差额或涨跌百分比。
  1. 高级分析 (Advanced Analytical) :
  • *趋势分析 (Trend Analysis) : * 识别随时间变化的模式 (例如,“连续第 7 个交易日上涨”) 。
  • *因果分析 (Causal Analysis) : * 将市场变动与驱动因素联系起来 (例如,“科技股带动纳斯达克指数走高”) 。
  • *预测分析 (Predictive Analysis) : * 基于当前数据预测未来走势。

下面的流程图直观地展示了模型必须如何处理这些操作。为了生成一个简单的句子,模型可能需要执行查找,计算变化率,然后识别趋势。

图 3: 市场报告中涉及的分析操作示例。

时间维度

金融领域的一个独特挑战在于,“数据”不仅仅是今天发生的事情。它还包括昨天、上周和上个月发生的事情。

研究人员分析了报告中的“时间跨度 (Time Gap) ”——即报告日期与所引用数据之间的差异。如下面的直方图所示,虽然大多数引用是指向当天的,但仍有很大一部分是指向一周、一个月甚至一年前的数据。

图 4: 从引用数据日期到报告日期的时间跨度分布直方图。x 轴显示时间跨度,y 轴显示时间跨度在 (l) 表格数据引用实例中的百分比,以及 (r) 其累积百分比。

这意味着一个有能力的模型不能只看一行数据。它必须摄取大量的历史数据窗口 (例如,过去 7 天的股票价格) ,才能准确地叙述趋势。

实验: 让 LLM 接受测试

研究人员测试了几个主要模型,包括 Llama-2-7BLlama-2-13BGPT-3.5-TurboGPT-4 。 他们在两种设置下评估了模型:

  1. 零样本 (Zero-shot) : 要求模型在没有看到示例的情况下撰写报告。
  2. 微调 (Fine-tuned) : 专门在 DATATALES 训练集上训练 Llama 模型。

他们还改变了输入数据: 仅提供当天数据与提供1 周的历史数据。

如何给 AI 分析师打分?

评估文本生成是一件出了名的难事。作者使用了三个主要指标:

  1. 风格 (Style) : 使用 BLEU 分数来检查写作是否听起来专业 (类似人类参考文本) 。
  2. 洞察力 (Insightfulness) : 人类专家根据“影响力 (Impact) ” (主张的广度) 和“显著性 (Significance) ” (变化的大小) 对生成的报告进行评分。
  3. 事实性 (Factuality) : 这是最具创新性和最关键的指标。如果数字是错的,财务报告就毫无用处。

为了测试事实性,他们使用了一种“填空”方法。他们截取一份人类撰写的报告,在数字出现之前截断,并要求模型根据表格预测下一个 token。

图 5: 事实性评估过程示意图。我们向模型提供人类报告的前缀,并评估其预测的数值是否与专家提供的数值一致,从而评估内容的准确性。

结果: AI 的现实检验

结果描绘了当前 AI 在专业领域能力的一幅发人深省的画面。

1. 事实性较低

即使是最好的模型也难以弄对数字。如下面的细分图表所示,随着操作复杂度的增加,准确率显著下降。

  • 简单查找: 模型表现尚可,但不完美。
  • 减法/比较: 表现下降。
  • 趋势/因果分析: 准确率非常低 (通常低于 20-30%) 。

有趣的是,GPT-4 (由实心蓝色和橙色条表示) 通常优于开源的 Llama 模型,但即使是 GPT-4 在仅提供当天数据时,在“趋势分析”方面也很挣扎。

图 6: 不同设置下生成的样本句子中操作的准确性。绿色虚线代表完美参考,揭示了当前模型生成与熟练输出之间的差距。由于预测分析的不可验证性,未包含在内。

历史数据悖论: 你可能认为给模型提供 1 周的数据会提高准确性。令人惊讶的是,对于像“查找”这样的操作,增加历史数据往往会降低准确性。这可能是一个“大海捞针”的问题——模型需要扫描的数据越多,检索特定所需数字的难度就越大。

2. 洞察力与准确性的权衡

在“正确”和“有洞察力”之间存在权衡。

  • GPT-4 往往在事实准确性上更高,但在显著性方面的“洞察力”较低。它坚持使用安全的、描述性的陈述。
  • 微调后的 Llama 模型 产生了更多的事实幻觉,但生成的报告听起来更像专家分析,具有更高的“影响力”得分。

然而,提供历史数据确实提高了显著性得分。这证实了要撰写真正有意义的报告,模型需要访问历史背景,即使它们目前难以准确处理这些背景。

表 5: 分析句子的平均影响力和显著性得分,按整体洞察力排序。

如表 5 所示,涉及因果分析预测分析的句子被评为具有最高的影响力和显著性。这正是人类分析师最看重的洞察类型,也恰恰是当前 LLM 最挣扎的领域。

3. 风格很重要

最后,看写作风格 (表 6) ,微调带来了巨大的差异。与零样本 GPT 模型相比,微调后的 Llama 模型获得了高得多的 BLEU 分数,并使用了更正确的领域特定动词和实体。这表明,虽然 GPT-4 很聪明,但在没有具体指令的情况下,它并不能自然地使用“金融语言”。

表 6: 比较模型生成的报告与人类创建的报告所包含的动词和实体的 BLEU 分数和余弦相似度。此处结果为使用 1 周历史数据设置的生成结果。我们省略了当天数据设置的结果,因为它们显示出类似的模式。

结论与数据叙事的未来

DATATALES 基准测试表明,我们还没到可以盲目信任 LLM 充当金融分析师的地步。这项任务需要结合检索 (找到正确的数字) 、算术 (计算变化) 和逻辑 (推断因果) ——这种“三重威胁”即使对最先进的模型也是挑战。

作者将这一挑战形式化定义为一个映射函数:

\[ y = M ( T _ { i , j } | i \leq E _ { T } , j \leq D _ { T } ) \]

其中模型 \(M\) 必须基于跨越多个实体 \(E\) 和天数 \(D\) 的市场数据矩阵 \(T\) 生成叙述 \(y\)。

关键要点:

  1. 复杂性: 现实世界的数据叙事需要复杂的推理 (趋势、因果关系) ,而不仅仅是数据描述。
  2. 准确性差距: 模型在处理数字时会产生幻觉,特别是在执行数学运算或分析随时间变化的趋势时。
  3. 背景为王: 为了产生重要的洞察,模型需要历史数据,但在处理长上下文窗口的同时不丢失精度仍然是一个开放的挑战。

研究人员提出了有前景的前进道路,例如使用中间的“洞察推荐”系统 (在生成文本之前计算洞察) 或整合视觉数据。目前,DATATALES 为下一代智能数据代理提供了一个严格的测试场。