引言

想象一下，你要求一个大型语言模型 (LLM) 将一份复杂的财务报告总结成一张整洁易读的表格。模型生成了一个包含数字和表头的网格。乍一看，它看起来很完美。列对齐整齐，格式清晰，表头看起来也很专业。

但它真的好吗？

在自然语言处理 (NLP) 领域，我们在生成文本方面已经做得非常出色。然而，从非结构化文本生成结构化数据——比如表格——却是完全另一回事。更重要的是, 评估生成的表格是否准确是一个出了名的难题。

如果 AI 生成的表格中“收入”和“利润”两列互换了，标准的评估指标可能无法捕捉到这个错误的严重性。反之，如果 AI 生成了一个完美的表格，但使用了“Q1 收益”作为表头，而不是“第一季度收入”，尽管含义完全相同，传统指标可能会因为与参考标准不完全匹配而惩罚它。

这就引出了一篇引人入胜的论文，题为 “Is This a Bad Table?” (这是一张糟糕的表格吗？) , 由 Adobe Research 的研究人员撰写。他们认为我们一直以来对表格的评判方式都是错误的。他们提出了一种新方法 TABEVAL , 该方法不再将表格视为文本网格，而是将其视为事实的集合。

在这篇文章中，我们将详细剖析为什么评估表格如此困难，TABEVAL 如何使用“表格展开 (Table Unrolling) ”来解决这个问题，以及这对未来的文档生成意味着什么。

现有指标的问题

要理解这篇论文的创新之处，我们首先需要了解目前是如何给 AI 生成的表格打分的。

大多数“文本到表格 (Text-to-Table) ”系统使用 Exact Match (精确匹配) 或 BERTScore 等指标进行评估。

Exact Match 非常死板。它检查生成表格中的单元格值是否与参考表格完全相同。
BERTScore 稍微灵活一些；它使用嵌入 (embeddings) 来查看单词在语义上是否相似。

然而，这些指标有一个致命的缺陷: 它们通常孤立地评估单元格或行，或者过于依赖与参考标准的结构布局匹配。

考虑一张关于选举的“参考表格”。现在想象 AI 生成了一张“预测表格”。

好但被惩罚的表格: AI 生成了正确的数据，但改变了列的顺序或使用了表头的同义词 (例如，“总选票”与“票数”) 。传统指标通常会将其标记为失败，因为结构与参考不一致。
坏但被奖励的表格: AI 照搬了参考表格中的确切措辞，但把它们放错了单元格 (例如，交换了两名候选人的票数) 。因为内容是相似的，像 BERTScore 这样的指标可能会给它很高的评分，却没有意识到事实关系 (谁得到了多少票) 现在是错误的。

研究人员强调，我们需要一种能捕捉语义 (含义) 而不仅仅是句法 (结构) 的指标。

解决方案: TABEVAL

这篇论文的核心贡献是 TABEVAL , 一种新的评估策略。其直觉简单而强大: 表格只是展示事实列表的一种紧凑方式。要判断一张表格，我们不应该比较网格，而应该比较其中包含的事实列表。

该过程主要分为两个阶段，如下图所示。

图 1: 使用 TalUnroll 提示词通过 LLM 将表格展开，并使用 NLI 对获得的陈述进行评估。

如图 1 所示，该流程从原始表格 (左侧) 转变为陈述列表 (中间) ，最后得出分数 (右侧) 。让我们分解这些阶段。

第一阶段: 表格展开 (TabUnroll)

如果两张表格的布局不同，你无法轻易比较它们。为了解决这个问题，作者提出了 TabUnroll 。这是一种提示策略，使用 LLM (特别是通过思维链提示) 将表格“展开”成一系列原子自然语言陈述。

LLM 如何知道该怎么做？作者用一个特定的模式引导模型:

识别表头和行: 模型首先解析结构。
寻找主键: 模型寻找行的“锚点”——唯一标识该行的值 (例如“候选人姓名”或“年份”) 。
构建原子陈述: 模型将主键与其他列的值结合起来，创建简单的句子。

例如，看图 1 中的表格:

模型不仅仅看到“Democratic”下方的单元格“448,143”，而是生成了陈述: *“Brad Henry received 448,143 votes.” (Brad Henry 获得了 448,143 张选票。) *
它创建了另一个陈述: *“Brad Henry is a candidate from the Democratic Party.” (Brad Henry 是来自民主党的候选人。) *

这将结构对象 (表格) 转换为语义对象 (陈述列表) 。这创造了一个公平的竞争环境，列的布局不再重要——只有信息才是关键。

第二阶段: 基于蕴含的评分

一旦参考表格 (基准真值) 和预测表格 (AI 生成) 都被展开成陈述列表，问题就转变了。我们现在需要比较列表 A 和列表 B。

研究人员使用自然语言推理 (NLI) 来测量蕴含 (Entailment) 。蕴含提出的问题是: 陈述 A 的真实性是否保证了陈述 B 的真实性？

他们计算了三个关键指标:

1. 精确率 (正确性)

精确率 (Precision) 衡量预测表格中有多少信息根据参考表格是真实的。如果 AI 幻觉出了一个不在参考中的数字，精确率就会下降。

公式定义为:

精确率公式

用通俗的话说: 对于生成表格中的每一条陈述 (\(p_i\)) ，我们在参考表格中找到最能支持它的一条陈述 (\(g_j\)) 。我们对这些分数取平均值。

2. 召回率 (完整性)

召回率 (Recall) 衡量 AI 成功捕捉了多少参考信息。如果 AI 遗漏了一行或一列，召回率就会下降。

召回率公式

这里我们反过来做: 对于基准真值中的每一个事实，我们检查生成表格是否包含一条涵盖它的陈述。

3. F1 分数 (整体质量)

最后，他们计算 F1 分数，这是精确率和召回率的调和平均数，为表格的质量提供了一个单一的总结分数。

新标准: DescToTTo 数据集

为了验证他们的新指标，研究人员需要一个好的数据集。现有的文本到表格生成数据集有局限性:

WikiBio: 太简单 (主要是键值对) 。
Rotowire: 领域太特定 (严格限于体育统计) 。

作者介绍了 DESCTOTTO , 这是一个包含 1,250 个多样化维基百科表格及其配对文本描述的精选数据集。

表 1: 数据集的对比统计数据。

如上方的表 1 所示，DescToTTo (左列) 覆盖了类似于 WikiTableText 的“维基百科”领域，但具有明显更长的文本描述 (平均文本长度 155.94) ，并支持复杂的多行/多列结构，使其成为现代文档生成任务更现实的基准。

实验与结果

研究人员在四个数据集上将 TABEVAL 与标准指标 (Exact Match、Chrf 和 BERTScore) 进行了比较。他们还收集了人工评分，以查看哪种指标实际上与真实人类判断表格的方式一致。

结果发人深省。

可视化差异

最有力的证据来自观察标准指标失败但 TABEVAL 成功的例子。

图 2: 使用 GPT-4 和基于 BertScore (BS) 的 TABEVAL 生成的样本表格，包含精确率 (P)、召回率 (R) 和 F1。BS 会因列标题的变化而惩罚表格。表格 A 尽管细节正确，但 BS 得分较低，而我们的得分较高。表格 B 存在错误，TABEVAL 对其进行了适当的惩罚。表格 C 涵盖了参考表格的所有细节，BS 给出的精确率和召回率较低，但我们的得分较高。表格 D 缺少某些行，TABEVAL 的召回率降低。

让我们仔细观察 图 2 :

表格 A (右上) : 该表格包含正确的信息，但使用了与参考不同的列标题。
BERTScore (BS) 给出了很低的 F1 分数 37.7 , 因为标题字符串与参考不匹配。
TABEVAL 给出了很高的 F1 分数 99.5 。展开过程意识到事实是相同的，无论标题名称如何。
表格 B (左下) : 该表格有重大错误 (幻觉出的数字) 。
BERTScore 给出了危险的高 F1 分数 100 , 可能是因为表面 Token 与参考非常相似。
TABEVAL 正确识别了事实错误，将 F1 分数降至 81.5 。

这种视觉确认证明了 TABEVAL 正在像人类一样“阅读”表格，专注于内容的准确性而不是表面的呈现。

与人类判断的相关性

为了从统计上证明这一点，作者计算了自动指标与人工评分之间的相关性。相关性越高，意味着该指标越能代表人类的质量评估。

表 2: 我们的指标及现有指标与人工评分的相关性。Corct: 正确性，Compl: 完整性，Ovrl: 整体，L-IFT: LLaMa-2 IFT；O-C: 使用 Claude 展开的指标；O-G: 使用 GPT-4 展开的指标。

表 2 显示了皮尔逊相关系数。标记为 O-C (我们使用 Claude) 和 O-G (我们使用 GPT-4) 的行在几乎所有类别中都始终优于基线 (BS, Chrf, E) 。

正确性 (Corct) : 查看 DescToTTo 列。像 BERTScore (BS) 这样的标准指标的相关性仅为 0.21 到 0.27 (对于 L-IFT 模型) 。TABEVAL 跃升至 0.39 , 这是一个显著的提升。
完整性 (Compl) : 这一趋势仍在继续，TABEVAL 与人类对表格是否“完整”的看法显示出更强的一致性。

模型性能比较

最后，该论文使用这些指标比较了不同的 AI 模型 (GPT-4, GPT-3.5, LLaMa-2) 在表格生成任务上的表现。

表 3: 使用各种指标的模型性能比较；O-C: 我们使用 Claude；O-G: 我们使用 GPT-4。

表 3 凸显了一个重大差异。如果你使用标准指标 (BS) 查看 DescToTTo 数据集, GPT-4 的得分是 41.78 , 明显低于受监督的 L-IFT 模型( 63.01 )。

用户看到这个可能会想: “哇，LLaMa-2 在表格方面比 GPT-4 强多了！”

但看看 O-G (TABEVAL) 的分数。GPT-4 得分为 68.92 , 而 L-IFT 得分为 55.91 。 TABEVAL 揭示了 GPT-4 实际上生成的表格在语义上更优越，但因为它没有盲目复制训练数据的结构 (受监督模型如 L-IFT 会这样做) ，标准指标不公平地惩罚了它。

结论与启示

“Is This a Bad Table?” 中提出的研究为我们如何构建和评估生成式 AI 提供了重要的修正。

关键的结论是结构不等于语义 。随着我们越来越依赖 LLM 自动化文档创建，我们不能依赖那些仅仅检查正确的单词是否在正确的网格单元中的指标。我们需要能够验证所传达的信息是否真实的指标。

TABEVAL 通过以下方式提供了一条稳健的前进道路:

解构表格 为原子事实 (展开) 。
使用逻辑蕴含 (NLI) 验证事实 。
只要数据保持准确，就奖励结构的变化 。

这种方法确保了好的表格不会因为在标题上有创意而受到惩罚，坏的表格也不会仅仅因为看起来漂亮而得到奖励。对于进入 NLP 领域的学生和研究人员来说，这篇论文提醒我们: 永远要质疑你的评估指标。AI 的目标不仅仅是生成 Token；更是生成意义。

引言#

现有指标的问题#

解决方案: TABEVAL#

第一阶段: 表格展开 (TabUnroll)#

第二阶段: 基于蕴含的评分#

1. 精确率 (正确性)#

2. 召回率 (完整性)#

3. F1 分数 (整体质量)#

新标准: DescToTTo 数据集#

实验与结果#

可视化差异#

与人类判断的相关性#

模型性能比较#

结论与启示#

引言