当我们阅读小说时,过程是非常直观的: 从左到右,从上到下,逐行阅读。但试想一下你是如何阅读收据、多栏排版的报纸或复杂的表单的。你可能会先扫描页眉,跳转到特定的表格,沿某一列向下读,然后直接跳到底部的总计栏。

这就是富视觉文档 (Visually-rich Documents, VrDs) 面临的挑战。在文档智能 (Document AI) 领域,理解“阅读顺序”至关重要。如果一个模型试图直接横跨页面阅读一份双栏文档 (跨越栏间距) ,得到的句子将是一堆乱码。

多年来,研究人员一直将阅读顺序预测 (ROP) 视为一个序列生成问题——试图将复杂的 2D 布局强行压入单一的 1D 排列 (列表) 中。在论文 “Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding” 中,研究人员指出这种方法存在根本性缺陷。他们提出了一种范式转变: 不将阅读顺序建模为序列,而是建模为排序关系 (Ordering Relations) (即图结构) 。

在这篇文章中,我们将剖析这篇论文,探讨为何旧的“序列”方法会失效,新的“基于关系”的方法是如何工作的,以及它如何显著提升信息提取和问答 (QA) 等下游任务的性能。

问题所在: 线性序列陷阱

目前最先进的模型通常将布局的阅读顺序定义为所有元素 (单词或文本段) 的排列。目标是找到一个覆盖文档中每个元素的序列 \(S = (e_1, e_2, ..., e_N)\)。

然而,复杂的文档很少只有一种正确的阅读顺序。

图 1: 重构布局阅读顺序的动机。在复杂的文档布局中,多种阅读顺序都是可接受的 (显示在前三行) ;因此,如果仅用单一序列表示,阅读顺序信息可能是不完整的。我们建议使用有向无环关系 (显示在最后一行,即有向无环图) 来表示布局元素之间“阅读中的直接后继”关系,从而确保传达完整的布局阅读顺序信息。

图 1 所示,考虑一个带有页眉和两栏内容的文档。人类可能会先读页眉,再读 A 栏,最后读 B 栏。另一个人可能会先读页眉,再读 B 栏,最后读 A 栏。这两种读法都是“正确”的,因为这两栏是相互独立的。如果我们强迫模型预测单一的线性序列,就会引入任意的偏差 (噪声) ,这并不能反映文档的语义结构。

此外,强行对表格 (既可以按行读也可以按列读) 或带有独立板块的表单施加线性序列,无法捕捉文档的空间逻辑。研究人员认为,单一的排列无法传达完整的阅读顺序信息。

解决方案: 阅读顺序即排序关系

为了解决这个问题,作者提出将阅读顺序建模为阅读中的直接后继关系 (Immediate Succession During Reading, ISDR)

他们不再问: “这个词在整个文档中排第几?”,而是问: “哪个元素紧跟在这个元素之后?”

这将数学公式从严格全序 (Strict Total Order) (一条线) 转变为有向无环关系 (Directed Acyclic Relation, DAR) 。 用图论的术语来说,文档变成了一个有向无环图 (DAG) ,其中节点是文本段,边代表阅读的流向。

为什么关系很重要

这种方法可以优雅地处理非线性布局。

图 3: 几个具有非线性阅读顺序的布局示例。为便于观察,标注是在区块级别绘制的。(a) 复杂布局包含多种可能的阅读顺序 (如图 1 所示) ;(b) 布局中的页眉、页脚和水印的阅读顺序与主体分离;(c) 布局中的表格既可以垂直阅读也可以水平阅读;(d) 间接阅读顺序关系也很重要,因为相关元素可能被其他内容隔开。

  • 设计布局 (图 3a): 多种有效的路径可以同时存在。
  • 独立元素 (图 3b): 页眉、页脚和水印通常不“跟随”正文——它们存在于自己独立的阅读空间中。图结构允许它们与主流程断开连接。
  • 表格 (图 3c): 表格中的一个单元格在逻辑上既可以通向右边的单元格,也可以通向下面的单元格。图结构允许一个节点拥有多个后继。

作者还引入了阅读中的广义后继关系 (Generalized Succession During Reading, GSDR) , 它是 ISDR 的传递闭包。ISDR 关注直接相邻的邻居,而 GSDR 捕捉任意两个元素之间的全局“前后”关系。

核心方法

研究人员引入了一个两阶段的方法:

  1. 预测: 一个预测阅读顺序关系的模型 (ROP) 。
  2. 增强: 一个利用这些关系来改进下游任务的管道 (RORE) 。

1. 阅读顺序预测 (ROP) 即关系提取

作者将 ROP 重构为关系提取任务。给定一个包含布局元素 (单词或片段) 及其边界框的文档 \(D\),目标是预测配对 \((i, j)\),其中元素 \(j\) 紧跟在元素 \(i\) 之后。

架构

他们使用了一个受全局指针网络 (Global Pointer Network) 启发的基线模型。它始于一个预训练文本-布局模型 (PTLM) ,例如 LayoutLMv3。

首先,他们提取文档中每个 token 的布局感知嵌入:

方程 1

这里,\(x\) 代表文本 token,\(b\) 代表边界框坐标。

由于一个布局元素 (如一个文本段) 可能包含多个 token,他们对 token 嵌入进行池化,以获得每个元素的单一向量 \(h_i\):

方程 2

全局指针网络

为了预测关系,他们不仅仅是对配对进行分类。他们使用全局指针机制来对元素 \(i\) 和元素 \(j\) 之间的关系进行评分。这涉及到将嵌入投影为查询 (query,\(q\)) 和键 (key,\(k\)) 表示:

方程 3

分数 \(s_{ij}\) 代表存在从 \(i\) 到 \(j\) 的阅读链接的可能性。

该模型使用一种专门设计的损失函数进行训练,旨在处理类别不平衡问题 (因为大多数单词对之间并没有连接) :

方程 4

在推理过程中,他们只需寻找分数大于零的配对:

方程 5

2. RORE 管道: 增强下游任务

最终目标不仅仅是预测阅读顺序,而是利用这种理解来完成实际工作,例如从收据中提取总金额或回答有关表单的问题。

作者提出了阅读顺序关系增强 (Reading-Order-Relation-Enhancing, RORE) 管道。

图 2: 阅读顺序关系增强管道 (右侧,绿色) 与用于通用文档处理的原始管道 (左侧,蓝色) 的对比。“RM” 表示马来西亚林吉特。

图 2 所示,传统管道 (蓝色) 将 OCR 结果直接输入任务模型。RORE 管道 (绿色) 增加了一个中间步骤: 它通过上文定义的 ROP 模型运行 OCR 结果,生成一个“阅读顺序矩阵”,然后将该矩阵输入到任务模型中。

阅读顺序矩阵

这种关系信息是如何输入神经网络的?他们将图连接转换为一个 \(n \times n\) 的二进制矩阵 (其中 \(n\) 是 token 的数量) 。

图 4: 阅读顺序关系信息被表示为一个 n * n 的二进制矩阵,以便在下游 VrD 任务中加以利用,其中 n 是输入文本 token 的数量。

如果 token A 连接到 token B,则矩阵中的对应单元格为 1。

关系感知注意力

标准 Transformer 使用自注意力机制,其中 token 根据语义相似性相互关注:

方程 10

作者修改了这个方程以注入阅读顺序知识。他们引入了关系感知注意力模块 (Relation-Aware Attention Module) 。 他们将二进制关系矩阵 (由可学习的权重 \(\lambda\) 缩放) 直接添加到注意力评分中:

方程 12

这里的 \(\rho_{ij}\) 来自二进制矩阵。这有效地告诉模型: “如果在视觉布局中 token \(j\) 紧跟在 token \(i\) 之后,请额外关注 token \(j\)。”

实验结果

为了评估这一新范式,作者创建了一个名为 ROOR (Reading Order as Ordering Relations) 的新基准数据集,该数据集基于现有的 EC-FUNSD 数据集,但重新标注了基于图的关系,而不是简单的序列。

1. 阅读顺序预测的性能

首先,基于关系的模型是否比旧的基于序列的模型效果更好?

表 1: 基线模型在阅读顺序关系预测上的性能。人类表现表明了两名标注者之间的一致性。

表 1 显示了巨大的提升。“LR”和“TPP”是以前基于序列的方法。所提出的方法 (LayoutLMv3-base/large 用作关系提取器) 在段落级 F1 分数上几乎翻了一番 (从 42.96 提升到 82.38) 。这证实了将阅读顺序建模为图比强行将其排成线要准确得多。

2. 增强下游任务 (IE 和 QA)

真正的考验在于这是否有助于模型更好地理解文档。作者在语义实体识别 (SER) 和实体链接 (EL) 上对此进行了测试。

表 2: LayoutLMv3 和 GeoLayoutLM 及其对应的 RORE 方法在 EC-FUNSD 上的性能。复现的结果标有 * (见附录 D) 。

表 2 证明,添加 RORE 管道全面提升了性能。对于实体链接 (EL) 的提升尤为显著,基础模型提升了超过 6%。这是合理的: 实体链接在很大程度上依赖于理解文档的逻辑流和结构 (例如,将“总计”标签链接到旁边的价格数值) ,而这正是阅读顺序关系所捕捉的内容。

他们还使用伪标签 (pseudo-labels) 将此扩展到了 FUNSD、CORD 和 SROIE 等通用基准测试中。这意味着他们没有这些数据集的真实阅读顺序;他们使用自己的 ROP 模型来猜测阅读顺序,然后使用这些猜测来训练下游模型。

表 3: 主流方法在三个 VrD-IE 基准上的性能。最好的结果用粗体标记。

表 3 所示,即使使用生成的 (伪) 阅读顺序关系,他们的方法 (RORE-GeoLayoutLM) 也能达到最先进的结果 (以粗体标记) 。这是一个重大发现: 这意味着我们可以利用在一个数据集上训练的 ROP 模型来增强对完全不同的数据集的文档理解,而无需人工标注。

案例研究: 眼见为实

可视化模型的预测有助于阐明为什么图方法更优越。

图 5: 所提出的阅读顺序预测模型的案例研究。每个箭头代表预测的段落之间的关系链接。

图 5 中,我们看到模型正在处理复杂的场景:

  • (a, b): 它正确地链接了空间上分离但属于同一内容的文本,同时忽略了页眉/页脚。
  • (f, g): 它正确地处理了表格,理解单元格与其邻居相关,而不是强行在整个页面上走“之”字形路径。

最后,让我们看看这如何影响最终输出。

图 6: 基线模型及其对应的阅读顺序关系增强变体在 VrD-SER、VrD-EL 和 VrD-QA 任务中的案例研究。实体用阴影标记,并用阴影颜色区分。实体链接用箭头标记。

图 6 展示了具体的修正。在视觉 QA 示例 (底行) 中,基线模型混淆了“3 Posters”的价格,选择了附近的数字 (\(15,000) 。而 RORE 模型在阅读顺序关系的引导下 (可能按行正确链接了项目及其价格) ,正确识别了数值 (\)27,000) 。

结论与启示

这篇论文强调了我们过去处理文档方式中一个微妙但关键的缺陷: 对线性性的假设。通过接受文档布局本质上是非线性的和类图的,作者做到了:

  1. 重新定义问题: 提出“阅读中的直接后继” (ISDR) 作为一种有向无环关系。
  2. 改进预测: 构建了一个远超基于序列的前辈模型的关系提取模型。
  3. 提升应用: 开发了 RORE 管道,证明显式的阅读顺序信息——即使是机器生成的——也能显著增强复杂信息提取和 QA 任务的性能。

对于 NLP 和计算机视觉领域的学生及从业者来说,这项工作表明“结构”与“内容”同样重要。在为富视觉数据构建模型时,我们必须为架构提供正确的归纳偏置——在本例中,即知识: 阅读是一个分支的、关系的过程,而不仅仅是一条直线。