语言很少是一条平坦的直线。当我们讲故事、写文章或进行长谈时,我们会自然地改变词语的复杂性和不可预测性。有时我们简练而密集;有时我们则重复且详尽。
几十年来,心理语言学中一个名为统一信息密度 (Uniform Information Density, UID) 的主流理论认为,说话者会下意识地追求相反的目标: 完全均匀的信息分布。其核心思想是,为了高效沟通,我们不应一次性用过多的信息压倒听众,也不应以过少的信息让听众感到厌烦。
但是,如果你观察一本小说或一篇新闻文章的信息含量图表,它看起来一点也不像一条直线。它看起来像山脉——充满了高峰和低谷。
在苏黎世联邦理工学院 (ETH Zürich) 的一篇题为*《惊喜!统一信息密度并非故事的全貌 (Surprise! Uniform Information Density Isn’t the Whole Story)》*的精彩论文中,研究人员提出了一种理解这些波动的新方法。他们提出了结构化语境假说 (Structured Context Hypothesis) , 认为信息流的“节奏”并非随机噪声。相反,它是由语篇本身的层级结构决定的——从段落层面一直到从句之间深层的修辞关系。
在这篇文章中,我们将剖析这项研究,探讨如何测量“惊异度 (surprisal)”,并发现我们论证的隐藏架构是如何塑造信息流的。
基线: 惊异度与均匀性
要理解研究人员为何提出新的假设,我们首先需要理解他们分析的指标: 惊异度 (Surprisal) 。
在信息论中,一个词的“信息量”通常通过它在特定语境下的不可预测程度来衡量。如果你读到短语 “The cat sat on the…” (猫坐在……上) ,单词 “mat” (垫子) 的惊异度非常低 (信息量也很低) ,因为你预期会出现这个词。然而,如果出现单词 “photosynthesis” (光合作用) ,惊异度就会极高。
在数学上,我们将香农惊异度定义为一单元 (\(u_t\)) 在给定前文语境 (\(u_{ 该指标假定处理一个词的难度与其不可预测性直接相关。 统一信息密度 (UID) 假说将语言交流视为数字信号在噪声信道 (如电线) 中的传输。为了在不产生错误 (误解) 的情况下最大化效率,你应该以接近信道容量的恒定速率发送数据。 如果 UID 是一条硬性规则,那么你说的每个词都将增加大致相同数量的新信息。当概念复杂时,说话者会使用更长的词或更多填充词;当概念简单时,则使用更短、更密集的词,从而有效地平滑“信息轮廓”。 虽然 UID 在单个句子或选词层面表现良好,但在长篇文本的宏观视角下却无法解释。当我们分析整个文档时,信息速率波动巨大。 请看下面的图表。这是《华尔街日报》一篇文章的“信息轮廓”。 蓝线代表由语言模型计算出的文档惊异度 (信息内容) 。它是锯齿状且不稳定的。即使我们使用移动平均 (绿线) 对其进行平滑处理,明显的波浪和趋势依然存在。 这篇论文的作者认为,这些波动不仅仅是“理论噪声”。它们是一个特性,而不是一个漏洞。他们提出,我们会根据我们在语篇层级结构中的位置来调节信息速率。 这篇论文的核心贡献是结构化语境假说 。 研究人员认为,语言生成受到除保持信息恒定之外的其他功能性压力的影响。说话者和作者将思想组织成层级结构——段落内的论点,章节内的段落,以及句子内的从句。 该假说指出: 语篇的信息轮廓 (部分) 由其组成语篇单元的层级结构决定。 为了验证这一点,研究人员比较了两种看待文本结构的方式: 虽然我们熟悉散文结构 (我们在小学就学过段落) ,但 RST 需要更多解释。RST 将文本视为关系树。 在 RST 树中,文本被分解为基本语篇单元 (Elementary Discourse Units, EDUs) , 通常是从句。这些单元通过阐述 (Elaboration)、对比 (Contrast) 或 归属 (Attribution) 等修辞关系连接。关键在于,RST 区分了: 以下是单个句子的 RST 树示例: 在这个例子中,短语 “That is in part because of the effect” 作为一个中心锚点。从句 “she said” 是一个归属 (告诉我们是谁说的) ,而短语 “of having to average…” 是一个阐述 (给我们更多细节) 。 研究人员假设,这种深层的递归结构比简单的段落分隔更能预测信息流。 为了证明结构决定信息流,作者建立了一个回归分析。他们的目标是观察添加结构数据是否能让模型比基线模型更好地预测下一个词的“惊异度”。 他们使用强大的大型语言模型 (LLMs,如 Llama-2 和 Mistral) 计算了《华尔街日报》 (英语) 和专门的西班牙语语料库中文本的“真实”惊异度。 他们研究了几种惊异度的变体: 全局 (文档) 惊异度: 给定整个前文文档的情况下,一个词的惊异度。
移动平均: 为了平滑局部噪声 (例如 “the” 和 “cat” 之间的区别) ,他们计算了 3、5 和 7 个 Token 窗口的惊异度平均值。 点互信息 (PMI): 这衡量了语境实际提供了多少帮助。它是一个词单独出现的惊异度与知道语境后的惊异度之间的差值。
这是论文最具创造性的核心部分。如何将“树”结构转化为回归模型可以使用的数字?作者设计了几个巧妙的特征: 相对位置: 该词在段落或句子中的位置在哪里? (例如,“句子的 50% 处”) 。 最近边界: 该词距离单元的开始或结束有多近? 层级位置: 该单元在整个文档树中嵌套得有多深? 转换预测因子 (解析动作) : 这是最复杂的预测因子。他们模拟了一个解析器遍历语篇树 (自顶向下、自底向上或左角移动) ,并计算到达每个词所需的“压栈 (Push)”和“出栈 (Pop)”操作数。 下图展示了这些解析策略。“出栈” (向树上方移动) 或“压栈” (向下方移动) 的数量充当了通向特定单词的结构复杂性的代理指标。 下表总结了实验中使用的广泛变量列表。“基线 (Baseline)”预测因子仅为单词的长度和前一个词的惊异度——我们已经知道这些因素会影响可预测性。问题是: 结构变量是否增加了新的东西? 研究人员运行了贝叶斯线性回归,以查看哪些特征最能预测文本的实际信息轮廓。他们通过 \(\Delta\) MSE 来衡量成功——即均方误差相对于基线的减少量。下图中的负条形意味着模型变得更好 (误差更低) 。 以下是他们的发现。 第一个主要发现是,知道一个词在语篇单元中的位置对预测其信息含量有显著帮助。 在下表 (图 4) 中,请看橙色条形 (“Relative position”) 。在英语和西班牙语中,相对位置在几乎所有指标上都提供了巨大的预测能力提升。这证实了信息不是均匀的;它是随着我们在句子或段落中移动而系统性演变的。 “层级位置 (Hierarchical position)” (图 4 中的绿色条形) 也表现出色,特别是对于西班牙语文档惊异度。这表明句子在整体论证结构中的“深度”会影响其信息密度。 有趣的是,“解析转换 (Parsing transitions)” (红色条形) ——即树遍历步骤的复杂性度量——通常是最弱的预测因子。虽然它们仍然比基线有帮助,但简单的位置指标更有效。 终极对决发生在两种结构类型之间: RST (深度语篇) 与 散文 (段落/句子) 。 RST 复杂的语言树真的比标准写作习惯能解释更多东西吗? 是的。 下表 (图 5) 比较了英语数据中 RST 预测因子与散文结构 (PS) 预测因子的表现。 请注意,对于 文档惊异度 (Document surprisal) (顶部集群) ,RST 预测因子 (橙/绿/红) 通常显示出比散文结构对应物 (浅色条形) 更强的负值 (更好的性能) 。“RST all”模型 (最深橙色) 是明显的赢家。 这表明文本“隐藏”的修辞结构——一个从句是解释、对比还是总结——比简单地开始一个新段落更严格地调节着信息流。 研究人员还在西班牙语语料库上验证了他们的发现。如图 6 所示,趋势非常相似。RST 结构继续优于散文结构,这表明这种“结构化语境”现象不仅仅是英语的特性——它可能反映了人类在西方书面语言中组织信息的某种基本属性。 数据证明信息密度随着语篇结构的节奏而波动。但为什么呢?如果 UID 表明效率为王,我们为什么要容忍这些高峰和低谷? 作者提出了几个超出简单效率范围的令人信服的理论原因: “统一信息密度”假说一直是语言学中的一盏明灯,解释了为什么我们会缩短常用词并扩展生僻词。然而,这项研究表明,UID 只是一个基线,而非全貌。 通过引入结构化语境假说 , 本文证明了文本不是单词的平坦序列。它是一个层级结构,一棵逻辑与叙事的树。惊异度的“轮廓”——信息流的起伏——映射在这棵树上。 对于自然语言处理 (NLP) 和语言学的学生来说,结论很明确: 在对长篇文本进行建模时,我们不能忽视语篇结构。我们不仅是在预测下一个 Token;我们是在嵌套论证的景观中导航,我们在层级中的位置决定了信息的流动。 下次当你阅读小说,感受到高潮时节奏加快,或在描写段落时节奏变慢,你并不是在凭空想象。你正在体验由故事隐藏结构精心调节的惊异度轮廓。
UID 假说
问题: 现实是崎岖不平的

结构化语境假说
理解修辞结构理论 (RST)

方法论: 如何预测惊异度
1. 测量信息 (因变量)


2. 预测因子 (自变量)

变量汇总

实验与结果
发现 1: 位置很重要

发现 2: 层级是关键
发现 3: RST 优于散文结构

发现 4: 跨语言的一致性


为什么会发生这种情况?
结论: 迈向文本的三维视角
](https://deep-paper.org/en/paper/file-3685/images/cover.png)