我们在沟通时,很少会把意思完全直白地表达出来。我们依赖听者去填补空白。如果有人说: “新费率将于 2 月 15 日支付,”紧接着说: “登记日期尚未确定,”人类能立刻理解其中的联系。这里存在冲突: 支付日期已定,但必要的登记日期却没定。我们推断出一种 让步 (Concession) 关系 (例如“然而”) 。
在自然语言处理 (NLP) 中,这种推断未写明联系的能力被称为 隐式语篇关系识别 (Implicit Discourse Relation Recognition, IDRR) 。 这项任务出了名地难,因为连接词 (如“然而”、“因为”或“因此”) 是缺失的。
最近一篇题为 “Using Subtext to Enhance Generative IDRR” (利用潜台词增强生成式 IDRR) 的研究论文提出了一个迷人的解决方案: 如果文本没有明确说明联系,我们为什么不强迫大型语言模型 (LLM) 写出“潜台词”——即隐喻或隐藏的含义——并利用 它 来解决问题呢?
在这篇文章中,我们将拆解这篇论文,探索研究人员如何构建一个 基于潜台词的置信度诊断双通道网络 (Subtext-based Confidence-diagnosed Dual-channel Network, SCDN) 来显著提高机器理解隐式关系的方式。
挑战: 隐式语篇关系识别
IDRR 的任务是在缺乏中间连接词的情况下,确定两个论元 (Arg1 和 Arg2) 之间的语义关系。
考虑引言中提到的例子:
- Arg1: “The new rate will be payable Feb. 15.” (新费率将于 2 月 15 日支付。)
- Arg2: “A record date hasn’t been set.” (登记日期尚未确定。)
- 目标关系: 让步 (Concession,暗示“但是”或“然而”) 。
传统的模型,例如基于 RoBERTa 或旧神经网络的模型,试图将 Arg1 和 Arg2 的语义特征直接映射到一个标签上。然而,这些模型往往很吃力,因为它们局限于表层文本。它们错过了人类能够毫不费力捕捉到的隐含“氛围”或逻辑跳跃。
研究人员认为,缺失的一环是 潜台词 (subtext) 。 上述例子的潜台词可能是: “费率本应早点记录,虽然实际上并没有。” 如果模型能生成这段潜台词,识别“让步”关系就变得容易多了,因为潜台词让冲突变得显而易见。
解决方案: SCDN 架构
研究人员引入了一个名为 SCDN 的框架。其核心理念既简单又稳健: 利用 LLM 生成潜台词,但——这是关键所在——不要盲目信任它。潜台词可能是模型产生的幻觉或与主题不相关的。因此,系统需要一种机制来决定何时依赖潜台词,何时忽略它。
该架构由三个不同的 LLM 组件和一个诊断模块组成。

如图 1 所示,该流程的运作方式如下:
- \(\mathcal{M}_\alpha\) (潜台词生成器) : 该模型观察论元并生成隐藏的潜台词 (图中标记为 Subtext) 。
- \(\mathcal{M}_\beta\) (直接推理模型) : 该模型 仅 基于原始论元尝试预测关系 (\(R_\beta\)) 。这代表了做 IDRR 的“标准”方式。
- \(\mathcal{M}_\lambda\) (潜台词增强模型) : 该模型结合论元 加上 生成的潜台词来预测关系 (\(R_\lambda\)) 。
- 诊断器 (Diagnoser) : 该组件充当把关人。它观察 \(\mathcal{M}_\beta\) 的置信度。如果 \(\mathcal{M}_\beta\) 非常自信,系统就会忽略潜台词路径 (因为这可能会引入噪音) 。如果 \(\mathcal{M}_\beta\) 不确定,系统则回退到潜台词增强的预测 \(R_\lambda\)。
1. 生成潜台词 (\(\mathcal{M}_\alpha\))
作者面临的第一个挑战是缺乏训练数据。像宾州语篇树库 (PDTB) 这样的标准数据集提供了论元和关系,但没有提供“标准答案 (ground truth) ”潜台词。
为了解决这个问题,他们采用了 知识蒸馏 (Knowledge Distillation) 。
- 教师 (Teacher) : 他们使用强大的 GPT-3.5-turbo 模型,通过询问“隐含意义是什么?”的提示词,为训练数据生成潜台词。
- 学生 (Student) : 他们训练 LLaMA3-8B-Instruct (\(\mathcal{M}_\alpha\)) 来模仿 GPT-3.5 的潜台词生成。
这使得系统可以在本地使用更小、更高效的 LLaMA3 模型运行,同时保留 GPT-3.5 的部分推理能力。
2. 双通道 (\(\mathcal{M}_\beta\) 和 \(\mathcal{M}_\lambda\))
系统利用两个并行的推理通道,均由 LLaMA3-8B-Instruct 驱动。
通道 1: 非潜台词 (Out-of-Subtext, \(\mathcal{M}_\beta\)) 这是基准通道。它将输入格式化为问答 (QA) 任务:
“论元之间的关系是什么: [Arg1] 和 [Arg2]?”
通道 2: 含潜台词 (In-Subtext, \(\mathcal{M}_\lambda\)) 该通道利用生成器的输出。它将输入格式化为:
“给定潜台词,论元之间的关系是什么: [Arg1], [Arg2], 和 [Subtext]?”
假设是: 如果生成的潜台词质量很高,\(\mathcal{M}_\lambda\) 将在关系微妙的困难案例上表现更好。
3. 置信度诊断器
这是论文中技术上最有趣的部分。你可能会问: 为什么不直接一直使用潜台词呢?
答案是 幻觉 (hallucination) 。 LLM 可能会生成听起来合理但实际上错误或不相关的潜台词。如果两个句子之间的关系显而易见,强迫模型考虑一个潜在的噪音潜台词实际上可能会使其困惑。
为了处理这个问题,作者实现了一个 置信度诊断器 (Confidence Diagnoser) 。 它评估直接模型 (\(\mathcal{M}_\beta\)) 的可靠性。如果直接模型足够自信,就采纳它的预测。如果不够,系统则转而采纳潜台词模型 (\(\mathcal{M}_\lambda\)) 。
如何衡量置信度? 置信度分数 \(C\) 计算为模型生成的关于关系标签的所有 token 的平均对数概率。

这里,\(t_i\) 代表预测的关系标签 \(R_\beta\) 中的 token。模型计算每个 token 的非归一化概率 (逻辑函数) 。
阈值策略 系统将此置信度分数 \(C\) 与预先确定的阈值 \(\theta\) 进行比较。
- 如果 \(C > \theta\): 信任标准模型。结果 = \(R_\beta\)。
- 如果 \(C \le \theta\): 标准模型不确定。结果 = \(R_\lambda\)。
至关重要的是,作者发现单一阈值并不适用于所有关系类型 (比较、权变、扩展、时间) ,因为不同的词具有不同的概率分布。因此,他们为每种关系类型计算了一个特定的阈值 \(\theta_T\)。
为了找到最佳阈值,他们分析了在训练集上一系列潜在阈值的准确率。

他们绘制了准确率曲线,以可视化置信度的“最佳点”在哪里。

在图 2 中,红点表示最佳阈值。你可以看到不同关系的不同行为。例如,“权变 (Contingency) ” (b) 在置信度阈值变得非常激进之前一直保持高准确率,而“时间 (Temporal) ” (d) 关系则显示出更急剧的下降,表明对于该类别,高置信度更难达到或与准确率的相关性不同。
实验结果
研究人员在该任务的两个标准基准上测试了 SCDN: PDTB-2.0 和 PDTB-3.0 。 他们将自己的方法与各种基线进行了比较,包括:
- 仅解码器 (Decoder-only) 模型: ChatGPT, PIDRA。
- 仅编码器 (Encoder-only) 模型: 基于 RoBERTa 的方法 (FCL, CP-KD) 。
- 基于 T5 的模型: DiscoPrompt, IICOT。
主要性能
SCDN 取得了比之前的仅解码器模型和基于 T5 的模型更高的 F1 分数。虽然它没有严格超越最好的仅编码器 (RoBERTa) 模型——这可能归因于生成式 LLM 固有的幻觉风险——但它显著缩小了差距,并为 IDRR 的生成式方法树立了新标准。
消融实验: 潜台词有效吗?
最关键的问题是,潜台词机制是否真的推动了性能提升,还是说 LLaMA3 本身就是一个好模型。表 2 中的消融实验清楚地分解了这一点。

- Out-of-subtext (非潜台词) : 这是 LLaMA3 单独运作。它在 PDTB 3.0 上得分为 70.71。
- In-subtext (含潜台词) : 该模型 总是 使用潜台词。它得分为 72.79。这证明拥有潜台词通常比没有好。
- SCDN: 这是使用诊断器的组合模型。它得分为 73.33 。
这一结果证实了假设: 潜台词有帮助,但通过诊断器选择性地使用潜台词帮助更大。
潜台词生成器的影响
潜台词的质量很关键。研究人员比较了直接使用 GPT-3.5 与使用经过蒸馏和未经蒸馏的 LLaMA3。

表 3 揭示了一个有趣的发现。
- GPT-3.5-turbo (教师) 在生成潜台词时得分为 71.55。
- 未经蒸馏的 LLaMA3 得分较低 (71.07) ,表明它天生不擅长寻找隐含意义。
- 经过完整蒸馏的 LLaMA3 得分 72.79 , 实际上超过了它的老师 (GPT-3.5) 。
这种“青出于蓝而胜于蓝”的效果之所以发生,可能是因为 LLaMA3 在蒸馏过程中针对训练数据的分布进行了专门优化,使得其生成的潜台词对于下游分类器来说更加一致。
提示工程很重要
如何向 LLM 索取潜台词?事实证明,提示词的措辞至关重要。作者测试了三种变体:
- P1: 简单的问 + 答。
- P2: 使用同义词 (将“subtext”替换为“implicit meaning”) 。
- P3: 一个复杂的思维链 (Chain-of-Thought) 提示,首先询问“是否存在潜台词”。

令人惊讶的是,更复杂的提示 (P3) 实际上 损害 了性能 (表 4 仅显示了 P1 和 P2,但论文正文详细说明了 P3 的失败) 。研究人员发现 P3 导致模型过于保守,经常不生成任何潜台词。P2 (使用同义词) 产生了最好的结果,证明对于这一特定任务,直接但语义清晰的提示效果最好。
结论与启示
这篇论文为 SCDN 提出了令人信服的理由,这是一种通过将隐式信息显式化来模拟人类直觉的方法。通过生成潜台词,模型架起了断开连接的论元之间的桥梁。然而,通过使用置信度诊断器,它也承认了 AI 的直觉 (幻觉) 并非总是可靠的。
关键要点:
- 潜台词即证据: 隐藏的含义可以被生成并用作分类的具体证据。
- 双通道处理: 拥有两个“专家”——一个字面派和一个解读派——并由一个管理者 (诊断器) 来决定听谁的,通常效果更好。
- 蒸馏功效: 较小的模型 (LLaMA3) 可以从较大的模型 (GPT-3.5) 那里学会生成高质量的潜台词,并最终在特定的下游任务中超越老师。
作者指出,未来的工作将研究 默认潜台词 (default subtexts) ——即源于常识而非仅源于所提供文本的含义。这将使 IDRR 从二元论元分析转向三元组结构 (Arg1, Arg2, 常识) ,有可能解锁更深层次的文本理解。
](https://deep-paper.org/en/paper/file-2397/images/cover.png)