为何法律 AI 需要规划: LexKeyPlan 介绍

人工智能正在重塑法律领域。从起草合同到总结案情摘要，大型语言模型 (LLM) 不仅通过了律师资格考试，还在以令人印象深刻的水平进行法规推理。然而，如果你是一名法学学生或法律从业者，你会知道在风险极高的情况下，仅仅“令人印象深刻”是不够的。在法律中，精准就是一切。

现代 LLM 的阿喀琉斯之踵是幻觉 (hallucination) 。模型可能会写出一段文笔优美、极具说服力的论证，但引用的却是一个不存在的案例，或者应用了一项十年前就被废除的法律原则。

为了解决这个问题，研究人员通常使用检索增强生成 (RAG) 。这项技术将 AI 连接到一个真实文档数据库，允许它在写作前“查阅”事实。但在长文本写作中，标准 RAG 的工作方式存在一个微妙但致命的缺陷: 它只向后看。 它利用已经写好的内容来查找文档，但这往往无法捕捉到模型接下来需要写什么。

在本文中，我们将深入探讨一篇引人入胜的新论文，题为 “LexKeyPlan: Planning with Keyphrases and Retrieval Augmentation for Legal Text Generation” (LexKeyPlan: 基于关键词规划与检索增强的法律文本生成) 。我们将探索这个新框架如何教会 AI 利用关键词“提前规划”，确保法律论证不仅连贯，而且基于正确的判例法事实。

问题所在: “后视镜”效应

要理解为什么 LexKeyPlan 是必要的，我们首先需要了解现有方法的局限性。

参数化知识的局限性

标准 LLM (如 GPT-4 或 Llama) 依赖于“参数化知识”——即训练期间存储在其权重中的信息。虽然它们记住了很多东西，但无法记住每一个判例法的细微差别，也无法获取最新的裁决。当它们不知道答案时，为了满足用户的提示，往往会编造一个。在法律领域，这是非常危险的。

标准 RAG 的短板

RAG 试图通过检索外部文档来解决这个问题。在典型的 RAG 文本生成设置中:

模型查看输入上下文 (目前已写的内容) 。
它使用该上下文作为搜索查询来查找相关文档。
它基于上下文和检索到的文档生成下一个句子。

这对回答简单问题很有效。但是，想象一下 AI 正在为欧洲人权法院 (ECHR) 起草一份复杂的判决书。

模型可能正在阅读关于一起抗议案件的“事实”部分。仅基于事实，RAG 系统可能会检索关于抗议的一般案例。但是，如果法律推理 (接下来要写的部分) 需要基于像“第 17 条下的仇恨言论排除”这样具体而微妙的原则呢？事实部分可能并不包含找到这些独特法律先例所需的特定关键词。

因为标准 RAG 依赖过去 (上下文) 来检索信息，它往往无法准确命中未来 (预期的回复) 所需的内容。这就像只看着后视镜开车一样。

解决方案: LexKeyPlan

来自慕尼黑工业大学的研究人员提出了 LexKeyPlan , 这是一个引入了预期规划阶段的新颖框架。

LexKeyPlan 并没有直接从上下文跳转到检索，而是让模型停下来问自己: “我接下来需要讨论哪些关键法律概念？”

三步框架

LexKeyPlan 将生成过程分为三个不同的步骤:

内容规划 (蓝图) : 模型分析输入上下文 (例如案件的事实) ，并生成一个关键词 (keyphrases) 列表。这些关键词代表了定义回复未来内容的法律概念或特定术语。这就是“前瞻性规划”。
检索 (搜索) : 系统不使用冗长且包含噪声的上下文作为搜索查询，而是使用生成的关键词 。这些关键词作为精确的搜索查询，从外部数据库中获取相关文档 (如先前的法院判决) 。
生成 (执行) : 最后，模型生成实际文本 (回复) 。它是基于三点生成的:

原始输入上下文。
生成的内容规划 (关键词) 。
检索到的文档。

通过在决定去哪里找信息之前明确规划要说什么，模型将其检索机制与预期的法律推理对齐。

为什么要用关键词？

你可能会问，为什么要用关键词？为什么不生成一个完整的句子作为计划？关键词作为一种高层抽象，信息密度大且噪声低。在法律领域，像*“margin of appreciation” (判断余地) 、“legitimate aim” (正当目的) 或“necessary in a democratic society” (民主社会所必需) *这样的短语分量极重。它们充当独特的锚点，引导检索系统找到确切的相关判例法集群。

训练框架

研究人员需要教会模型如何生成这些规划。由于标准数据集没有附带“未来规划”，他们必须通过创新手段来解决。

1. 规划生成器

他们获取目标文本 (由人类法官撰写的实际判决书) ，并使用两种算法从中提取关键词:

TextRank: 一种基于图的算法 (类似于谷歌的 PageRank) ，根据单词与其他单词的连接方式来查找重要单词。
KeyBERT: 一种使用嵌入 (单词的向量表示) 来查找语义上与文档相似的关键词的方法。

这些提取出的关键词作为“基准真值 (ground truth) ”来训练模型。本质上，他们教会了模型: “当看到这些事实时，你应该预测这些关键词。”

2. 检索器

他们试验了两种类型的检索系统:

BM25: 标准的词汇搜索 (像基本的搜索引擎) ，匹配精确的单词。这就法律领域出奇地有效，因为法律术语非常精确。
GTR (Generalizable T5-based Retriever) : 一种基于语义意义而非精确单词匹配的密集检索器。

实验与结果

为了验证 LexKeyPlan，作者使用了 ECHR CaseLaw 数据集 。该数据集包含数千个欧洲人权法院的案例。

任务是基于案件的 “事实 (The Facts) ” 部分生成 “法律 (The Law) ” 部分 (法律推理) 。这是一个困难的任务，要求模型弥合原始事件与法律结论之间的鸿沟。

定量分析

研究人员将 LexKeyPlan 与几个基准进行了比较，包括标准微调 (无检索) 和标准 RAG (基于上下文的检索) 。他们使用了 ROUGE (文本重叠) 、BERTScore (语义相似度) 和 AlignScore (事实一致性) 等指标。

让我们看看 表 1 中的结果。

表 1: LexKeyPlan 与基准方法的比较。“Plan Generator”列指定了用于生成监督信号以训练规划和响应生成模块的关键词提取算法。“Retriever”列指示了推理期间以及为响应生成器训练获取相关文档所使用的检索方法。注意，基于关键词的内容规划是在推理过程中由模型自动生成的。

表 1 的关键结论:

仅规划就有帮助 (行 b & c) : 即使没有检索文档，仅仅生成规划 (关键词) 也比基准 (行 a) 提高了文本的连贯性 (Coherence) 和流畅性 (Fluency) 。这表明将任务分解为“先思考后说话”减少了模型的认知负荷。
检索增加准确性 (行 d & e) : 标准 RAG 提高了事实一致性得分，但往往损害连贯性。模型难以将检索到的文本融入流畅的叙述中。
LexKeyPlan 胜出 (行 f - i) : 完整的框架——规划加上检索——在各项指标上都取得了最佳结果。具体来说，使用 KeyBERT 进行规划并使用 GTR 进行检索 (行 i) 产生了最高的一致性和连贯性得分。

数据证明，当模型通过关键词预测未来内容时，它能检索到更相关的文档，从而产生更准确、更可读的法律论证。

零样本性能

研究人员还测试了这种“规划”逻辑是否在没有特定训练 (零样本) 的情况下有效。他们提示一个标准的 Mistral-7B 模型生成规划并加以利用。

表 2: 在零样本设置下整合基于关键词的内容规划和检索增强的效果。“Plan”列指定是否提示模型为下一个回复生成基于关键词的内容规划。“Retriever”列标识了所采用的检索方法。

如 表 2 所示，趋势保持不变。虽然零样本模型在处理复杂指令时有些吃力，但增加规划 (行 d, e, f) 通常比原始生成更有助于构建输出结构，尽管收益不如微调版本那么显著。这突显出对于像法律这样的专业任务，针对特定规划工作流进行微调是非常有益的。

规划的质量

模型真的能生成好的规划吗？还是只是在瞎猜随机的法律词汇？研究人员测量了生成的关键词与目标文本中实际主题的匹配程度。

表 3: 内容规划质量的评估。

表 3 揭示了一个关键见解: 微调很重要。微调后的模型 (特别是利用 KeyBERT 监督的模型) 生成的关键词与实际未来内容具有很高的语义相似度 (0.78) 。这证实了模型成功学会了基于事实“预测”案件的法律走向。

真实案例研究

为了真正领会 LexKeyPlan 的价值，让我们看一个论文中描述的涉及言论自由 (第 10 条) 的定性案例。

场景: 一个人因在社交媒体上发表煽动性言论而被定罪，并声称其言论自由权受到侵犯。

标准 RAG 的失败: 标准模型看到上下文中的“社交媒体”和“言论”。它检索关于言论自由的一般案例 (如 Handyside v. UK) 。它生成了一份判决书，称: “我们必须在用户权利与公共道德之间取得平衡。”

错误: 这错过了一个关键的法律门槛。如果言论煽动暴力，它可能完全被第 17 条 (权利滥用) 排除在外，这意味着第 10 条甚至不适用。

LexKeyPlan 的成功: LexKeyPlan 模型首先生成关键词，如*“第 17 条”、“煽动暴力”和“权利滥用”*。

检索: 这些特定的关键词使检索器能够忽略通用的言论案例，转而找到 Garaudy v. France (一个关于仇恨言论排除的案例) 。
结果: 模型写道: “在适用第 10 条之前，我们必须确定这是否构成第 17 条下的仇恨言论。正如在 Garaudy v. France 案中确立的那样，否认历史暴行的言论不受保护。”

这种区别——知道应用哪个法律测试——是在法学院通过与不及格的区别，也是现实世界中正义与错误的区别。

结论与启示

LexKeyPlan 展示了未来 AI 的一个强大概念: 预期推理 (Anticipatory Reasoning) 。

通过解耦“说什么” (规划) 与“怎么说” (生成) ，并利用规划来驱动信息搜索，我们可以构建更加可靠的 AI 系统。

这对学生为何重要

如果你正在学习 NLP 或法律，这篇论文强调了从“黑盒”生成向结构化生成的转变。我们正在摆脱简单地要求模型“写 X”，转向让系统“规划 X，研究 X，然后写 X”。

需谨记的局限性

作者坦率地指出，虽然 LexKeyPlan 是一个进步，但它并不完美。

时间相关性: 该系统使用 BM25/GTR，这些是通用检索器。它们可能会检索到一个高度相关但去年已被推翻的案例。法律特定的检索需要考虑案例的权威性和时间线。
领域适应: 关键词提取器 (KeyBERT) 是通用的。开发专门针对法律分类体系训练的提取器可能会进一步提升性能。

LexKeyPlan 是迈向律师真正可以信任的“Copilot”系统的重要一步——这些系统不仅仅是猜测法律，而是像法律专业人士一样具有前瞻性地进行研究。

为何法律 AI 需要规划: LexKeyPlan 介绍#

问题所在: “后视镜”效应#

参数化知识的局限性#

标准 RAG 的短板#

解决方案: LexKeyPlan#

三步框架#

为什么要用关键词？#

训练框架#

1. 规划生成器#

2. 检索器#

实验与结果#

定量分析#

零样本性能#

规划的质量#

真实案例研究#

结论与启示#

这对学生为何重要#

需谨记的局限性#