为何法律 AI 需要规划: LexKeyPlan 介绍
人工智能正在重塑法律领域。从起草合同到总结案情摘要,大型语言模型 (LLM) 不仅通过了律师资格考试,还在以令人印象深刻的水平进行法规推理。然而,如果你是一名法学学生或法律从业者,你会知道在风险极高的情况下,仅仅“令人印象深刻”是不够的。在法律中,精准就是一切。
现代 LLM 的阿喀琉斯之踵是幻觉 (hallucination) 。 模型可能会写出一段文笔优美、极具说服力的论证,但引用的却是一个不存在的案例,或者应用了一项十年前就被废除的法律原则。
为了解决这个问题,研究人员通常使用检索增强生成 (RAG) 。 这项技术将 AI 连接到一个真实文档数据库,允许它在写作前“查阅”事实。但在长文本写作中,标准 RAG 的工作方式存在一个微妙但致命的缺陷: 它只向后看。 它利用已经写好的内容来查找文档,但这往往无法捕捉到模型接下来需要写什么。
在本文中,我们将深入探讨一篇引人入胜的新论文,题为 “LexKeyPlan: Planning with Keyphrases and Retrieval Augmentation for Legal Text Generation” (LexKeyPlan: 基于关键词规划与检索增强的法律文本生成) 。 我们将探索这个新框架如何教会 AI 利用关键词“提前规划”,确保法律论证不仅连贯,而且基于正确的判例法事实。
问题所在: “后视镜”效应
要理解为什么 LexKeyPlan 是必要的,我们首先需要了解现有方法的局限性。
参数化知识的局限性
标准 LLM (如 GPT-4 或 Llama) 依赖于“参数化知识”——即训练期间存储在其权重中的信息。虽然它们记住了很多东西,但无法记住每一个判例法的细微差别,也无法获取最新的裁决。当它们不知道答案时,为了满足用户的提示,往往会编造一个。在法律领域,这是非常危险的。
标准 RAG 的短板
RAG 试图通过检索外部文档来解决这个问题。在典型的 RAG 文本生成设置中:
- 模型查看输入上下文 (目前已写的内容) 。
- 它使用该上下文作为搜索查询来查找相关文档。
- 它基于上下文和检索到的文档生成下一个句子。
这对回答简单问题很有效。但是,想象一下 AI 正在为欧洲人权法院 (ECHR) 起草一份复杂的判决书。
模型可能正在阅读关于一起抗议案件的“事实”部分。仅基于事实,RAG 系统可能会检索关于抗议的一般案例。但是,如果法律推理 (接下来要写的部分) 需要基于像“第 17 条下的仇恨言论排除”这样具体而微妙的原则呢?事实部分可能并不包含找到这些独特法律先例所需的特定关键词。
因为标准 RAG 依赖过去 (上下文) 来检索信息,它往往无法准确命中未来 (预期的回复) 所需的内容。这就像只看着后视镜开车一样。
解决方案: LexKeyPlan
来自慕尼黑工业大学的研究人员提出了 LexKeyPlan , 这是一个引入了预期规划阶段的新颖框架。
LexKeyPlan 并没有直接从上下文跳转到检索,而是让模型停下来问自己: “我接下来需要讨论哪些关键法律概念?”
三步框架
LexKeyPlan 将生成过程分为三个不同的步骤:
内容规划 (蓝图) : 模型分析输入上下文 (例如案件的事实) ,并生成一个关键词 (keyphrases) 列表。这些关键词代表了定义回复未来内容的法律概念或特定术语。这就是“前瞻性规划”。
检索 (搜索) : 系统不使用冗长且包含噪声的上下文作为搜索查询,而是使用生成的关键词 。 这些关键词作为精确的搜索查询,从外部数据库中获取相关文档 (如先前的法院判决) 。
生成 (执行) : 最后,模型生成实际文本 (回复) 。它是基于三点生成的:
- 原始输入上下文。
- 生成的内容规划 (关键词) 。
- 检索到的文档。
通过在决定去哪里找信息之前明确规划要说什么,模型将其检索机制与预期的法律推理对齐。
为什么要用关键词?
你可能会问,为什么要用关键词?为什么不生成一个完整的句子作为计划? 关键词作为一种高层抽象,信息密度大且噪声低。在法律领域,像*“margin of appreciation” (判断余地) 、“legitimate aim” (正当目的) 或“necessary in a democratic society” (民主社会所必需) *这样的短语分量极重。它们充当独特的锚点,引导检索系统找到确切的相关判例法集群。
训练框架
研究人员需要教会模型如何生成这些规划。由于标准数据集没有附带“未来规划”,他们必须通过创新手段来解决。
1. 规划生成器
他们获取目标文本 (由人类法官撰写的实际判决书) ,并使用两种算法从中提取关键词:
- TextRank: 一种基于图的算法 (类似于谷歌的 PageRank) ,根据单词与其他单词的连接方式来查找重要单词。
- KeyBERT: 一种使用嵌入 (单词的向量表示) 来查找语义上与文档相似的关键词的方法。
这些提取出的关键词作为“基准真值 (ground truth) ”来训练模型。本质上,他们教会了模型: “当看到这些事实时,你应该预测这些关键词。”
2. 检索器
他们试验了两种类型的检索系统:
- BM25: 标准的词汇搜索 (像基本的搜索引擎) ,匹配精确的单词。这就法律领域出奇地有效,因为法律术语非常精确。
- GTR (Generalizable T5-based Retriever) : 一种基于语义意义而非精确单词匹配的密集检索器。
实验与结果
为了验证 LexKeyPlan,作者使用了 ECHR CaseLaw 数据集 。 该数据集包含数千个欧洲人权法院的案例。
任务是基于案件的 “事实 (The Facts) ” 部分生成 “法律 (The Law) ” 部分 (法律推理) 。这是一个困难的任务,要求模型弥合原始事件与法律结论之间的鸿沟。
定量分析
研究人员将 LexKeyPlan 与几个基准进行了比较,包括标准微调 (无检索) 和标准 RAG (基于上下文的检索) 。他们使用了 ROUGE (文本重叠) 、BERTScore (语义相似度) 和 AlignScore (事实一致性) 等指标。
让我们看看 表 1 中的结果。

表 1 的关键结论:
- 仅规划就有帮助 (行 b & c) : 即使没有检索文档,仅仅生成规划 (关键词) 也比基准 (行 a) 提高了文本的连贯性 (Coherence) 和流畅性 (Fluency) 。 这表明将任务分解为“先思考后说话”减少了模型的认知负荷。
- 检索增加准确性 (行 d & e) : 标准 RAG 提高了事实一致性得分,但往往损害连贯性。模型难以将检索到的文本融入流畅的叙述中。
- LexKeyPlan 胜出 (行 f - i) : 完整的框架——规划加上检索——在各项指标上都取得了最佳结果。具体来说,使用 KeyBERT 进行规划并使用 GTR 进行检索 (行 i) 产生了最高的一致性和连贯性得分。
数据证明,当模型通过关键词预测未来内容时,它能检索到更相关的文档,从而产生更准确、更可读的法律论证。
零样本性能
研究人员还测试了这种“规划”逻辑是否在没有特定训练 (零样本) 的情况下有效。他们提示一个标准的 Mistral-7B 模型生成规划并加以利用。

如 表 2 所示,趋势保持不变。虽然零样本模型在处理复杂指令时有些吃力,但增加规划 (行 d, e, f) 通常比原始生成更有助于构建输出结构,尽管收益不如微调版本那么显著。这突显出对于像法律这样的专业任务,针对特定规划工作流进行微调是非常有益的。
规划的质量
模型真的能生成好的规划吗?还是只是在瞎猜随机的法律词汇?研究人员测量了生成的关键词与目标文本中实际主题的匹配程度。

表 3 揭示了一个关键见解: 微调很重要。微调后的模型 (特别是利用 KeyBERT 监督的模型) 生成的关键词与实际未来内容具有很高的语义相似度 (0.78) 。这证实了模型成功学会了基于事实“预测”案件的法律走向。
真实案例研究
为了真正领会 LexKeyPlan 的价值,让我们看一个论文中描述的涉及言论自由 (第 10 条) 的定性案例。
场景: 一个人因在社交媒体上发表煽动性言论而被定罪,并声称其言论自由权受到侵犯。
标准 RAG 的失败: 标准模型看到上下文中的“社交媒体”和“言论”。它检索关于言论自由的一般案例 (如 Handyside v. UK) 。它生成了一份判决书,称: “我们必须在用户权利与公共道德之间取得平衡。”
- 错误: 这错过了一个关键的法律门槛。如果言论煽动暴力,它可能完全被第 17 条 (权利滥用) 排除在外,这意味着第 10 条甚至不适用。
LexKeyPlan 的成功: LexKeyPlan 模型首先生成关键词,如*“第 17 条”、“煽动暴力”和“权利滥用”*。
- 检索: 这些特定的关键词使检索器能够忽略通用的言论案例,转而找到 Garaudy v. France (一个关于仇恨言论排除的案例) 。
- 结果: 模型写道: “在适用第 10 条之前,我们必须确定这是否构成第 17 条下的仇恨言论。正如在 Garaudy v. France 案中确立的那样,否认历史暴行的言论不受保护。”
这种区别——知道应用哪个法律测试——是在法学院通过与不及格的区别,也是现实世界中正义与错误的区别。
结论与启示
LexKeyPlan 展示了未来 AI 的一个强大概念: 预期推理 (Anticipatory Reasoning) 。
通过解耦“说什么” (规划) 与“怎么说” (生成) ,并利用规划来驱动信息搜索,我们可以构建更加可靠的 AI 系统。
这对学生为何重要
如果你正在学习 NLP 或法律,这篇论文强调了从“黑盒”生成向结构化生成的转变。我们正在摆脱简单地要求模型“写 X”,转向让系统“规划 X,研究 X,然后写 X”。
需谨记的局限性
作者坦率地指出,虽然 LexKeyPlan 是一个进步,但它并不完美。
- 时间相关性: 该系统使用 BM25/GTR,这些是通用检索器。它们可能会检索到一个高度相关但去年已被推翻的案例。法律特定的检索需要考虑案例的权威性和时间线。
- 领域适应: 关键词提取器 (KeyBERT) 是通用的。开发专门针对法律分类体系训练的提取器可能会进一步提升性能。
LexKeyPlan 是迈向律师真正可以信任的“Copilot”系统的重要一步——这些系统不仅仅是猜测法律,而是像法律专业人士一样具有前瞻性地进行研究。
](https://deep-paper.org/en/paper/file-2362/images/cover.png)