引言

在过去几年里,“AI 通过司法考试”的头条新闻几乎出现在每一家主流科技媒体上。这是一个引人入胜的叙事: 大语言模型 (LLMs) 如 GPT-4 摄取了海量信息,以至于它们在技术上具备了从事法律工作的资格。但任何执业律师都会告诉你,通过标准化考试与应对微妙、高风险的现实法律体系完全是两码事。

虽然通用基准测试可以评估 AI 编写代码、解决数学问题或闲聊的能力,但法律领域提出了独特的“安全至关重要 (safe-critical) ”的挑战。创意写作提示中的幻觉可能是一种怪癖;但法律合同中的幻觉则是一种责任事故。此外,现有的绝大多数法律基准测试都主要关注美国和欧洲,这些地区主要实行普通法系 (Common Law) 。

那么中国法律体系呢?扎根于大陆法系 (Civil Law) ,它优先考虑成文法条的适用,而非司法判例。这种结构性差异意味着,一个被训练成拥有美国律师思维的 AI,在中国法庭上可能会一败涂地。

为了填补这一空白,来自南京大学、亚马逊 Alexa AI 和上海人工智能实验室的研究团队推出了 LawBench 。 这不仅仅是又一个数据集;它是一个精心打造的评估框架,旨在探索 LLM 法律认知的深度。通过对 51 个不同模型在 20 项不同任务上的测试,LawBench 为我们提供了一个发人深省且详尽的视角,让我们看清 AI 在追求“计算正义”的道路上目前究竟处于何种位置。

在这篇深度解读中,我们将探讨 LawBench 是如何构建的,它用于测试智能的认知层级,以及那些揭示了为什么我们距离拥有“AI 律师”还有很长路要走的惊人结果。

背景: 对专业基准测试的需求

要理解 LawBench 的重要性,我们首先需要了解目前 LLM 是如何被评估的。像 LLaMA 或 ChatGPT 这样的模型,其标准开发流程包括在海量文本语料库上进行预训练,随后进行有监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 。为了测试这些模型,研究人员使用 MMLU (大规模多任务语言理解) 或 HELM (语言模型整体评估) 等基准。

然而,“通用能力”并不等于“领域专业知识”。

法律任务需要一种特定类型的逻辑。在中国大陆法系中,法官必须保持中立,并严格依据既定的成文法条做出裁决。这与普通法系不同,后者视研究过往判例为重中之重,而中国体系要求对现行法典进行严格的理解和适用。

此前对法律 AI 基准测试的尝试,如 LexGLUELegalBench,主要集中在英美法律上。虽然很有价值,但它们无法迁移到中国语境中。LawBench 的创建旨在为中国法律任务提供一套标准化的、全面的测试套件,超越简单的“司法考试”问题,模拟法律专业人士的实际工作流程。

核心方法: 构建法律认知结构

LawBench 最具创新性的方面在于它的组织方式。研究人员并没有简单地向模型抛出一堆随机的法律问题。相反,他们基于布鲁姆分类学 (Bloom’s Taxonomy) 构建了基准测试,这是一种常用于教育领域的认知技能层级模型。

在 LawBench 中,法律能力被分解为三个难度递增的层级: 记忆 (Memorization)理解 (Understanding)应用 (Applying)

LawBench 中评估大语言模型的三个认知维度。

如上图所示,该层级结构表明,LLM 必须先“记住”法律,然后才能“理解”案件的细微差别,最后才能“应用”这些知识来解决复杂问题。让我们详细分解这些层级及相关任务。

第 1 层: 法律知识记忆

这是基础层。如果一个模型无法回忆起具体法律的内容,它就不可能正确地应用法律。在检索增强生成 (RAG) 时代,有人可能会争辩说模型不需要背诵法律——它们可以直接查阅。然而,研究人员认为,参数化记忆 (存储在模型权重中的知识) 对于减少延迟和有效地连接概念至关重要。

这一层的任务包括:

  1. 法条背诵 (Article Recitation) : 给定具体的法条编号 (例如,“刑法第 257 条”) ,模型必须背诵出原文。
  2. 知识问答 (Knowledge Question Answering) : 关于基本法律事实的多项选择题。

以下是这些任务的示例:

展示法条背诵和知识问答任务示例的表格。

这测试的是模型的“百科全书式”知识。这相当于数字化时代的法律系学生制作抽认卡。

第 2 层: 法律知识理解

一旦模型“知道”了法律,它能理解法律文本吗?法律文件以晦涩难懂著称,充满了行话、复杂的实体关系和特定的格式规则。

“理解”层级测试 LLM 是否能解析这些信息。该类别包括 10 项不同的任务,例如:

  • 文书校对 (Document Proofreading) : 修正正式法律文件中的语法和拼写错误。
  • 争议焦点识别 (Dispute Focus Identification) : 阅读原告的主张和被告的答辩,识别他们究竟在争论什么 (例如,合同效力还是财产分割) 。
  • 命名实体识别 (NER) : 从判决书中提取特定实体,如“嫌疑人”、“受害人”或“被盗物品”。
  • 案情摘要 (Opinion Summarization) : 对法律新闻报道进行简明扼要的总结。

以下是命名实体识别任务的示例,这对于自动化案件处理至关重要:

展示任务 2-6 命名实体识别的指令和示例的表格。

以下是案情摘要的示例,要求模型将复杂的报告压缩成一句话:

展示任务 2-7 案情摘要的指令和示例的表格。

这些任务超越了死记硬背。它们要求模型具备符合法律标准的阅读理解能力。

第 3 层: 法律知识应用

这是层级结构的顶峰。在这一层,LLM 被要求模拟法律专业人士。它必须综合其记忆的知识和对文本的理解,通过推理解决现实场景中的问题。

这里的任务复杂且高风险:

  • 罪名预测 (Charge Prediction) : 给定一组事实,犯了什么罪?
  • 刑期预测 (Prison Term Prediction) : 基于事实和罪名,被告应该服刑多少个月?
  • 涉案金额计算 (Criminal Damages Calculation) : 一项回归任务,要求模型计算犯罪涉及的金额 (例如,被盗物品的总价值) 。
  • 法律咨询 (Consultation) : 扮演律师角色,回答用户的法律咨询。

最引人入胜的任务之一是刑期预测 。 基准测试以两种模式评估此任务: 一种是模型必须依靠内部知识,另一种是在提示词中提供了相关的法律条文。

展示任务 3-5 附带法条的刑期预测指令和示例的表格。

正如上面的示例所示,模型必须解析事实 (孙某砸毁了张某的电视、殴打他等) ,考虑罪名 (非法侵入住宅) ,并输出具体的刑期月数。这需要高水平的逻辑和数值推理能力。

完整任务概览

研究人员在这三个层级中总共汇编了 20 项任务。他们还根据所需的输出类型对任务进行了分类: 单标签分类 (SLC) 、多标签分类 (MLC) 、回归、抽取和生成。

列出 LawBench 中所有 20 项任务及其认知层级和数据源的表格。

实验设置: 参赛选手

为了运行这一大规模评估,作者测试了 51 个不同的大语言模型 。 这些模型根据其训练背景被分为三组:

  1. 多语言 LLMs (Multilingual LLMs) : 主要在英文上训练但具备多语言能力的通用模型 (例如 GPT-4, ChatGPT, LLaMA, Claude) 。
  2. 中文导向 LLMs (Chinese-Oriented LLMs) : 专门在海量中文语料库上进行预训练或微调以增强本地语言理解的模型 (例如 Baichuan, ChatGLM, Qwen) 。
  3. 法律专用 LLMs (Legal-Specific LLMs) : 最初是通用 LLM,但在法律数据集上进行了进一步微调的模型 (例如 ChatLaw, Lawyer-LLaMA) 。

评估使用了两种设置: 零样本 (Zero-shot) (仅提供问题) 和单样本 (One-shot) (问题加上一个示例) 。这使我们能够看到模型“开箱即用”的表现如何,以及当向其展示一个期望输出的示例时,它们的适应能力如何。

结果与分析

LawBench 的结果为法律 AI 领域敲响了警钟。虽然前景光明,但最佳模型与真正的可靠性之间仍存在巨大差距。

1. GPT-4 的统治地位

最直接的结论是 OpenAI 的 GPT-4 具有绝对的统治地位。尽管没有被明确训练为“中国法律模型”,但它击败了所有其他模型,包括那些专门针对中国法律微调的模型。

雷达图对比了 GPT-4 与其他顶级模型在各项任务上的表现。

在上方的雷达图中,蓝绿色的线代表 GPT-4。它几乎包围了所有其他模型,在几乎所有任务上都达到了最外沿 (更高分) 。它在像案情分析 (Case Analysis) 这样的复杂应用任务中表现尤为强劲。

当我们查看所有任务的平均零样本表现时,差距变得更加清晰:

展示所有 51 个模型平均零样本表现的条形图。

GPT-4 和 ChatGPT (前两个柱状条) 一骑绝尘。有趣的是,表现最好的开源模型通常是中文导向的通用模型 (如 Qwen-Chat 和 InternLM) ,而不是法律专用模型。

2. 法律微调的悖论

人们通常会假设,在法律数据上微调过的模型 (法律专用 LLM) 会击败通用模型。但数据讲述了一个微妙的故事。

研究人员发现,法律专用 LLM (上图中的紫色柱状条) 往往落后于强大的通用模型。为什么?

问题在于基座模型 。 目前大多数法律专用模型是建立在较弱的基础模型之上的 (例如较小版本的 LLaMA 或较旧的架构) 。虽然微调有助于它们超越自身的基座版本,但这并不足以弥补与像 GPT-4 这样的大型模型或高度优化的 70B 参数模型之间的原始智力差距。

然而,微调确实是有效的。如下图所示,与基座模型相比,法律微调始终能提高性能并降低“弃权率” (模型拒绝回答的频率) 。

对比显示法律专用微调相比基座模型提升了性能。

结论是: 要构建一个优秀的法律 AI,你需要从一个优秀的通用 AI 开始。你无法通过微调来弥补基座薄弱的问题。

3. “检索”难题

AI 开发中的一个常见策略是检索增强生成 (RAG) 。其理念是,如果你给模型提供相关文本 (例如具体的法律条款) ,它应该回答得更好。

LawBench 通过比较任务 3-4 (无条款的刑期预测)任务 3-5 (有条款的刑期预测) 来测试这一假设。

结果令人震惊。

折线图显示包含条款内容通常会降低性能。

对于大多数模型来说,包含条款内容实际上降低了性能。甚至 GPT-4 在提示词中加入具体法律文本后,准确率也有所下降。

这表明当前的 LLM 难以有效利用上下文窗口中提供的长篇、复杂的法律文本。额外的文本非但没有帮助模型完善推理,反而可能成为了噪音,干扰了模型在预训练期间建立的内部“直觉”。对于构建 RAG 系统的法律科技公司来说,这是一个关键的发现: 简单地检索法律并不是灵丹妙药。

4. 单样本 vs. 零样本 & 模型规模

与其他 NLP 基准测试一致,LawBench 发现更大的模型通常表现更好,且提供一个示例 (单样本) 有显著帮助。

图表说明扩大模型规模可提高性能,尤其是在单样本设置下。

随着模型参数的增加 (X 轴向右移动) ,性能总体呈上升趋势。这在单样本设置 (绿线) 中更为明显,表明较大的模型更擅长“上下文学习 (in-context learning) ”——即根据提示词中提供的示例调整自身行为。

5. RLHF 陷阱

基于人类反馈的强化学习 (RLHF) 是让像 ChatGPT 这样的模型变得礼貌和会聊天的秘诀。然而,LawBench 表明它可能对法律准确性有害。

条形图对比基座、SFT 和 RLHF 模型。RLHF 通常会增加弃权率。

在上图中,请看 LLaMA-2 系列。RLHF 版本 (绿色条) 通常比 SFT 版本具有更高的弃权率 (条形图顶部的浅色部分) 。为了追求“安全”和有益,经过 RLHF 训练的模型经常拒绝回答法律问题,将它们视为提供违反其安全准则的专业建议。这种“对齐税 (alignment tax) ”严重阻碍了它们在专业法律应用中的效用。

结论: 最终裁决

LawBench 代表了我们在理解 AI 如何处理专业、高风险领域方面迈出的重要一步。对 51 个模型的全面评估得出了一个明确的裁决:

AI 尚未准备好取代律师。

即使是最好的模型 GPT-4,在这些任务中的平均得分也仅为 50-53% 左右。虽然它在记忆和基本理解方面表现出色,但“应用”层——通过推理案件来确定刑期或赔偿——仍然是一个巨大的障碍。

此外,该研究强调了当前开发策略中的关键缺陷:

  1. 安全 vs. 效用: RLHF 让模型在法律工作中变得过于谨慎。
  2. 上下文利用: 模型难以有效利用检索到的法律条款。
  3. 基座至关重要: 构建“法律 GPT”需要最先进的基础模型,而不仅仅是微调一个较小的开源模型。

对于学生和研究人员来说,LawBench 既是路线图也是挑战书。它描绘了法律智能所需的认知技能,并揭示了当前技术存在的具体短板。法律 AI 的未来不仅仅是训练更多的合同数据;它是关于解决即使在最大的模型中也依然存在的根本性推理和上下文利用问题。

法槌尚未落下,针对 AI 的审判才刚刚开始。