想象一下,试图阅读一封写于一千年前的信件。纸张破烂不堪,因虫蛀或水渍而缺字少句,而且语法遵循着几个世纪前就不再使用的规则。此外,作者还使用了一个 7 世纪特定小村庄的俚语,而这个词在任何现代字典中都查不到。

这就是文献学家 (Philologists) ——那些毕生致力于研究古代文献的学者们——的日常现实。这是一个需要数十年训练、海量记忆以及圣人般耐心的领域。

在人工智能时代,我们可能会认为像 GPT-4 或 Llama 这样的大型语言模型 (LLM) 可以轻松解决这个问题。毕竟,它们能写代码也能作诗,为什么不能翻译古文呢?然而现实是,通用 LLM 在面对“死”语言和特定的历史语境时举步维艰。它们缺乏特定的数据、文化细微差别的感知力,以及像历史学家那样思考所需的推理框架。

这就引出了 PhiloGPT , 这是一个由浙江大学和上海交通大学的研究人员开发的突破性新模型。这篇论文展示了第一个专门为发现和分析中国古代文献而定制的 LLM。通过结合海量的新数据集和新颖的推理框架,PhiloGPT 不仅仅是在翻译文本;它正在帮助考古学家复原缺失的历史。

在这篇文章中,我们将拆解论文《 PhiloGPT : 面向中国古代文献 (以敦煌为例) 的文献学导向大型语言模型》。我们将探索该团队如何构建专用语料库、他们发明的“语文学思维链” (Chain-of-Philology) 提示方法,以及他们如何利用这种 AI 来解开著名的敦煌藏经洞之谜。

问题所在: 为什么 ChatGPT 读不懂古籍?

要理解这篇论文的贡献,我们首先需要了解当前自然语言处理 (NLP) 领域的空白。

通用 LLM 是在现代互联网数据上训练出来的。它们从维基百科、Reddit、新闻文章和 GitHub 仓库中消耗了数十亿个 Token。虽然它们通常包含一些经典文本 (如儒家经典) ,但缺乏构成历史发现主体的“日常”古代写作——契约、民间故事和税收记录。

研究人员指出了阻碍通用 LLM 在文献学中发挥作用的三个具体障碍:

  1. 训练语料不足: 以前根本没有针对文言文的集中式、大规模数据集,现有的往往局限于著名的“杰作”。要深入学习一门语言,模型需要多样性,而不仅仅是精华摘要。
  2. 语言复杂性: 文言文非常精炼。根据上下文,单个字符可能有多种含义,而且语法通常涉及“句法倒装” (词序与现代用法相反) 。此外,古代文本充满了“通假字”——作者使用某个字是因为它读音像想表达的那个词,而不是因为字义相同。通用模型通常会将这些视为错别字或产生现代含义的幻觉。
  3. 研究碎片化: 以前在该领域使用 AI 的尝试是孤立的。一个模型可能负责断句,另一个可能负责实体识别。缺乏一个能够处理人类学者所进行的整体分析的统一“大脑”。

PhiloGPT 能力与传统工作流的对比插图。

图 1 所示,传统的“文献学家工作流”是一个费力的、多步骤的手工过程,涉及查阅字典和交叉引用文献。PhiloGPT 的目标是将这一工作流内化。它不仅仅是预测下一个字,而是旨在通过单次处理完成分析、上下文检索和解释。

奠定基础: PhiloCorpus-ZH

LLM 的好坏取决于它所消耗的数据。如果你只用现代新闻训练一个模型,它说话就会像新闻主播。为了让模型像古代学者一样说话,研究人员必须构建 PhiloCorpus-ZH

这不仅仅是对互联网的抓取。该团队策划了一个跨越千年的庞大文本集合。至关重要的是,他们超越了“正史”和“儒家经典”。他们纳入了:

  • 民间文书: 税收记录、私人信件和契约。这些极其珍贵,因为它们展示了普通人通过语言交流的真实方式,而不仅仅是精英阶层。
  • 集部 (Belles-lettres) : 诗歌、歌词和戏曲。
  • 子部 (Masters) : 医学、占星术和数学著作。
  • 研究论文: 他们纳入了现代学者关于这些文本的研究内容。这使得模型不仅能学习古代文本,还能学习现代专家如何分析它。

显示古代税收记录的民间文书示例。

图 3 让我们得以一窥这种数据的难度。图片显示了一份“民间纳税记录”。它是用传统的行草书写的,纸张往往受损。虽然光学字符识别 (OCR) 被用于数字化文本,但研究人员依靠专家验证来确保训练数据的清洁。

结果是一个被分为四大类的数据库: *经部 (Chinese Classics) 、史部 (Historical Documents) 、子部 (Masters) 和集部 (Belles-lettres) *。这种多样性是让 PhiloGPT 能够理解同一个字在诗歌中和在法律契约中可能意味完全不同的燃料。

核心方法: PhiloCoP (语文学思维链)

数据是燃料,但推理方法是引擎。这正是论文提出其最重要理论贡献的地方: PhiloCoP 框架。

标准 LLM 使用“思维链” (CoT) 方法来解决数学问题——将问题分解为多个步骤。研究人员意识到,文献学家在遇到难懂的古文句子时,也会做完全相同的事情。他们不仅仅是猜测意思;他们会经历一个严格的心理核查清单。

PhiloCoP (Chain-of-Philology) 强制 LLM 在三个不同阶段模仿这种专家工作流:

1. 实体识别 (Entity Identification)

首先,模型必须扫描文本并识别“命名实体”。人物是谁?地点在哪里?时间段是什么?在文言文中,人名看起来往往和普通词汇一模一样,因此首先识别它们可以防止模型试图将人名翻译成动词。

2. 上下文隐式关系推理 (Context-Implicit Relation Reasoning)

一旦找到实体,模型就会分析它们之间的关系。如果提到“人物 A”和“人物 B”,他们是父子吗?君臣吗?识别这些隐藏关系有助于模型构建文本情境的“认知图谱”。

3. 关系感知转写 (Relation-Aware Transcription)

最后,模型执行翻译或分析。它利用步骤 1 和 2 中发现的实体和关系来解决语言歧义。

经典中文典型现象差异的插图。

图 4 说明了为什么这种逐步方法至关重要。在示例中,出现了短语“甚矣,汝之不惠”。

  • 标准模型可能会根据现代字义直译,导致像“这对你不公平”这样荒谬或错误的解释。
  • PhiloCoP 识别出一个 通假字 : 字符 (恩惠) 被用作 (智慧/聪明) 的通假字。
  • 它还识别出一个 句法倒装 : “甚矣” (太/非常) 被放在开头强调,但在语法上属于句尾。
  • 通过推理这些步骤,模型得出了正确的翻译: “你太不聪明了” (或者更通俗地说,“你太愚蠢了”) 。

架构

PhiloGPT 本身建立在 Qwen-1.5-7b 架构之上。研究人员采用了两阶段训练过程:

  1. 持续预训练: 他们使用 PhiloCorpus-ZH 数据对基础 Qwen 模型进行密集训练。这教会了模型古代世界的词汇和句法。
  2. 有监督微调 (SFT) : 然后,他们使用源自 PhiloCoP 框架的具体指令 (提示词) 对模型进行微调。这教会了模型如何回答问题并执行诸如文本复原之类的任务。

PhiloGPT 框架流程图解。

图 2 提供了该流程的高层视图。你可以看到从原始数据 (左) ,到提示生成和基准测试 (中) ,再到最终利用推理框架生成答案的 PhiloGPT 模型 (右) 的流程。注意中间关于“董永” (中国神话人物) 的具体例子——模型在给出最终答案之前,显式地识别了实体和关系。

评估: PhiloBenchmark

如何衡量 AI 是否擅长历史?像 MMLU (大规模多任务语言理解) 这样的标准基准太宽泛了。为了解决这个问题,作者创建了 PhiloBenchmark

该基准测试包含 9 项不同的任务,旨在测试文献学能力的不同方面。

PhiloBenchmark 任务统计。

表 1 所列,任务包括:

  • 复原 (Restoration) : 预测受损文本中缺失的字符。
  • 缀合 (Conjugation) : 确定两个文本碎片是否属于同一份文档。
  • 断代/归属判定 (Attribution) : 确定文本的时间段或作者。
  • 语言分析 (Linguistic Analysis) : 执行命名实体识别 (NER) 和分词。
  • 推理与问答 (Reasoning & QA) : 回答关于文本含义的复杂开放式问题。

研究人员将 PhiloGPT 与几个强大的基线模型进行了比较: Qwen-7b-chat (基础模型) 、Baichuan2-7bLLaMA2-Chinese-7b

结果

结果是决定性的。PhiloGPT 显著优于通用模型。

主要发现:

  1. 复原与断代: 像 LLaMA 和 Baichuan 这样的通用模型通常完全失败 (在结果表中用破折号表示) ,拒绝回答或产生疯狂的幻觉。PhiloGPT 实现了较低的字符错误率 (CER) 和较高的文本断代准确率。
  2. 推理: 在开放式推理任务中,输出由 GPT-4 进行评判。在与基线模型的正面交锋中,PhiloGPT 赢得了大多数比较。

显示推理和分析任务评估结果的条形图。

图 5 可视化了这些“胜率”。

  • NER (命名实体识别) 中,PhiloGPT 占据主导地位,对阵 Qwen 和 Baichuan 的胜率超过 70%,对阵 LLaMA 的胜率接近 87%。
  • 推理 (Reasoning) 方面,差距同样明显。这证明 PhiloCoP 训练不仅帮助模型记住了事实;还帮助模型更清晰地思考内容。

有趣的是,研究人员指出,将 PhiloCoP 提示策略应用于通用模型 (没有经过特定预训练) 有时会使其表现更差。这表明,只有当模型具备支持它的基础知识 (预训练) 时,推理框架才有效。如果你不懂证人说的语言,就无法使用“侦探方法论”。

案例研究: 解密敦煌遗书

论文中最令人兴奋的部分是将 PhiloGPT 应用于现实场景。研究人员与研究 敦煌遗书 的学者合作,这是 20 世纪初在一个洞窟中发现的数万份文献宝藏。这些文献的历史可以追溯到 4 世纪到 11 世纪,是历史学家的宝库。

团队在两个具体且困难的任务上部署了 PhiloGPT。

1. 传抄关系分析 (抄袭检测)

在古代,书籍是手工抄写的。错误在所难免,有时抄写员会修改文本以适应当地的方言或政治观点。确定哪个版本的文本是“原本”,哪个是“抄本”是一项重大挑战。

PhiloGPT 被要求分析两个版本的文本。它成功识别了 同文脱漏 (homoeoteleuton) 现象——一种特定的抄写错误,抄写员因为两行以相同的词结尾而跳过了一行。通过发现这一点,PhiloGPT 能够确定手稿之间的关系,这通常需要眼光锐利的专家才能完成。

2. 文本复原 (填空)

许多敦煌遗书都已损坏。研究人员向 PhiloGPT 提供了关于一位皇帝的讽刺小说的文本,该页底部缺失了几个字。

PhiloGPT 分析敦煌遗书的插图。

图 6 展示了这些案例研究。

  • (a) 部分 中,你可以看到模型正在比较“抄本 #1”和“抄本 #2”,分析文本中描述的伏击计划的逻辑,以确定哪个版本更有意义。
  • (b) 部分 中,模型提供了三个复原缺失字符的建议。它不仅仅是猜测;它提供了文献学依据。它建议在 六曹官 之后添加虚词 ,并论证这符合当时的语法模式。这一建议被人类专家标记为正确。

结论: 数字文献学的未来

论文《PhiloGPT》代表了人工智能与人文学科交叉领域的重大进步。它表明,我们不能简单地依靠“更大”的通用模型来解决所有问题。专业领域需要专业数据,更重要的是,需要专业的推理框架。

主要收获:

  1. 特定领域至关重要: PhiloGPT 之所以表现出色,是因为它是在 PhiloCorpus-ZH 上训练的,这是一个由专家策划的数据集,包含了民间历史的“混乱”现实。
  2. 模仿专家行之有效: PhiloCoP 框架证明,强迫 LLM 遵循人类专家的认知步骤 (实体 ID -> 关系 -> 转写) 比标准提示产生更好的结果。
  3. 现实世界的实用性: 这不仅仅是一次学术基准练习。该模型已经在协助学者分析敦煌遗书,为受损文本提供补全建议,并对文档进行断代。

作者指出,这仅仅是个开始。未来的工作旨在整合 多模态——允许模型“看到”手稿的图像。这将帮助它利用视觉线索 (如墨色风格或纸张质量) 来进一步提高其断代和转写的准确性。

对于历史系和计算机科学系的学生来说,PhiloGPT 是一个光辉的榜样,展示了技术如何被用来不是取代人类学术研究,而是增强它,帮助我们拼凑出过去的碎片化故事。


这篇博客文章解释了 Yuqing Zhang 等人发表的研究论文《PhiloGPT: A Philology-Oriented Large Language Model for Ancient Chinese Manuscripts with Dunhuang as Case Study》(2024)。