引言

在过去几年里,“大语言模型” (LLM) 一词已成为聊天机器人的代名词,它们能写邮件、调试代码,甚至创作诗歌。然而,在对人类进步更为关键的一个领域——自然科学中,一场悄然的革命正在发生。

生物学、化学、物理学和数学正被数据淹没。论文发表的速度远远超过了任何人类阅读、更不用说综合新信息的能力。此外,科学数据与众不同;它不仅仅是英文文本,还包括分子图、蛋白质序列、数学公式和复杂的图像。

这引出了一个令人着迷的问题: 驱动 ChatGPT 的架构,能否被教导去理解自然的“语言”?我们能否像处理书中的句子一样处理 DNA 序列或化学反应?

今天我们要深入探讨的论文——A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery (科学大语言模型及其在科学发现中应用的综合综述) ,给出了一个肯定的答案: “是的”。这篇论文不仅仅像以前的综述那样狭隘地关注医疗 LLM 或化学 LLM,而是提出了科学 AI 的“大统一理论”。它探讨了研究人员如何调整 Transformer 架构,使其成为科学发现的通用引擎,涵盖了所有主要科学学科的 260 多个模型。

在这次深度解析中,我们将拆解研究人员提出的这一统一框架,探索针对量子物理学和基因组学等特定领域构建 LLM 的方法,并展望“AI 科学家”对现实世界的意义。

背景: 科学的语言

要理解 LLM 如何应用于科学,我们首先需要抽象化我们对“语言”的定义。对计算机而言,语言仅仅是一系列遵循特定统计规则的 Token (离散的信息单元) 序列。

英语是单词的序列。但请考虑一下其他的可能性:

  • 蛋白质 是氨基酸的序列 (由 M, V, H, L 等字母表示) 。
  • 数学 是符号和逻辑的序列。
  • 分子 可以表示为文本字符串 (SMILES 字符串) ,例如 C1=CC=CC=C1 (苯) 。

如果科学数据可以被“线性化”——即转化为序列——它就可以被输入到 Transformer 中。这一认识改变了科学工作流程。我们正从针对每个特定任务 (如仅用于预测毒性的模型) 的手工专用模型,转向理解科学领域底层“语法”的统一基础模型。

核心方法: 面向科学的统一架构

该论文的作者将现有的数百个科学 LLM 归纳为一个连贯的框架。他们观察到,无论是研究星系团还是酶折叠,工程策略都主要分为三个截然不同的“列”。

理解这个框架是理解整个领域的关键。

图 1: 三种主要的科学 LLM 预训练技术类型。(第一列): 通过掩码语言建模,使用序列化的科学数据 (如文本、学术图谱、分子、生物序列) 预训练编码器 LLM。(第二列): 通过下一个 Token 预测 (可能包含指令微调) ,使用序列化的科学数据 (如文本、表格、晶体、图像) 预训练 (编码器-) 解码器 LLM。(第三列): 通过对比学习,将文本与相关的序列/图谱/图像在潜在空间中映射得更近。

图 1 所示,该领域的版图根据模型架构和预训练目标进行了划分。

第一列: 编码器时代 (理解)

在图 1 的左侧,我们看到的是仅编码器 (Encoder-only) 模型 。 这些是 BERT (Bidirectional Encoder Representations from Transformers) 的直系后裔。

  • 机制: 这些模型使用掩码语言建模 (Masked Language Modeling, MLM) 。 你取一个序列 (不论是一篇论文中的句子还是一条 DNA 链) ,隐藏其中的特定 Token ([MASK]) ,并要求模型根据上下文猜测那里应该是什么。
  • 科学应用:
  • 1.A (文本):SciBERT 这样的模型在数百万篇科学论文上进行了训练。它们学习到“青霉素”与“细菌”有关,就像标准 BERT 学习到“国王”与“王后”有关一样。
  • 1.C (化学):ChemBERTa 这样的模型接收化学字符串 (SMILES) 并掩盖原子。通过猜测缺失的原子,模型学习了化学规则——化合价、环状结构和稳定性。
  • 1.D (生物): DNABERT 将 DNA 序列视为句子,掩盖遗传密码的片段以学习进化模式。

这些模型在理解方面表现出色。它们通常用于分类任务 (这个分子有毒吗?这篇论文是关于地质学的吗?) 或属性预测。

第二列: 生成时代 (创造)

中间一列代表了当前的生成式 AI 浪潮 (仅解码器或编码器-解码器) 。这些灵感来自于 GPT 系列和 LLaMA。

  • 机制: 这些模型使用下一个 Token 预测 (Next Token Prediction) 。 它们不只是填空;它们在预测未来。给定一个序列,接下来是什么?这使它们能够生成的内容。
  • 结构的挑战: 这里最大的障碍是“线性化”。文本天生是线性的。但是如何将 3D 晶体结构或 2D 表格输入到 GPT 模型中呢?
  • 2.B (表格):TableLlama 这样的模型将表格单元格扁平化为文本字符串,以便 LLM 可以“阅读”行和列来回答有关数据的问题。
  • 2.C (晶体): CrystalLLM 通过将原子坐标和晶格向量转换为文本字符串来表示 3D 材料,使模型能够“构想”出尚不存在的稳定新材料。
  • 指令微调 (Instruction Tuning): 许多此类模型使用“指令微调”进行了进一步优化,它们在问答对 (例如,“合成一个靶向受体 X 的分子”) 上进行训练,以充当有用的助手。

第三列: 多模态桥梁 (连接)

右侧一列解决了一个根本问题: 文本描述科学,但文本不是事物本身。对肺部 X 光片的描述并不等同于 X 光片。

  • 机制: 这种方法使用对比学习 (Contrastive Learning) , 类似于 CLIP 模型。它使用两个编码器——一个用于文本,一个用于数据 (图像、图谱或结构) 。模型的训练目标是将图像及其匹配文本说明的数学表示在向量空间中拉近,同时推开不匹配的配对。
  • 科学应用:
  • 3.B (蛋白质): ProtST 将蛋白质序列与其文本描述 (功能、生物体等) 对齐。这使你可以使用自然语言搜索蛋白质。
  • 3.C (分子): Text2Mol 将分子图与其描述相匹配,允许化学家根据文本查询 (如“气味甜美的酯”) 检索分子。
  • 3.D (视觉): 在医学领域,模型将胸部 X 光片与放射科报告对齐。这直接将肿瘤的视觉特征与用于描述它的医学术语联系起来。

科学 LLM 的演变: 分领域分析

该论文提供了详尽的分类法,阐述了这三种架构如何在不同的科学领域中得到应用。让我们分析一下每个领域的具体突破。

1. 通用科学: 基础

在专业化之前,模型需要理解科学的一般论述。

表 A1: 通用科学领域的 LLM 汇总。包括 SciBERT, Galactica, 和 SciGLM 等模型。

表 A1 强调了通用科学 LLM 的演进过程。

  • 早期 (2019) : 我们看到了像 SciBERT (图 1 中的类型 1,第一列) 这样的模型。这些模型相对较小 (1.1 亿参数) ,专注于解析科学文献的密集词汇。
  • 转变: 随着表格向下,架构转向 GPTLLaMA 变体 (类型 2) 。
  • 巨人: 这里的一个杰出代表是 Galactica (类型 2) 。与仅仅“阅读”论文的 SciBERT 不同,Galactica 被训练用于撰写论文、求解方程,甚至预测蛋白质功能。它代表了向能够处理多种模态的“AI 研究助手”的转变。
  • 图谱集成: 注意像 OAG-BERT 这样的“L+G” (语言+图谱) 条目。科学不是在真空中存在的;论文会引用其他论文。这些模型摄入引文图谱以理解研究的背景和影响,而不仅仅是内容。

2. 数学: 从计算到推理

数学提出了独特的挑战: LLM 在算术方面通常表现糟糕,因为它们是基于概率而不是逻辑来预测 Token 的。然而,调查显示这种情况正在改变。

表 A2: 数学领域的 LLM 汇总。包括 MathBERT, Minerva, 和 G-LLaVA 等模型。

表 A2 揭示了两种截然不同的方法:

  1. 基于文本的推理 (类型 2) :MinervaLlemma 这样的模型在海量的数学网页和 arXiv 论文库上进行了训练。它们利用“思维链” (Chain of Thought) 提示,让模型生成解决方案的步骤而不仅仅是答案。这模仿了人类的演绎推理。
  2. 视觉几何 (类型 3/多模态) : 看看 G-LLaVAInter-GPS 。 几何问题是视觉化的。如果你看不到三角形,就无法求解 \(x\)。这些模型使用视觉编码器来“看”图表,并使用语言模型来推理定理。

3. 物理学: 理论的前沿

与生物/化学相比,物理学采用 LLM 的速度稍慢,主要是因为物理学严重依赖难以有效 Token 化的复杂方程。

表 A3: 物理学领域的 LLM 汇总。包括 astroBERT 和 AstroLLaMA。

表 A3 所示,该领域目前由天文学主导。

  • astroBERTAstroLLaMA 在天体物理学文献 (NASA ADS, arXiv) 上进行了微调。
  • 为什么是天文学? 这是一个拥有大量文本档案的高度描述性领域。
  • 未来潜力: 论文指出了理论物理方面的新兴应用,例如使用 Transformer 预测量子场论中的系数或设计量子实验 (类型 2) 。

4. 化学: 物质的语言

化学可能是除纯语言之外 LLM 最成熟的领域,因为化学家几十年前就发明了“SMILES”——一种将分子写成文本字符串的方法。

表 A4: 化学和材料科学领域的 LLM 汇总。包括 ChemBERT, ChemLLM, 和 Text2Mol。

表 A4 充满了创新,凸显了不同表示方法之间的斗争:

  • SMILES vs. 图谱: 早期的模型 (ChemBERTa) 将分子视为文本 (SMILES)。然而,分子实际上是 3D 图结构。较新的模型,如图-文多模态 LLM (表底部的模型,如 GIT-Mol ),试图两者兼得: 它们同时摄入 2D 图结构文本描述。
  • “智能体”革命:ChemCrowChemLLM (类型 2) 这样的模型不仅仅是被动的预测器。它们是能够规划合成路径的智能体,在某些设置中,甚至可以连接机器人实验室来实际混合化学品。这是指令微调的直接应用——教模型像化学家一样行动,而不仅仅是一部化学百科全书。

5. 生物学和医学: 重量级选手

这一领域拥有最大数量的模型,这主要由药物发现和自动化医疗的巨大价值所驱动。

表 A7: 生物学和医学领域的 LLM 汇总。包括 BioBERT, Med-PaLM, 和 ESM-2。

表 A5 (图像列表中标记为 A7,指代生物/医学表格) 展示了该领域的庞大规模。我们可以将其分为两个世界:

A. 医生的语言 (文本/EHRs)

  • ClinicalBERTMed-PaLM 这样的模型是在电子健康记录 (EHRs) 和医学考试题上训练的。
  • Med-PaLM 2 是这里的一个里程碑,它在美国医师执照考试中达到了专家级的表现。这些模型正从实体提取 (在笔记中查找疾病名称) 转向全方位的诊断对话。

B. 生命的语言 (序列)

  • 这是类型 1 (编码器) 模型大放异彩的地方。 ESM-2 (进化尺度建模) 是一个巨大的蛋白质语言模型。
  • 通过掩盖数百万蛋白质序列中的氨基酸,ESM-2 学习了生物学的隐藏模式。它变得非常有效,以至于仅凭序列就能预测蛋白质的 3D 结构,其准确性可与基于物理的模拟相媲美,但计算成本却只有后者的一小部分。

6. 地球科学: 模拟地球

最后,我们看看宏观尺度。

表 A6: 地理学、地质学和环境科学领域的 LLM 汇总。包括 ClimateBERT 和 Pangu-Weather。

表 A6 介绍了一种引人入胜的模态: 气候时间序列

  • 盘古气象 (Pangu-Weather)FourCastNet 将天气数据 (风速、气压、温度) 视为一系列 Token,类似于图像或句子。
  • 通过将 Transformer 应用于这些数据,这些模型可以比传统的数值天气预报模型更快、且往往更准确地预测全球天气,而传统模型需要超级计算机来求解流体动力学方程。
  • 城市规划:UrbanCLIP 这样的模型将卫星图像与城市指标对齐,帮助研究人员通过多模态镜头理解城市发展。

对科学发现的意义

该综述不仅列出了模型,还讨论了它们实际上是如何改变科学进程的。作者确定了 LLM 正在介入的几个阶段:

  1. 假设生成: 不用人类阅读 100 篇论文来发现研究空白,LLM 可以扫描 10,000 篇并提出新颖的联系。像 SciMon 这样的工具已经在探索这一点,基于先前的文献生成“研究思路”。
  2. 实验设计: 在化学和生物学中,LLM 正被用于编写机器人实验室的代码。研究人员可以输入“合成阿司匹林”,LLM 将其翻译成所需的特定机器指令。
  3. 评审与评估: 尽管存在争议,LLM 正越来越多地用于总结论文并提供初步反馈,充当初审同行评审员。

挑战与未来方向

尽管前景乐观,该论文也强调了重大障碍:

  • 幻觉: 在创意写作中,编造内容是一种功能。在科学中,这是一个缺陷。一个“听起来合理”但并不存在的化学反应可能是危险的。
  • 专业“长尾”知识: 通用科学模型可能懂“化学”,但它们知道 1985 年仅有两篇论文描述的一种稀有合金的具体属性吗?作者建议必须集成知识图谱 , 以将 LLM 锚定在事实的现实中。
  • 模态脱节: 虽然我们有多模态模型,但真正的融合仍然滞后。我们需要能够无缝地同时跨文本、分子图和显微镜图像进行推理的模型,以解决复杂的生物学问题。

结论

Zhang 等人提出的这项综述描绘了一个处于重大变革边缘的科学生态系统。通过将原子、基因和方程视为“语言”,研究人员解锁了使用当今最强大的 AI 架构进行科学发现的能力。

我们正在从“文本挖掘”时代——计算机仅仅是在论文中搜索关键词——迈向科学理解的时代。无论是预测天气、设计新蛋白质,还是求解数学证明,底层架构正在趋同。过去孤立的工具正在被统一的、预训练的科学大脑所取代。

对于理科学生来说,这意味着未来的课程可能不仅仅包括学习元素周期表或克雷布斯循环,还需要理解能够帮助驾驭它们的注意力机制和分词器。