50 多年来,科学家们一直在攻克生物学中最宏大的挑战之一:** 蛋白质折叠问题**。蛋白质是生命的微观“劳动力”,从消化食物到抵御病毒几乎无所不包。它们的功能由其精妙复杂的三维结构所决定。
挑战在于: 仅仅根据蛋白质的一维氨基酸序列预测其三维结构。
解决这一问题将带来革命性的变革。虽然科学家已经编录了数十亿个蛋白质序列,但通过实验手段 (如 X 射线晶体学或冷冻电子显微镜) 确定其结构需要耗费数月甚至数年的辛勤工作。这在我们的生物学知识中造成了巨大的**“结构鸿沟”**。
历史上,科学家们主要从两个方向尝试攻克这一难题:
- 基于物理的模拟: 模拟控制折叠的分子力——理论上功能强大,但计算代价极高。
- 生物信息学方法: 在相关的蛋白质序列中寻找进化线索——信息丰富,但对于缺乏结构相似蛋白质的新型蛋白质往往效果不佳。
这两种方法都取得了一定的进展,但都未能达到药物设计等应用所需的原子级精度。
2021 年,DeepMind 发表了一篇具有里程碑意义的论文 *“Highly accurate protein structure prediction with AlphaFold” *(《利用 AlphaFold 实现高精度的蛋白质结构预测》) 。该团队推出了 AlphaFold——一个能够以前所未有、接近实验精度预测蛋白质结构的深度学习系统。在第 14 届蛋白质结构预测关键评估 (CASP14) ——该领域两年一度的“奥林匹克”——中,AlphaFold 不仅赢得了比赛,还将其他竞争对手远远甩在身后。
本文将介绍这一重大突破背后的核心思想。
AlphaFold 革命: 结果先行
在深入探讨 AlphaFold 的工作原理之前,让我们先看看它的成果。
在 CASP14 中,评估精度的标准指标是全局距离测试 (GDT) ,分值范围为 0 到 100。分数高于 90 可视为与实验方法不相上下。AlphaFold 在所有预测目标上的中位分数为 92.4 GDT。
图 1: AlphaFold 在 CASP14 上的突破性表现。条形图 (a) 揭示了 AlphaFold 与次优方法之间巨大的精度差距。AlphaFold 能够准确预测小结构域 (b)、复杂的活性位点 (c),甚至是非常大的蛋白质 (d) 的结构。整体系统架构在 (e) 中进行了总结。
如图 1a 所示,AlphaFold 的表现独树一帜。其主链中位精度为 0.96 Å——小于一个碳原子的直径。这意味着对于大多数蛋白质,计算预测的结构与实验解析结构一样有用。
而且,这并非一次性的成功。研究团队在其训练数据之外的大量新发表蛋白质结构上验证了 AlphaFold,结果依然表现出色。尤其值得一提的是,AlphaFold 会为每个预测提供自评估置信度分数,称为 *预测的局部距离差异测试 *(pLDDT) 。如下面所示,当 AlphaFold 置信度高时,其预测几乎总是准确的。
图 2: AlphaFold 精度和置信度分数的验证。该模型在预测中保持高度准确 (a, b),且置信度度量 (c, d) 与实际结构精度高度相关。
核心方法: 端到端的结构生成器
AlphaFold 的核心是一个神经网络,它接收蛋白质序列,并直接输出所有原子的三维坐标——无需分子动力学模拟,也无需硬编码的物理规则。
它从庞大的已知蛋白质结构数据库中学习这些结构规律。
AlphaFold 的架构 (图 1e) 包含两个主要阶段:
- Evoformer: 处理进化信息与空间信息的深度主干网络。
- 结构模块: 将处理后的特征转化为明确的三维几何结构的专用头部网络。
AlphaFold 的一大核心思想是迭代优化:
网络先生成一个初始结构,将其反馈给自己 (“循环”) ,在多轮迭代中不断改进预测。
Evoformer: 融合进化与几何
Evoformer 通过推理氨基酸在两种紧密耦合的表示中的关系来进行学习:
- MSA 表示: 来源于相关蛋白质的*多重序列比对 *(MSA) 。通过比较序列,可以发现共进化模式: 同时发生变异的氨基酸在结构中往往空 间相近。
- 配对表示: 描述每对残基之间关系的矩阵——本质上是一个图,节点表示残基,边则承载几何信息。
图 3: AlphaFold 的架构创新。Evoformer (a) 实现了进化数据 (MSA) 与几何数据 (配对表示) 之间的双向信息流。三角更新 (c) 确保物理合理性。结构模块 (d) 生成最终的三维结构。
通过 48 层 Evoformer 模块,信息在 MSA 表示与配对表示之间不断流动,使 AlphaFold 能同时推理进化历史和几何约束。
一个重要的创新是三角更新机制 (图 3c) 。如果残基 A 靠近 B,且 B 靠近 C,那么 A 和 C 之间的距离一定受到限制。AlphaFold 通过三角乘法更新和三角自注意力显式地强制这一约束,确保学习到的几何关系符合物理规律。
结构模块: 从抽象特征到原子坐标
在 Evoformer 生成精炼的特征表示后,结构模块 (图 3d) 用它们构建最终的三维结构。
为避免链结构连接性的限制,AlphaFold 采用了**“残基气体”**方法 (图 3e) : 初始阶段将每个残基视为独立的刚体,拥有自己的位置和方向。这样在应用最终几何约束之前,所有残基可以同时被定位。
结构模块的核心是不变点注意力 (IPA) ——一种专为三维数据设计的注意力机制。IPA 对旋转和平移是等变的: 旋转输入会得到同样旋转的输出。这种内建的物理对称性对于精确建模至关重要。
残基的位置和方向会被反复更新,逐步收敛成一个连贯的折叠蛋白质结构。
训练过程中,AlphaFold 使用帧对齐点误差 (FAPE) 损失 (图 3f) ,它在每个残基的局部参考系中计算原子位置误差,而非全局参考系中。这确保了局部几何结构的准确性,并与全局精度指标相辅相成。
巧妙训练策略,造就前所未有的精度
仅靠架构并不能带来 AlphaFold 的突破。几项精心设计的训练策略至关重要:
- 循环 (Recycling) : 多次运行网络,每次基于上一次的输出进行精炼。
- 自蒸馏 (Noisy Student) :
- 训练初始模型。
- 用它预测约 35 万个新蛋白质序列的结构。
- 筛选出高置信度的预测结果。
- 用真实结构和伪标签结构共同训练新模型。
这一方法极大扩充了有效训练集。
- 掩码 MSA 损失: 受 NLP 中 BERT 的启发,训练网络重建 MSA 中被屏蔽的氨基酸,从而更深入地理解进化约束。
图 4: AlphaFold 各组件的重要性。消融实验 (a) 证明每项创新都对精度提升有显著贡献。轨迹图 (b) 则揭示了结构假设在网络中逐步优化的过程。
如图 4b 所示,一些蛋白质在早期就达到正确折叠;而更复杂的目标则需要更多层次的“思考”,其结构会在多层网络中反复调整后才最终收敛。
局限与展望
尽管 AlphaFold 精度极高,但它并非完美无缺:
- 依赖 MSA 深度: 当 MSA 中的序列较少 (浅层 MSA) 时,精度急剧下降。当有效序列数低于约 30 条时,预测几乎不可靠。
- 多链复合物: AlphaFold 训练于单链结构,对于主要由不同蛋白质相互作用决定的结构可能表现不佳。 (这一问题后来由 AlphaFold-Multimer 部分解决。)
- 动态蛋白质: AlphaFold 预测静态结构,无法反映许多蛋白质存在的构象灵活性或无序性。
图 5: 进化信号的重要性。精度与 MSA 深度高度相关 (a)。尽管如此,AlphaFold 仍能解决如 (b) 所示交织三聚体这样的高难度结构预测任务,其中预测 (蓝色) 与实验结构 (绿色) 高度吻合。
结论: 生物学的新纪元
AlphaFold 是人工智能与结构生物学领域的里程碑式成就。通过融合进化信息、基于注意力的几何推理以及迭代式自我改进,它解决了一个延续了 50 年的科学难题。
计算模型首次能够常规地提供原子级精度的预测。这一能力影响深远: 从加速药物研发与酶工程,到深入解析生命分子机器的工作机理。
自发布以来,AlphaFold 已预测了几乎所有已知蛋白质的结构,支撑起一个免费的公共数据库,并推动了结构生物学的普及化。
毫不夸张地说:** AlphaFold 为我们理解乃至设计生命机器,开启了全新的篇章。**