引言

在加速药物发现和材料科学的探索中,生成式人工智能已成为一种强大的工具。梦想很简单: 与其筛选数十亿现有的分子来寻找有效的那个,不如让 AI 从头开始设计完美的分子——一种能与特定蛋白质结合、低毒性且易于合成的分子。

然而, 3D 分子生成的现实在数学和计算上都是极其残酷的。分子不仅仅是文本字符串 (SMILES) 或 2D 图画;它们是由量子力学定义的动态 3D 结构。为了生成它们,模型必须将原子放置在精确的 3D 坐标中,同时严格遵守物理定律和对称性 (如旋转和平移) 。

当前最先进的模型,特别是等变扩散模型 (Equivariant Diffusion Models, EDMs) , 将分子视为原子的“点云”。虽然有效,但这些模型经常受困于“维度灾难”。它们试图直接在高维空间中学习原子的复杂分布。这通常会导致结构不稳定,或者分子无法满足特定的属性约束 (条件生成) 。

在本文的深度解析中,我们将探讨一个名为 GeoRCG (Geometric-Representation-Conditioned Molecule Generation,几何表示条件分子生成) 的新框架。作者提出了一种巧妙的“分而治之”策略: 与其一次性生成分子,不如先生成一个压缩的、信息丰富的分子“表示” (representation),然后利用该表示来指导 3D 结构的构建。

这种方法不仅稳定了生成过程,还在条件生成任务中带来了巨大的 50% 的提升 。 让我们来拆解它是如何工作的。


背景: 3D 生成的挑战

要理解为什么 GeoRCG 是必要的,我们首先必须了解现代 AI 如何表示分子。

分子即点云

在这个领域,一个分子 \(\mathcal{M}\) 由两个矩阵定义:

  1. 坐标 (\(\mathbf{x}\)): 一个 \(N \times 3\) 的矩阵,代表 \(N\) 个原子的 3D 位置。
  2. 特征 (\(\mathbf{h}\)): 一个 \(N \times d\) 的矩阵,代表原子类型 (碳、氧等) 和其他属性。

对称性问题

如果你将一个分子旋转 90 度,它仍然是具有相同化学性质的同一个分子。这种性质称为 SE(3) 不变性 (旋转和平移) 。生成模型必须是“等变”的,这意味着如果输入旋转,输出也应相应旋转,但分子存在的概率保持不变。

实现这种等变性限制了神经网络的架构。像 EDM 这样的模型使用等变图神经网络 (EGNNs) 来处理这个问题。然而,将随机噪声直接映射为一个有效的、高质量的等变分子是很困难的,因为“流形” (有效分子的子空间) 相比于广阔的 3D 空间来说极其稀薄。


GeoRCG 框架

GeoRCG 的核心洞察在于,我们可以通过引入一个中间步骤来简化问题。分子在 3D 空间中可能很复杂,但它们可以被映射到一个低维的“潜在空间”或表示中。

如果我们能首先生成一个有意义的表示 (它只是一个没有复杂对称性要求的向量) ,我们就可以使用这个向量来严格指导困难的 3D 生成过程。

该框架包含两个不同的阶段,如下图所示:

Figure 1: Training and sampling procedure of GeoRCG for unconditional molecule generation.

第一阶段: 几何编码器与表示生成器

第一步涉及一个“教师”模型。作者利用了一个预训练的几何编码器 (\(E\)),如 Uni-MolFrad。这些是在海量分子数据集上预训练的强大模型,能够理解化学知识。当输入一个分子 \(\mathcal{M}\) 时,编码器会输出一个紧凑的向量 \(r\) (即表示) 。

这个表示 \(r\) 封装了关键信息: 原子数量、键类型和全局属性。至关重要的是,这个向量空间没有旋转对称性——它只是数字的分布。

然后,作者训练了一个轻量级的表示生成器 (\(p_{\phi}(r)\))。这是一个简单的扩散模型 (使用标准的 MLP) ,它学习从头开始生成这些表示向量。

为什么这样做更容易? 生成一个向量 \(r\) 是一个标准的统计问题。无需担心 3D 对称性,且维度更低。此阶段的损失函数是标准的去噪目标:

Equation for Representation Generator Loss

在这里,模型试图在给定原子数 \(N\) 的条件下,从噪声版本 \(r_t\) 预测出干净的表示 \(r\)。

第二阶段: 分子生成器

一旦我们有了表示 \(r\),我们需要将其转回为 3D 分子。这就是分子生成器 (\(p_{\theta}(\mathcal{M} | r)\)) 发挥作用的地方。

这个生成器是一个等变扩散模型 (像 EDM 一样) 。然而,它不是从纯噪声生成,而是以第一阶段生成的表示 \(r\) 为条件 。 这个表示就像一个蓝图,确切地告诉扩散模型要构建什么样的分子 (例如,“构建一个高极性的稳定环状结构”) 。

这一阶段的训练目标确保模型学习如何在给定表示的情况下重建分子 \(\mathcal{M}\):

Equation for Molecule Generator Loss

这种分解使得理解“分子是什么”的繁重工作由表示来处理,而“原子去哪里”的部分则由等变生成器来处理。


原理揭秘: 理论直觉

作者提供了严格的理论分析,证明这种两阶段方法比单阶段方法减少了误差界限。

在标准扩散中,误差来自三个源头:

  1. 收敛性 (Convergence): 噪声是否变成了数据?
  2. 离散化 (Discretization): 扩散过程中采取有限步骤产生的误差。
  3. 分数估计 (Score Estimation): 神经网络预测梯度 (分数) 的准确程度。

GeoRCG 通过收紧分数估计的界限来改善这一点。因为第二阶段是以包含高度信息的向量 \(r\) 为条件的,生成过程中的不确定性显著下降。

Theoretical bound equation decomposing error terms

上面的方程本质上表明,总误差受限于表示生成 (第一阶段) 的质量加上条件生成误差 (第二阶段) 。由于生成 \(r\) 更容易,而在给定 \(r\) 的情况下生成 \(\mathcal{M}\) 比凭空生成 \(\mathcal{M}\) 更容易,因此总误差降低了。

表示的可视化

为了确认这些表示是有意义的,作者使用 t-SNE 对其进行了可视化。

t-SNE visualizations of molecular representations

如图 2 所示,这些表示根据分子大小 (节点数) 自然聚类。与原始原子坐标的混乱分布相比,这种结构使得表示生成器更容易学习分布。


条件生成: 真正的“杀手级应用”

GeoRCG 最显著的优势出现在条件生成中。在药物发现中,我们不仅仅想要任何分子;我们想要具有特定属性 (例如,特定的 HOMO-LUMO 能隙能量) 的分子。

在传统模型中,你不得不强迫复杂的 3D 生成器直接学习这些属性映射。而在 GeoRCG 中,工作流程非常优雅:

  1. 训练轻量级的表示生成器使其具备条件性: \(p_{\phi}(r | c)\),其中 \(c\) 是属性。
  2. 保持笨重的分子生成器固定不变。

Figure 3: Conditional Generation pipeline

如图 3 所示,如果你想针对不同的属性生成分子 (条件 1,条件 3) ,你只需要重新训练或微调表示生成器。昂贵的分子生成器保持不变,因为它只是简单地将任何表示转化为 3D 坐标。

条件任务的结果

QM9 数据集上的结果令人瞩目。作者将 GeoRCG 与 EDM、EquiFM 和 GeoLDM 等顶级基准模型进行了比较。

Table 3: Conditional molecule generation results

请看表 3 中的 GeoRCG (EDM) 一行。各项指标 (目标属性与实际属性之间的均方误差) 均显著降低。

  • 极化率 (\(\alpha\)): 误差从 ~2.4 (EquiFM) 降至 0.86
  • 能隙 (\(\Delta \epsilon\)): 误差从 ~590 降至 325

这代表了比最先进方法大约 50% 的提升 。 该模型在听从指令方面表现得异常出色。

下图是根据极化率属性 (\(\alpha\)) 条件生成的样本。你可以看到随着目标值 (黑色数字) 的增加,分子的复杂性也在增加。

Figure 5: Conditionally generated molecules


无条件生成与效率

即使没有特定条件,GeoRCG 也能产生比前代产品更高质量的分子。

质量指标

利用 QM9 和 GEOM-DRUG 数据集,作者测量了:

  • 原子稳定性 (Atom Stability): 原子是否形成了正确数量的键?
  • 分子稳定性 (Molecule Stability): 整个分子是否稳定?

Table 1: Unconditional generation metrics

在表 1 中,GeoRCG (基于 EDM 构建) 将 QM9 上的分子稳定性从 82% (EDM) 提升到了 92.32% 。 它甚至增强了尖端的 SemlaFlow 模型的性能 (见下表 2) ,证明 GeoRCG 是一个可以升级各种基础生成器的通用框架。

Table 2: Results with SemlaFlow backbone

速度: 只需更少的步数

扩散模型以慢著称,因为它们需要迭代去噪 (通常需要 1000 步) 。由于几何表示为分子生成器提供了如此强烈的“提示”,GeoRCG 可以在极少的步数内生成高质量的样本。

Table 4: Generation with fewer diffusion steps

表 4 显示,仅用 100 步 , GeoRCG 就实现了与运行 1000 步的最佳竞争对手相媲美的分子稳定性 (91.85%)。这种 10 倍的加速对于高通量筛选至关重要。

平衡质量与多样性

在生成建模中,通常存在一个权衡: 你是想要高质量 (稳定) 的样本,还是多样化的样本?GeoRCG 通过在表示上使用无分类器引导 (Classifier-Free Guidance, CFG) 提供了一个控制“旋钮”。

通过调整引导权重 (\(w\)) 和采样温度 (\(\tau\)),研究人员可以调节模型。

Figure 4: Balancing Controllability

图 4 展示了增加引导 (\(w\)) 会提高稳定性 (左侧热图中的红色区域) ,但代价是牺牲唯一性 (右侧热图中的蓝色区域) 。这为研究人员提供了控制权,具体取决于他们是在探索新的化学空间 (高多样性) 还是优化先导化合物 (高稳定性) 。


结论

GeoRCG 论文指出了 3D 分子生成的一个瓶颈: 在欧几里得空间中直接建模原子坐标的巨大复杂性。通过认识到分子是在语义上由其属性和几何编码定义的,作者成功地将“是什么” (表示) 与“在哪里” (坐标) 解以此开来。

关键要点:

  1. 两阶段更优: 首先生成几何表示可作为 3D 构建的稳定基础。
  2. SOTA 级别的条件生成: 属性约束生成的误差减少 50%,这对药物发现应用来说是一个巨大的飞跃。
  3. 效率: 即使扩散步数减少 90%,该方法也能良好运行。
  4. 通用性: 该框架既能改进简单 (EDM) 也能改进复杂 (SemlaFlow) 的基础模型。

这项工作为化学领域更可控、更可靠的生成式 AI 铺平了道路,使我们离按需设计药物又近了一步。


本文中的图片和数据源自研究论文 “Geometric Representation Condition Improves Equivariant Molecule Generation” (2025)。