医药和材料科学行业正在经历从传统“湿实验”到计算“干实验”的巨大转变。深度神经网络 (DNN) 处于这场革命的最前沿,有望减少发现新药所需的成本和时间。
这一领域的一个流行方法是化学语言表征学习 。 就像 GPT 等大型语言模型 (LLM) 通过阅读数十亿个句子来学习理解英语一样,化学模型通过阅读数十亿个 SMILES (简化分子线性输入规范) 字符串来学习理解分子。SMILES 将 3D 分子表示为 1D 文本字符串 (例如,乙醇表示为 CCO) 。
然而,将化学完全像自然语言一样对待也有其缺点。在本文中,我们将探讨 MolTRES (增强自监督学习的分子 Transformer) ,这是一个由高丽大学的研究人员提出的新框架。该论文指出了当前预训练方法中的关键缺陷——即过拟合和“懒惰”学习——并提出了一种复杂的双模型架构来解决这些问题。
当前化学语言模型的问题
大多数最先进的化学模型,如 ChemBERTa 或 MolFormer,都依赖于掩码语言建模 (Masked Language Modeling, MLM) 。 在 MLM 中,模型会隐藏序列中一定比例的 token (标记) ,并尝试根据上下文猜测它们。
虽然这对英语非常有效,但事实证明它对 SMILES 效果不佳。MolTRES 的作者指出了两个主要原因:
- 分布不平衡: 在 ZINC 等海量数据集中,碳 (C)、氮 (N) 和氧 (O) 等原子占到了 token 的 95%。模型只需在大多数时间猜测“碳”就能获得高准确率。
- 表面模式: SMILES 语法是死板的。例如,表示环结构的数字总是成对出现。模型可以学习这些肤浅的语法规则,而无需理解底层的化学性质。
结果如何?模型学会了“懒惰”的启发式方法。它们在训练期间收敛得太快,并且无法随数据量的增加而有效扩展。

如上文 图 1 所示,现有的最先进模型 MolFormer-XL (橙色线) 几乎立即飙升至接近 100% 的预训练准确率。这表明任务太简单了。相比之下,MolTRES (蓝色线) 在预训练期间保持较低、更现实的准确率,表明它正在处理一项更困难、信息量更大的任务。因此,MolTRES 在下游任务上实现了更高的性能 (下图) 。
解决方案: MolTRES 框架
为了迫使模型学习有意义的化学表征,作者引入了 MolTRES。该框架通过两项关键创新从根本上改变了模型的学习方式:
- DynaMol: 一种生成器-判别器训练方案 (类似于 NLP 中的 ELECTRA) ,并结合了子结构掩码。
- 知识迁移: 通过
mat2vec嵌入整合来自科学文献的外部知识。
1. DynaMol: 生成器-判别器训练
MolTRES 不再是单一模型在填空,而是使用两个模型进行竞争与合作: 一个生成器和一个判别器 。

图 2 展示了这个工作流程。以下是分步过程:
- 掩码: 输入 SMILES 序列被掩盖。然而,作者并没有掩盖随机原子,而是使用子结构掩码 。 他们掩盖有意义的化学基团 (如官能团或苯环) 。这防止了模型仅根据简单的相邻原子进行猜测。
- 生成器 (\(E_G\)): 这个模型就像一个标准的 BERT 模型。它试图预测被掩盖位置的原始 token。
- 判别器 (\(E_D\)): 这是至关重要的补充。判别器接收一个“损坏”的序列,其中被掩盖的 token 已被生成器的预测所替换。判别器的工作不是猜测单词,而是将每个 token 分类为原始或替换 。
这种设置比标准 MLM 难得多。随着生成器越来越擅长创建逼真的化学 token,判别器必须寻找细微的化学不一致性来识别伪造品。
数学基础
生成器的损失函数 (\(\mathcal{L}_G\)) 是标准的最大似然估计,试图在给定掩码输入 \(\tilde{\mathbf{X}}\) 的情况下预测正确的 token \(x_i\):

判别器的输入 (\(\tilde{\mathbf{X}}_D\)) 是通过从生成器的概率分布中采样构建的。如果一个 token 被掩盖 (\(i \in \mathcal{M}\)),它会被生成器的猜测 (\(\tilde{x}_i\)) 替换;否则,保留原始 token (\(x_i\)):

最后,判别器被训练来预测序列中每个 token 的二进制标签 \(z_i\) (原始与替换) :

2. 注入科学知识 (mat2vec)
SMILES 的一个主要局限性在于它只描述结构 。 它不包含有关沸点、毒性或反应性的显式信息。这些信息存在于科学文献中。
为了弥合这一差距,MolTRES 整合了 mat2vec 嵌入。mat2vec 是一个在数百万篇材料科学摘要上训练的 Word2Vec 模型。它捕获化学术语之间的语义关系 (例如,将“锂”与“电池”联系起来) 。
作者创建了一个映射系统 (同义词库) 将 SMILES token 链接到 mat2vec 单词。例如,token [cH+] 映射到文献嵌入空间中的 “cation” (阳离子) 或 “methylidyne” (次甲基) 。
这些预训练的文献嵌入 (\(e^m\)) 使用投影层 \(F_1\) 与 Transformer 学习到的 token 嵌入 (\(e^t\)) 融合。这产生了一个为生成器提供信息的复合嵌入 \(V_G\):

这种融合确保了当模型处理分子时,它不仅仅是看到一串字符;它正在访问源自人类科学知识的潜在化学属性数据库。
效率: 线性注意力 (Linear Attention)
使用标准 Transformer 建模长分子 (如聚合物) 计算成本高昂,因为注意力机制呈二次方缩放——\(O(N^2)\)。为了有效地处理大型数据集,MolTRES 采用了带有旋转嵌入的线性注意力 , 将复杂度降低到 \(O(N)\)。
标准注意力如下所示:

MolTRES 用核函数 \(\phi(\cdot)\) 替换了指数相似度函数,从而允许线性缩放:

实验结果
研究人员在 ZINC 数据集的 19 亿个分子上预训练了 MolTRES,并在 MoleculeNet 基准上进行了微调。
回归任务
在回归任务 (预测溶解度或水合能等数值属性) 中,MolTRES 表现出优于 3D 图模型和其他基于 SMILES 的模型的性能。

如 表 2 所示,MolTRES 在 ESOL、FreeSolv 和 Lipophilicity 数据集中实现了最低的误差 (RMSE)。尽管使用了相似的参数规模,它的表现仍显著优于 MolFormer-XL。这验证了“更难”的训练任务 (DynaMol) 会导致更好的泛化表征这一假设。
分类任务
这种趋势在分类任务 (例如预测毒性或 HIV 抑制作用) 中仍在继续。虽然分类的具体表格很长,但总结来说,MolTRES 在 8 个基准任务中的 7 个上取得了最先进的结果,优于使用昂贵 3D 构象数据的模型。
为什么它有效?分析
该论文提供了深刻的消融研究来解释性能提升的来源。
外部知识的影响
阅读科学文献真的有助于模型理解化学吗?训练曲线给出了肯定的答案。

图 3 显示了两个关键趋势。实线 (使用 mat2vec) 显示出比虚线 (不使用 mat2vec) 更低的预训练损失 (左) 和更高的下游 ROC-AUC (右) 。这证实了外部知识充当了高质量的初始化和正则化器,帮助模型更快地收敛到更好的解。
掩码的“最佳击球点”
在自然语言处理 (BERT) 中,标准掩码率为 15%。由于 SMILES 是冗余的且“容易”猜测,MolTRES 需要更激进的策略。

图 4 显示 MolTRES 在巨大的 65% 掩码率下表现最佳。这证实了作者的假设: 为了迫使模型学习深刻的化学见解而不是表面语法,必须隐藏大部分分子,迫使模型根据微弱的结构线索重建它。
平衡生成器和判别器
训练涉及一个超参数 \(\lambda\),用于平衡生成器损失和判别器损失。

图 5 显示 \(\lambda\) 值为 10 是最佳的。有趣的是,这与 NLP 实现 (通常使用 50) 不同,这表明与自然语言相比,化学语言建模需要在生成和判别之间取得独特的平衡。
结论
MolTRES 代表了药物发现 AI 的重大进步。通过认识到化学语言与自然语言有着根本的不同,作者超越了标准的掩码语言建模。
通过 DynaMol 生成器-判别器框架,他们创建了一个具有足够挑战性的训练任务来防止过拟合。通过 mat2vec 整合,他们用仅凭结构无法推断的科学知识丰富了模型。
结果是一个不仅可扩展而且在广泛的分子性质上高度准确的模型,证明了在化学 AI 的世界里,让学习过程变得“更难”往往会让最终模型变得更聪明。
](https://deep-paper.org/en/paper/2408.01426/images/cover.png)