人脑无疑是现存最复杂的网络。为了理解它,研究人员将目光投向了 图神经网络 (GNNs) 和 Transformer 。 这些深度学习架构彻底改变了我们处理图数据的方式,从社交网络到分子结构无所不包。将它们应用于“连接组 (connectome) ”——即大脑中的神经连接图——似乎也是顺理成章的事。
但最近一篇论文提出了一个具有挑战性的问题,对这种标准方法提出了质疑: “我们在脑网络建模中真的需要消息传递吗?”
研究人员认为,我们通常使用 GNN 分析脑网络的方式可能存在根本性缺陷。通过盲目套用为其他类型图设计的技术,我们可能引入了冗余和低效。在这篇深度文章中,我们将探讨为什么标准的“消息传递”范式可能不适合脑数据,并介绍一种新颖、更简单且更快速的解决方案,称为 脑二次网络 (Brain Quadratic Network, BQN) 。
现状: 图与大脑
在拆解现有方法之前,我们先来了解一下为什么要使用它们。
构建脑网络
在计算神经科学中,特别是在诊断自闭症谱系障碍 (ASD) 或阿尔茨海默病 (AD) 等疾病时,我们通常不会将原始 fMRI 扫描直接输入神经网络。相反,我们会构建一个 脑图 (Brain Graph) 。
- 分区 (Parcellation): 大脑被划分成特定的感兴趣区域 (ROIs)。这些就是我们图中的“节点”。
- 时间序列提取 (Time-Series Extraction): 对于每个 ROI,我们随时间提取一系列信号 (来自 fMRI 数据) 。
- 相关性 (Correlation): 我们计算区域 A 的信号与区域 B 的相关程度。
衡量这一指标的标准是 皮尔逊相关系数 (Pearson Correlation Coefficient) :

这里,\(x\) 和 \(y\) 是两个脑区的信号序列。高相关性意味着这些区域在功能上是连接的。为了清理图,研究人员通常会应用一个阈值,只保留最强的连接:

结果是一个 邻接矩阵 (\(A\)) , 它代表了脑网络的拓扑结构。
消息传递的主导地位
一旦有了这个图,行业标准是使用 图神经网络 (GNNs) 。 GNN 依赖于一种称为 消息传递 (Message Passing) 的机制。
简单来说,消息传递允许节点通过聚合来自其邻居的信息来更新其自身对世界的理解。

在像图卷积网络 (GCN) 这样的标准 GNN 中,这种聚合在数学上是通过邻接矩阵 (连接) 与节点特征之间的矩阵乘法来执行的。

同样, Transformer 使用注意力机制。这本质上是一种“全局”消息传递方案,其中每个节点 (脑区) 都会关注所有其他节点以计算加权更新。

这些方法很强大。但它们适合这类特定的数据吗?
问题: “双重使用”悖论
这篇论文的作者注意到,在将 GNN 应用于脑网络时存在逻辑上的不一致。
在社交网络中,图结构 (谁关注谁) 与节点特征 (用户资料数据) 是截然不同的。然而,在脑网络分析中, 我们通常缺乏独特的节点特征。 特征通常源自连接本身 (例如,使用连接矩阵作为特征输入) 。
这就造成了冗余。
- 输入: 我们使用相关性矩阵作为“特征”。
- 模型: 我们使用相关性矩阵作为“结构”来引导消息传递。
论文指出,因为脑网络是使用所有 ROI 对之间的成对皮尔逊系数构建的,所以“整体关系”已经存在于输入中了。

如上方的 图 1 所示,GNN 最终使用了两次拓扑信息。此外,Transformer 试图学习全局关系图 (注意力) ,尽管输入 (皮尔逊相关性) 本身就是一个全局关系图。
现实检验
为了验证这一假设,研究人员将复杂的 GNN 和 Transformer 与一个简单、“笨拙”的线性分类器进行了比较,后者只是直接查看相关性矩阵 (没有任何图消息传递) 。

图 2 中的结果令人震惊。在自闭症 (ABIDE) 和阿尔茨海默病 (ADNI) 的数据集上, 简单分类器 (绿色柱) 始终优于复杂的 GNN 和 Transformer。这表明消息传递机制不仅是不必要的,而且可能会因为过度平滑或使信号复杂化而阻碍性能。
解决方案: 脑二次网络 (BQN)
如果标准的消息传递 (矩阵乘法) 是错误的工具,那什么是正确的呢?作者提议从线性算子转向 二次网络 (Quadratic Networks) 。
为什么要用二次网络?
线性函数 (如标准矩阵乘法 \(Wx + b\)) 有局限性。例如,一个简单的线性模型无法解决“异或 (XOR)”问题 (计算机科学中的一个经典逻辑问题) 。然而,二次函数具有更强的表达能力。
二次神经元的一般形式如下:

注意包含 \(a^2\) 的项。这使得网络能够更有效地捕捉非线性交互。
秘密武器: 哈达玛积
研究人员提出了一种名为 脑二次网络 (BQN) 的新架构。BQN 不使用 GNN 中常用的矩阵乘积 (聚合邻居) ,而是使用 哈达玛积 (Hadamard product) (\(\odot\))。
哈达玛积就是简单的 逐元素乘法 。 如果你有两个矩阵,你是逐个单元格相乘,而不是做标准矩阵乘法中的行乘列“点积”。
BQN 的核心更新规则是:

这里:
- \(H\) 是脑区的表示。
- \(A\) 是邻接矩阵 (脑网络) 。
- \(W\) 代表可学习的权重。
- \(\odot\) 是逐元素乘法。
这种操作允许模型单独缩放特定连接的重要性,而不会像标准消息传递那样将信息“涂抹”到邻居身上。
为了证明这一点行之有效,他们比较了使用哈达玛积的基本 二次神经网络 (QNN) 和使用矩阵乘积的 GCN 。

如 图 3 所示,二次方法 (条纹柱) 在所有指标 (AUC、准确率、敏感度、特异性) 上都压倒了 GCN (青色柱) 。此外,当增加层数时,GCN 的性能会下降或停滞 (这是一个被称为“过平滑”的常见问题) ,而 QNN 的性能实际上随着深度的增加而提高。
完整的 BQN 架构
最终提出的 BQN 模型添加了一个“残差”项以帮助训练稳定性。完整的更新方程为:

- 第一项: \(\mathbf{H}^{l-1} \odot (\mathbf{A}\mathbf{W}_{A}^{l})\) — 这捕捉了当前表示与脑拓扑之间的二次交互。
- 第二项: \((\mathbf{H}^{l-1} \odot \mathbf{H}^{l-1})\mathbf{W}_{H}^{l}\) — 这是一个自交互项 (残差) ,用于稳定学习并减少方差。
为什么有效?理论联系
这篇论文最令人印象深刻的部分不仅在于“是什么”,还在于“为什么”。作者提供了一个数学证明,将其特定的更新规则与 社区发现 (Community Detection) 联系起来。
社区发现是寻找内部紧密连接的节点簇 (如大脑中的功能模块) 的过程。寻找这些社区的一种常见方法是通过 非负矩阵分解 (NMF) 。
NMF 的目标函数如下所示:

目标是找到一个矩阵 \(H\) 来近似邻接矩阵 \(A\)。研究人员对该函数求导,并推导出了 \(H\) 的更新规则:

这与 BQN 第一项的公式完全相同!
这一理论发现意义深远。这意味着通过训练 BQN,网络实际上是在隐式地执行社区发现。它自然地逐层学习将脑区划分为功能模块 (簇) ,这与我们所知的生物学上的大脑组织方式完全一致。
社区可视化
为了将其可视化,作者比较了 BQN 学习到的脑连接模式与原始数据。他们创建了“对比图”来突出自闭症大脑与健康大脑之间的差异。

在 图 6 中,上排 (a) 显示了基于原始数据的对比,显得杂乱且密集。下排 (b) 显示了 BQN 学习到的对比。
BQN 图更清晰、更稀疏。更重要的是,它突出了跨越半球的特定长程连接 (红线) 。这些特定的连接 (涉及前额叶皮层和胼胝体) 在生物学上已知在自闭症谱系障碍中会被破坏。这证实了 BQN 不仅仅是在处理数字;它正在识别具有生物学意义的功能模块。
实验结果
研究人员将 BQN 与大量竞争对手进行了测试,包括标准 GNN (GCN, GAT)、专门的脑 GNN (BrainGB) 和图 Transformer (Graphormer, Brain-NETTF)。
他们使用了两个主要数据集:
- ABIDE: 自闭症谱系障碍分类。
- ADNI: 阿尔茨海默病分类。
分类性能

查看 表 1 , BQN (最后一行) 在几乎所有指标上都取得了 最佳性能 。
- 在 ABIDE 上,它的 AUC 达到了 79.85% , 比第二名 (ALTER) 高出近 2%。
- 在 ADNI 上,它的 AUC 达到了 74.18% , 显著优于复杂的 Transformer。
速度与效率
在临床环境中,效率至关重要。复杂的 Transformer 可能需要很长时间来训练,并且需要昂贵的硬件。因为 BQN 使用哈达玛积 (复杂度 \(O(N^2)\)) 而不是矩阵乘法 (复杂度 \(O(N^3)\)) ,所以它在理论上要快得多。

表 2 证实了这一点。BQN 的速度非常快。
- 在 ABIDE 上,BQN 训练耗时 11.31 秒 。
- 相比之下,Graphormer 耗时 973.52 秒 。
- BQN 比重型 Transformer 模型快近 100 倍 , 同时提供了更好的准确率。
稳定性与消融实验
最后,作者检查了他们的设计选择是否合理。
残差项有帮助吗? 是的。如下方 图 4 所示,添加残差项 (蓝色柱) 后,性能始终优于基础模型 (粉色柱) 。

网络应该多深? 深层 GNN 通常会遭遇性能下降。然而,BQN 保持相对稳定。

图 5 显示,BQN 在 1 到 3 层时表现最佳。虽然在 4-5 层时性能略有下降 (可能是由于在小数据集上的过拟合) ,但它没有遭遇标准 GNN 中常见的灾难性“过平滑”。
结论: 少即是多
论文《我们在脑网络建模中真的需要消息传递吗?》为神经科学中的人工智能领域提供了一个令人信服的路线修正。
关键要点如下:
- 质疑假设: 仅仅因为 GNN 在社交网络上是最先进的,并不意味着它们对脑连接组也是最优的。当输入特征是相关性时,“消息传递”范式引入了冗余。
- 简单的力量: 更简单的二次算子 (哈达玛积) 比复杂的矩阵乘法更能捕捉数据结构。
- 生物学一致性: 提出的 BQN 在数学上与社区发现一致,使其更具可解释性和生物学合理性。
- 效率: BQN 在取得最先进 (SOTA) 结果的同时,速度比 Transformer 快几个数量级。
这项研究提醒我们,在机器学习中,更新、更复杂的架构并不总是答案。有时,针对数据的特定性质——在本例中是脑网络的相关性本质——量身定制数学算子,才能产生最好的结果。
这篇博客文章解释了 Liang Yang 等人发表在 ICML 2025 上的研究论文《Do We Really Need Message Passing in Brain Network Modeling?》。
](https://deep-paper.org/en/paper/5489_do_we_really_need_message-1647/images/cover.png)