Transformer 为我们带来了改变一切的大语言模型。它们功能强大,可进行大规模训练,并且在实践中极为高效。然而,它们在某种程度上仍然是一个谜: 密集的张量、批量归一化的堆栈和注意力矩阵是出色的工程抽象,但它们与人脑中大规模并行、局部交互的神经元和突触网络并不太相似。
论文《龙之幼雏: 连接 Transformer 与大脑模型的缺失环节》(THE DRAGON HATCHLING: THE MISSING LINK BETWEEN THE TRANSFORMER AND MODELS OF THE BRAIN) 介绍了一个新的架构家族——BDH 及其 GPU 友好变体 BDH-GPU——旨在弥合这一差距。BDH 是一种图优先、受生物学启发的语言与推理架构,其 GPU 友好的实例化版本在性能上可媲美 Transformer,同时具备可解释的、类似于神经元和突触的局部动态特性。本文将解析其核心思想、直觉和关键的实证发现,帮助您理解 BDH 如何在张量与生物学之间架起桥梁。
图 1: 架构及其关系概述。BDH (图优先) 和 BDH-GPU (张量友好) 充当了 Transformer 风格的宏观层面的张量操作与类似于大脑模型的微观层面的局部图动态之间的桥梁。
为何这很重要
这项工作有两个重要的目标动机:
- 长度泛化和可预测的长期行为。现代大语言模型有时无法将推理链泛化到比训练中见过的更长的上下文。如果我们想要安全、可靠的长期自主推理,就需要模型在规模和时间上的行为更具可预见性。
- 从微观到宏观的可解释性。大脑是一个无标度、图结构的系统,具有局部交互;我们缺乏一个简洁的微观基础,来解释这种结构如何实现类似注意力的推理行为。反之,Transformer 的机制主要在向量层面可解释;我们缺乏一个粒子层面、局部动态的解读。
BDH 提出了一种统一的视角: 注意力和前馈计算可以实现为图上的局部神经元-突触动态。当相同的动态以 GPU 友好的方式进行排列 (BDH-GPU) 时,所得系统可用反向传播进行训练,并符合 Transformer 的规模定律——但其学习到的状态可直接在微观层面解释为突触可塑性和神经元激活。
高层直觉: 肯定前件遇上赫布理论
两个简单的想法驱动了 BDH 的直觉:
**肯定前件 **(近似、加权) 。如果系统以权重 \(X(i)\) 相信事实 \(i\),且存在一个从 \(i\) 到 \(j\) 的强度为 \(\sigma(i,j)\) 的规则 (蕴含) ,那么 \(i\) 对 \(j\) 的信念贡献与 \(X(i)\sigma(i,j)\) 成正比。示意为:
\[ X(i),\ \sigma(i,j)\ \to\ A(j). \]**赫布增强 **(快速权重/突触可塑性) 。若一个神经元上的活动 \(Y(i)\) 紧随另一个神经元上的活动 \(X(j)\) 之后发生,则突触强度 \(\sigma(i,j)\) 按比例增强:
\[ Y(i),\ X(j)\ \to\ \sigma(i,j), \]即“共同激发的神经元相互连接”,可视为上下文中的快速权重更新。
结合来看,这些规则使系统既能利用现有连接进行前向推理,又能动态调整这些连接,从而实现快速的上下文学习。实际上,这实现了慢速权重 (已学习的参数) 与快速权重 (工作状态突触) 的分离,类似于 Transformer 的参数与 KV 缓存,但在神经元-突触层面是局部且可解释的。
BDH: 一种图优先的语言与推理模型
BDH (Biologically-inspired Dragon Hatchling,受生物学启发的龙之幼雏) 被定义为一种分布式图动态,具有:
- \(n\) 个神经元节点 (粒子) ;
- 节点上的状态变量 (激活) 与边上的状态变量 (突触) ;
- 按照一个小型有限核函数,在同步回合中执行的局部规则。
作者将 BDH 表示为一个边重加权的交互核: 规则仅能触及单一节点上的状态变量,或一条边及其关联节点上的状态变量——这符合突触动态的自然设定。
一个简洁实用的 BDH 描述是“推理方程”: 每层重复四个子回合:
- 回合 \(4l\): 从突触状态进行推断——激活使用当前 \(\sigma\) (注意力) 传播,并填充节点级的累加器。
- 回合 \(4l+1\): 赫布重加权——突触上的共同激活增加 \(\sigma(i,j)\)。
- 回合 \(4l+2\) 和 \(4l+3\): 从固定参数进行推断——兴奋/抑制回路 (长期权重) 传播信号,节点执行积分-发放阈值处理。
整个核是局部的: 每个节点只需其自身激活和入射边状态。
图 2: BDH 的“推理方程”: 一套简洁的规则集,管理跨回合的局部神经元-突触更新。这些规则结合了基于突触状态的推理 (注意力) 、赫布增强,以及基于参数的推理 (带阈值的兴奋/抑制) 。
振荡器玩具模型——类比直觉
一个有用的类比: 想象神经元为由弹性连接器 (突触) 相连的粒子。快速脉冲 (节点激活 \(x,y\)) 通过导线传播;当脉冲在连接两端同时出现时,弹性连接器积累张力 \((\sigma)\)。张力会随时间衰减,除非被再次加强。这体现了:
- 快速、脉冲式激活动态 (神经元发放) ;
- 缓慢的突触状态演化 (工作记忆) ;
- 以及通过路径组合自然实现 2–3 跳的传播。
图 3: BDH 的玩具物理模型: 节点脉冲 (快) 与连接器张力 (慢状态) 展示了赫布式更新与传播如何在局部动态中共存。
该类比解释了为何突触更新罕见且稀疏 (只有在正确脉冲组合下才会更新突触) ,以及为什么突触状态可呈现重尾时间统计特性 (多数突触很少变化,少数频繁变化) 。
BDH-GPU: 在现有硬件上实现可训练
BDH 虽具备生物学合理的局部动态特性,但朴素地模拟 \(n\times n\) 突触矩阵不可行。BDH-GPU 是其张量友好的版本,保留相同的概念行为,并可在 GPU 上高效训练。
核心工程设计包括:
- 用低秩分解表示神经元间交互矩阵 \(G_x, G_y\): 编码器 \(E \in \mathbb{R}^{d\times n}\) 与解码器 \(D_x, D_y \in \mathbb{R}^{n\times d}\),形成操作: \[ f_{DE}(z) := (D E z)^+ \] 其中 \((\cdot)^+\) 为 ReLU,因此输出为正且可稀疏。
- 不显式存储 \(\sigma\): 实现为对每个神经元紧凑状态 \(\rho \in \mathbb{R}^{n\times d}\) 的线性注意力 (即存储规模为 \(n\times d\) 而非 \(n\times n\)) 。
- 使用 LayerNorm 和 ReLU 保持激活为正并促进稀疏。
BDH-GPU 在每层、每时间步的状态空间更新 (非正式) 可总结为:
- 将注意力状态累积至 \(\rho\);
- 用 ReLU-低秩残差 \(x \leftarrow x + (D_x \operatorname{LN}(E\,y))^+\) 更新神经元激活 \(x\);
- 计算稀疏门控 \(y = (D_y \operatorname{LN}(\rho,x))^+ \odot x\);
- 通过 LayerNorm 编码器生成下一层输入: \(v^* = \operatorname{LN}(E\,y)\)。
该过程在数学上 (除 LayerNorm 位置不同外) 等同于一种 BDH 图动态的平均场广播解释: 每个粒子广播低维消息,接收聚合平均场后进行局部更新。
图 4: 状态空间方程 (示意) 。BDH-GPU 是 BDH 的张量友好特化版本: 保持每神经元状态,使用低秩编码器/解码器对模拟神经元间作用及突触。
单层结构示意
单层 BDH-GPU 分为两个分支:
- 左: ReLU-低秩前馈路径 (编码器 \(E\)、解码器 \(D_x\)) ;
- 右: 线性注意力路径,输入解码器 \(D_y\),由 \(x\) 实现门控。
该架构主要通过增加 \(n\) (神经元数) 来扩展,\(d\) (低秩维度) 适中 (如 256) 。关键在于激活向量 \(x,y \in \mathbb{R}^n\) 为正,且经验上较为稀疏。
图 5: BDH-GPU 单层数据流。每神经元状态 \(\rho\) 存储为 \(n\times d\),由秩 1 注意力更新;解码器 \(D_x,D_y\) 将低秩消息还原至神经元空间。
它有效吗?实验与扩展性
BDH-GPU 在机器翻译/语言建模任务 (Europarl 脚本) 上进行训练,参数规模从数千万到约 10 亿。主要发现:
- BDH-GPU 遵循类似 Transformer 的规模定律: 在相同参数规模 (1000 万–10 亿) 下,其在下一个词预测和翻译任务上的表现可与 GPT 风格 Transformer 持平。
- 实验中,BDH-GPU 常在每个词元的学习速率更快 (单位词元的损失下降更多) ,尤其在数据稀缺时更明显。
- 使用标准反向传播训练,未使用特殊目标函数来强制产生观察到的涌现特性。
图 6: BDH-GPU 与 GPTXL 在翻译任务中随模型规模变化的性能对比。BDH-GPU 变体遵循与 Transformer 相似的扩展规律,并在各模型规模下匹配基线表现。
每词元的理论计算成本约为 \(O(ndL)\) FLOPs (\(L\) 为层数) ,但稀疏激活和注意力使实际成本更低。
涌现现象: 模块化图、重尾分布和可解释突触
一个显著发现是: 在无架构先验约束下,BDH-GPU 学到的神经元及其有效交互矩阵 (如 \(G := D_x E\)) 表现为:
- 元素分布呈重尾 (存在强正值的右尾) ;
- 阈值处理后具有高模块性 (社群结构) ;
- 作为图具有核心–边缘结构及近似幂律的度分布。
这与生物网络诸多特性一致: 少数枢纽连接、大量弱连接、密集的局部群落,利于社群内高效传播。
图 7: (a) 学得的编码器-解码器乘积 \(G^*\) 元素分布呈重尾右侧。(b) 阈值图 \(G_{\ge\beta}\) 的 Newman 模块性在宽阈值范围内较高,显著高于随机基线。
成因有二:
- ReLU-低秩操作充当选择性、感知社群的传播: 信号经低秩隐藏层编码、加偏置 ReLU,放大社群内亲和度,抑制噪声。对稀疏正输入而言,这类似密集图内社群强化内部信号的传播。
- 超高神经元维度 \(n\) 下的线性注意力可表达高容量、清晰的联想记忆: 通过精心设计键,BDH-GPU 在温和假设下可区分多达 \(\tilde{O}(n)\) 个不同键值对。
二者共同促成模块化、无标度连接结构的涌现。
单义突触与稀疏激活
或许最具实用性的可解释性成果是: BDH-GPU 的注意力状态矩阵 (恢复的 \(\sigma\) 或其等价 \(\rho\)) 中的单个突触常充当单义检测器。
在 Europarl 训练模型中,作者识别出“货币突触”和“国家突触”: 在上下文出现货币名称时前者值稳定上升,出现国家名称时后者上升。这些突触在英语、法语中均保持一致,且强度足以显著区分提及与未提及概念的句子。
图 8: 两个概念特异性突触随时间的激活变化: “货币突触”与“国家突触”。提及概念即引发突触强度可预测上升。
稀疏激活在此至关重要: 在已训练的 BDH-GPU 中,给定词元下仅约 5% 的神经元活跃。稀疏性使突触更新稀少且语义集中: 类似赫布规则仅在正确的小部分神经元按序激发时加强相关连接。
图 9: 示意当神经元 \(i\) (早层) 与 \(j\) (后层) 以正确时间顺序激发时,赫布更新加强突触。稀疏发放导致稀疏且集中的突触增强。
这一组合——高维神经元空间、低秩解码器、正值 ReLU 阈值、线性注意力、稀疏激活——带来了可解释性 (单义突触) 与性能。
模型可组合性: 小模型合并
BDH-GPU 的统一神经元中心表示支持简单的模型合并: 将独立训练的模型在神经元维度 \(n\) 上拼接,同时平均共享张量 (如嵌入) 。作者在翻译任务中实验:
- 英西双语基础模型训练;
- 克隆并微调一个副本为英法,另一为英葡;
- 拼接神经元维度 (\(n\) 翻倍) ,平均其余参数。
未经额外微调,合并模型可将西/法/葡译成英语。从英语译出罗曼语族语言时输出混杂,但少量联合训练即可恢复表现。证明当概念表示在神经元层面解耦时,简单拼接即可组合能力。
图 10: 合并模型的示例: 跨语言翻译成英语稳定;从英语译出时在未微调状态下出现混语。
对模型工程的实践启示
若您在构建或评估模型,BDH-GPU 提供了几项实用思路:
- 关注单神经元结构: 围绕神经元 (概念) 轴设计状态和参数可获得密集 Transformer 难以抽取的可解释性与模块性。
- 正值稀疏激活 + ReLU 低秩解码器可有效放大群内信号并去噪。
- 在超高维键/查询空间,若准备得当且维度足够,线性注意力可媲美 softmax 注意力。
- 若内部概念已解耦,通过拼接神经元轴合并模型是一种可行的能力组合途径。
- 激活稀疏性意味着每词元仅少量突触更新——这使近似的跨时间反向传播或其他局部信用分配方法更可行并具可扩展性。
对神经科学与学习理论的启示
BDH 本身并非神经科学模型,但提供了建设性假设:
- 注意力与推理可通过突触局部边重加权 (赫布) + 快脉冲节点动态 + 兴奋/抑制回路 + 阈值处理实现——正是 BDH 的局部组成。
- 大脑的模块化、无标度结构或是受限突触状态容量与稀疏性约束下,执行上下文注意力推理的涌现产物。
- 将大脑的短期推理与突触可塑性视为高容量稀疏工作状态 (多数突触可用,瞬时仅少数更新) ,可将终身学习重新理解为重要突触变化的重复选择性固化。
总之: BDH 提供了连接微观突触规则与宏观注意力链式处理的具体桥梁。
局限与开放问题
BDH 与 BDH-GPU 拓展了大量研究方向,但尚有注意事项:
- 所用 BDH 图核并非唯一。或有更简单或更具生物现实性的核,在某些权衡上更优。
- 当前实证虽鼓舞人心,但不足以证明 BDH 在各方面优越于其他模型。Transformer 仍然实用且成熟。
- BDH 与大脑的映射富有启发,但非定论: 证明生物大脑确切使用这些原语超出目前证据范围。
- 需更大规模实验、多样数据模态及进一步消融 (低秩维度 \(d\) 作用、极端规模下稀疏性表现等) 。
结语
BDH 与 BDH-GPU 是朝向既高性能又可在神经元/突触层面解释的架构迈出的重要一步。它们表明:
- 可在匹配 Transformer 性能的同时,赋予模型局部图结构的微观解读;
- 稀疏正激活、带 ReLU 阈值的低秩解码器、大规模神经元空间中的线性注意力构成强大三元组;
- 涌现的模块性、突触重尾分布、单义突触是自然产物,而非刻意设计的“惊喜”。
若您关注能兼顾扩展性与更透明内部工作机制的架构,或寻求通过拼接组合模型的实用途径,BDH-GPU 值得深入研究。
更多阅读与完整技术论文可参见作者的仓库与研究页面 (详见原论文链接与代码) 。