人类的大脑常被比作一支复杂的管弦乐队。不同的区域——就像弦乐、管乐和打击乐部分——必须完美同步地演奏,才能产生连贯的思想和行动交响乐。然而,与声速恒定的标准乐队不同,大脑区域之间的“通信速度”是不断变化的。有时区域之间瞬间交流;有时信号会有延迟,反映了不同的认知过程,如惊奇、注意或抑制。

对于神经科学家来说,“倾听”这种通信极其困难。现代技术允许我们同时记录多个大脑区域的数千个神经元,但分析这些数据以找到信息流动的方向速度仍然是一个巨大的计算障碍。

现有的模型通常陷入两个陷阱: 它们要么完全忽略时间延迟 (假设瞬间通信) ,要么假设延迟是静态的——永远固定在特定速度。但大脑是动态的。反馈信号可能这一刻很慢,下一刻就变快了。

在这篇文章中,我们将深入探讨一种称为自适应延迟模型 (Adaptive Delay Model, ADM) 的新框架。这项研究在两类强大的算法——高斯过程 (Gaussian Processes) 和状态空间模型 (State Space Models) ——之间架起了一座数学桥梁,创造了一种能够从大规模神经记录中学习时变 (time-varying) 通信延迟的工具。

问题所在: 为什么“静态”模型在脑科学中失效

要理解 ADM 的创新之处,我们首先需要了解数据。神经科学家记录的是“脉冲序列 (spike trains) ”——神经元放电的序列。当我们观察两个大脑区域,比如初级视觉皮层 (V1) 和高级区域 (V2) 时,我们不仅仅是在寻找相关性。我们是在寻找因果关系和延迟 (latency)

如果 V1 放电,V2 在 10 毫秒后放电,这暗示了一个“前馈”信号。如果 V2 放电,V1 随后放电,那就是“反馈”。

大多数当前的算法,如标准的因子分析甚至复杂的动力系统,都在以下方面面临困难:

  1. 时变延迟: 它们假设 V1 和 V2 之间的滞后在整个实验过程中是恒定的。
  2. 可扩展性: 那些确实对延迟进行建模的方法通常使用高斯过程 (GPs) ,其计算复杂度呈立方级增长 (\(O(T^3)\)) 。如果你记录的时间加倍,分析时间将延长八倍。对于长时间的神经记录来说,这是不可能完成的。

ADM 通过允许延迟参数随时间漂移,并使用一种巧妙的算法技巧将计算成本降低到对数时间 (\(O(\log T)\)) 来解决这个问题。

第一部分: 神经信号建模

研究人员解决这个问题的方法是假设成千上万个神经元的嘈杂、混乱的放电实际上是由少量平滑的、底层的“潜 (latent) ”变量驱动的。

他们将神经活动 \(\boldsymbol{x}\) 分解为两种不同类型的信号:

  1. 跨区域变量 (Across-Region Variables, \(\boldsymbol{x}^a\)) : 这些是在区域之间发送的“消息”。它们共享动态特性,但被时间延迟隔开。
  2. 区域内变量 (Within-Region Variables, \(\boldsymbol{x}^w\)) : 这些是特定于单个区域的局部闲聊,与其他区域无关。

这些潜在驱动因素与实际记录数据 \(\boldsymbol{y}\) (脉冲) 之间的关系使用因子分析进行建模:

The Factor Analysis equation relating observed data to latent variables.

在这里,\(\mathbf{C}\) 是将潜意识模式映射到物理神经元的投影矩阵,\(\epsilon\) 是噪声。

多输出平方指数核

为了捕捉“通信”,模型聚焦于跨区域变量 。 研究人员使用高斯过程 (GP) 对这些变量进行建模。GP 由“核”函数定义,该函数描述了数据点随时间如何相互关联。

为了显式地对区域 \(i\) 和区域 \(j\) 之间的延迟进行建模,他们使用了多输出平方指数 (Multi-Output Squared Exponential, MOSE) 核:

The MOSE kernel equation with the delay parameter theta.

在这个方程中:

  • \(\tau\) 是时间差。
  • \(l\) 是长度尺度 (信号有多平滑) 。
  • \(\theta_{ij}\) 是关键的延迟参数。 如果 \(\theta_{ij}\) 为正,区域 \(i\) 领先于区域 \(j\)。如果为负,则落后。

这个核是“延迟”概念的核心。它允许模型表达: “区域 A 的活动看起来与区域 B 完全一样,只是偏移了 50 毫秒。”

第二部分: 数学桥梁

这篇论文的核心理论贡献就在这里。

高斯过程 (GPs) 非常擅长建模延迟 (通过上面的核) ,但它们计算量大且通常是静态的。另一方面, 状态空间模型 (SSMs) 非常擅长处理时变动态且效率很高,但通常需要复杂的手动设计来模拟特定的核。

作者推导出了一个通用连接 (universal connection) , 可以将任何时间平稳的 GP 核转换为 SSM。这使我们兼得两家之长: 核的表达能力和状态空间推断的效率。

从核到矩阵

我们如何将核函数 \(K(\tau)\) 转换为线性系统的转移矩阵?作者将 SSM 视为一个回归问题。

想象一下,我们想根据过去 \(P\) 个状态来预测当前状态 \(\boldsymbol{x}_t\)。我们可以将其写为一个线性方程:

The autoregressive state space model equation.

这里的 \(\mathbf{A}_p\) 是我们需要找到的转移矩阵。通过将其视为回归问题:

The regression formulation of the state space model.

作者意识到,回归系数 \(\mathbf{G}\) (包含转移矩阵) 和噪声 \(\mathbf{Q}\) 可以使用最小二乘估计来求解。至关重要的是,该估计所需的项 (\(\mathbf{V}\mathbf{V}^\top\) 和 \(\mathbf{W}\mathbf{V}^\top\)) 充当了协方差矩阵。

而在 GP 中定义协方差的是什么? 核函数。

这导致了一个漂亮的推导,其中 SSM 的转移矩阵与核函数的评估值成正比:

The relationship between the predictor matrices and the kernel K.

这意味着,如果你定义了一个核 (如具有特定延迟的 MOSE 核) ,你可以立即计算出运行状态空间模型所需的精确矩阵。你不需要手动设计动力系统;核函数会为你完成。

马尔可夫结构

一旦转换完成,模型就被重构为“马尔可夫”形式。尽管 GP 考虑长期历史,转换后的模型在一个更大的“状态向量” \(\hat{\boldsymbol{x}}\) 中跟踪必要的历史。

The Markovian state space model matrices.

这种结构改变了问题。我们不再处理大小为 \(T \times T\) 的稠密核矩阵。我们要处理的是一个按步骤更新的序列系统。

第三部分: 使其自适应 (时变)

到目前为止,我们已经建立了一座将静态延迟核转换为 SSM 的桥梁。但目标是建模时变延迟。

因为作者成功地将 GP 转换为 SSM 格式,他们现在可以利用状态空间模型的一个独特特性: 参数可以在每个时间步发生变化。

在 ADM 框架中,转移矩阵 \(\hat{\mathbf{A}}\) 不再是常数。它变成了 \(\hat{\mathbf{A}}_t\),源自特定于时间的延迟 \(\theta_{ij,t}\)。

The time-varying state space model equation.

在每一个时刻 \(t\),模型都会构建一个以该时刻特定延迟为条件的局部马尔可夫 GP。这使得延迟 \(\theta\) 可以在实验过程中平滑漂移,捕捉大脑区域如何加速或减慢它们的通信。

第四部分: 对数级的推断速度

拼图的最后一块是速度。标准的卡尔曼滤波 (用于求解 SSM 的算法) 是顺序的。要计算时间 \(t=100\) 的状态,必须先计算 \(t=1...99\)。这是 \(O(T)\),即线性复杂度,通常很快,但对于海量数据集来说还不够快。

作者采用了并行扫描推断 (Parallel Scan Inference)

通过将卡尔曼滤波操作公式化为结合律算子 (associative operators) ,计算可以在现代 GPU 上并行化。问题不再像链条一样解决,而是像二叉树一样解决。这将时间复杂度从线性 \(O(T)\) 降低到了对数级 \(O(\log T)\)。

Complexity comparison showing O(log T) for ADM.

这使得 ADM 能够分析那些会让传统 GP 方法窒息的超长记录。

实验结果

研究人员在三个不同的层面上验证了 ADM: 合成数据、猴子视觉皮层和小鼠视觉皮层。

1. 合成数据: 它能找到隐藏的延迟吗?

他们生成了人工数据,其中两个区域之间的延迟随时间从正值 (区域 A 领先) 变为负值 (区域 B 领先) 。

如下方图 1 所示,ADM (红/蓝线) 几乎完美地跟踪了真实值 (虚线) 。面板 (A) 特别展示了“估计延迟” (橙色线) 紧贴着“真实延迟” (紫色虚线) ,因为它从 +5 个时间窗摆动到 -5 个时间窗。面板 (C) 强调了计算优势: 随着持续时间 \(T\) 的增加,并行扫描 (棕色线) 几乎保持瞬间完成,而顺序方法 (蓝色线) 的时间则急剧增加。

Evaluation on synthetic data showing delay recovery and runtime.

2. 猴子 V1-V2: 视觉处理

接下来,他们将该模型应用于观看漂移光栅的猕猴的记录。重点是初级视觉皮层 (V1) 和次级视觉区域 (V2) 之间的相互作用。

结果 (如图 2 所示) 揭示了一个迷人的动态。

  • 面板 A: 你可以看到估计的延迟 (紫色线) 在移动。
  • 解释: 视觉刺激出现后,通信不是静态的。有一个强烈的“反馈”信号 (V2 对 V1 说话) 在改变速度。这与预测编码理论一致——较高的大脑区域向较低区域发送预测,随着大脑处理新图像带来的惊奇,这种预测的时间安排也在更新。

Evaluation on V1-V2 spike trains showing dynamic feedback.

ADM 在测试对数似然方面优于基线模型 (MRM-GP 和 DLAG) (面板 B) ,证明了对延迟的变化进行建模更符合生物学现实。

3. 小鼠 5 区域网络: 介观尺度图

最后,他们将模型扩展到小鼠视觉皮层的五个不同区域。这正是 ADM 效率闪光的地方,因为对 5 个区域之间具有时变延迟的相互作用进行建模,计算量非常大。

图 3 可视化了“介观脑网络”。

  • 面板 A: 显示了成对的延迟。注意延迟 (紫色线) 是如何摆动和漂移的——它们很少是恒定的。
  • 面板 B: 这是两个不同时间点 (\(t=3\) 和 \(t=50\)) 的大脑网络快照。箭头显示了影响的方向。
  • 前馈流: 你可以看到从 VISp (初级) 到像 VISal 这样的更高级区域的一致流动。
  • 动态转变: VISrl 和 VISal 之间的关系实际上在不同时间点之间反转了方向。静态模型会平均化这一过程,从而完全错过这个细节。

Evaluation on 5-region mouse data showing network hierarchy.

结论与意义

自适应延迟模型代表了计算神经科学向前迈出的重要一步。通过填补高斯过程的表达能力与状态空间模型的速度之间的鸿沟,它解决了两个主要问题:

  1. 生物学真实性: 它承认大脑是动态的,允许延迟随时间变化。
  2. 可扩展性: 它使用并行推断来高效处理大数据集。

这个框架不仅仅是为了更好地拟合数据;它允许神经科学家提出新的问题。我们现在可以研究在癫痫等动态疾病中通信是如何中断的,或者当我们疲劳与警觉时,“思维的速度”是如何变化的。通过实时观察延迟的变化,我们要得以一窥大脑内部的交通控制系统,不仅揭示了信息去往何处,还揭示了它是何时以及以多快的速度到达那里的。