规模的局限性: 为什么更大的 AI 模型不一定是更好的大脑模型
在当今的人工智能时代,有一个普遍的信条: 规模即一切 (scale is all you need) 。 从 GPT-4 这样的大型语言模型 (LLM) 到大规模视觉 Transformer,成功的秘诀在很大程度上取决于增加参数数量、向模型输入更多数据以及在训练过程中投入更多算力。这种“暴力”方法在从代码编写到生成逼真图像等各项任务中都取得了前所未有的性能。
对于计算神经科学家来说,这引发了一个有趣的问题。长期以来,我们一直使用人工神经网络 (ANN) 作为灵长类动物视觉系统的代理模型。如果扩大模型规模能让它们在计算机视觉任务上表现得更好,这是否也意味着它们能成为更好的生物大脑模型?
Abdulkadir Gokce 和 Martin Schrimpf 最近发表的一篇题为 “Scaling Laws for Task-Optimized Models of the Primate Visual Ventral Stream” (任务优化后的灵长类腹侧视觉流模型的缩放定律) 的论文,通过严格的数据驱动方法探讨了这个问题。通过系统地训练 600 多个模型,他们探索了推动 AI 进步的“缩放定律”是否也适用于大脑对齐度 (brain alignment) 。
结果令人惊讶。虽然扩大规模有助于模型模仿人类的行为,但我们似乎在这些庞大模型复制大脑内部神经机制的能力上遇到了硬性天花板。
问题: “更聪明”的模型看起来更像大脑吗?
腹侧视觉流是灵长类动物大脑中负责物体识别的通路——常被称为“什么 (What) ”通路。它分层处理信息,从初级视觉皮层 (V1) 开始,经过 V2 和 V4,最后到达下颞叶 (IT) 皮层,并在那里形成复杂的物体表征。
在过去的十年里,在物体分类任务 (如 ImageNet) 上训练的深度卷积神经网络 (CNN) 一直是这一生物系统的最佳预测模型。人们假设,随着我们让这些网络在视觉上更出色 (通过加深或加大网络) ,它们会自然地收敛于进化所找到的生物学解决方案。
然而, 工程性能 (数据集上的准确率) 与生物保真度 (大脑对齐度) 之间的关系并不明朗。这篇论文试图通过建立正式的“缩放定律”来阐明这种关系。

如图 1 所示,研究人员着手确定随着计算预算 (\(C\)) 的增加,对齐度得分如何变化。图 (b) 中提供的初步总结暗示了论文的主要转折: 神经对齐度和行为对齐度遵循着截然不同的轨迹。
背景: 缩放定律与 Brain-Score
在深入实验之前,我们需要了解两个关键概念: 缩放定律和 Brain-Score。
1. 缩放定律的力量
在机器学习中,“缩放定律”指的是观察到模型性能 (通常是损失) 随着算力、数据量或参数数量的增加呈现可预测的幂律函数改进。如果你在双对数坐标系上绘制测试损失与训练算力的关系图,你会得到一条直线。这种可预测性使得研究人员能够估算出如果预算翻倍,模型会变“聪明”多少。
本文作者将幂律函数拟合到大脑对齐度得分 (\(S\)) 或不对齐度得分 (\(L = 1 - S\)) 上。方程的一般形式为:

这里,\(L\) 是不对齐度,\(E\) 是不可约误差 (可能的最佳得分) ,\(A\) 是常数,\(X\) 是缩放因子 (如数据大小) ,\(\alpha\) 是缩放指数。\(\alpha\) 越高,意味着随着规模扩大,模型的改进速度越快。
2. 用 Brain-Score 衡量成功
为了衡量“大脑对齐度”,作者使用了 Brain-Score 基准。这是一套标准化的指标,用于比较人工神经网络与生物数据:
- 神经对齐度 (Neural Alignment) : 将人工网络层的内部激活与猕猴 V1、V2、V4 和 IT 区域的单单元记录进行比较。
- 行为对齐度 (Behavioral Alignment) : 将模型的“混淆矩阵”与人类行为进行比较。例如,如果人类经常把狗误认为是猫,但很少误认为是汽车,那么一个好的模型也应该犯类似的错误。
实验: 系统的“模型工厂”
之前关于这个主题的研究通常是拿现成的模型 (如预训练的 ResNet50) 进行比较。这种方法的问题在于,这些模型是使用不同的配方、增强方法和数据集训练的,因此无法分离“规模”这个变量。
Gokce 和 Schrimpf 采取了不同的方法: 受控训练。
他们从头开始训练了超过 600 个模型 。 这包括:
- 架构: ResNets, EfficientNets, Vision Transformers (ViTs), ConvNeXts, 以及 CORnet-S。
- 数据集: ImageNet (标准物体识别) 和 EcoSet (生态有效类别) 。
- 数据体系: 他们改变了每个类别的样本数量,从仅仅 1 张图像一直到完整的数据集 (数千张图像) 。
这项巨大的工程使他们能够将模型大小 (参数) 的影响与数据大小 (样本) 的影响区分开来。
核心结果
1. 巨大的分离: 行为 vs. 神经元
最引人注目的发现是行为对齐度和神经对齐度之间的分歧。
当研究人员扩大算力规模时,模型的行为对齐度得分 (它们模仿人类错误模式的程度) 继续上升,遵循着一个有希望的幂律。曲线表明,只要有足够的算力,我们可以接近近乎完美的行为对齐。
然而, 神经对齐度饱和了。

如图 2 所示,无论架构如何 (ResNet, ViT 等) ,神经对齐度得分都会趋于平缓。我们要么把模型做大,要么训练更长时间,但在其内部神经元与生物神经元的匹配程度上,收益为零。我们正撞上一堵墙。
2. 架构之战: 归纳偏置很重要
并非所有的神经网络都是生而平等的。该研究比较了 卷积神经网络 (CNN) (如 ResNet 和 EfficientNet) 与 Transformers (ViTs) 以及现代混合架构 (ConvNeXt)。
- 强归纳偏置: CNN 的设计中内置了“先验”。它们假设空间不变性 (左上角的猫与右下角的猫是一样的) 。这模仿了早期视觉皮层中发现的感受野。
- 弱归纳偏置: Vision Transformers 将图像视为图块 (patches) 序列。它们必须从头开始“学习”如何处理空间关系。
图 2a 和 图 3b 中的结果揭示了一个有趣的动态:
- 低数据体系: 在早期阶段 (低算力/数据) ,CNN 占主导地位。它们内置的结构使它们在大脑对齐方面具有先发优势。
- 高数据体系: 随着数据和算力的增加,“较弱”的模型 (ViTs 和 ConvNeXts) 迎头赶上。有了足够的数据,架构就不那么重要了;数据塑造了模型,使其与大脑对齐。
这表明生物结构 (卷积) 非常高效,但如果给予足够的经验,通用学习机器也能达到同样的目的地。
3. 数据为王 (和后)
如果你的算力预算有限,你应该建立一个更大的模型,还是应该收集更多的数据?
论文对此给出了明确的答案: 专注于数据。

论文推导出的缩放定律表明,增加数据集大小 (\(D\)) 比增加模型大小 (\(N\)) 具有更高的指数 (更好的投资回报率) 。
事实上,作者计算了资源的最佳分配。为了最大化大脑对齐度,你应该比扩大模型参数快得多地扩大你的数据集。

图 4 将这种权衡可视化了。从他们的数据中得出的最佳分配方程表明,对于每一单位的算力增加,大约 70% 应该用于数据扩增 , 只有 30% 用于模型规模扩增 。 这对目前 AI 领域某些专注于万亿参数模型的趋势提出了挑战。
4. 层级效应
大脑不是铁板一块的;它是一个层级结构。研究发现,缩放带来的好处取决于你观察的是哪个大脑区域。

- V1 (初级视觉皮层) : 扩大规模几乎没有帮助。即使是小模型也能很好地与 V1 对齐,而巨大的模型并没有提供太多改进。这表明 V1 特征是“廉价”且易于学习的。
- IT (下颞叶皮层) 与行为: 这些高级区域从规模扩大中获益最大。这里所需的复杂语义表征需要大规模学习带来的“深度”和数据量。
5. 任务性能 \(\neq\) 神经对齐度
最后,研究人员解决了“更好的性能等于更好的大脑模型”这一假设。

图 6 对当前的建模方法来说可能是最具破坏性的。虽然行为对齐度 (图 b) 与验证准确率步调一致,但神经对齐度 (图 a) 却脱节了。你可以拥有一个在 ImageNet 分类上超越人类的模型,但其内部神经表征并不比一个弱得多的模型更像“大脑”。
为什么神经对齐度会饱和?
作者讨论了我们可能触及这一天花板的几个原因:
- 监督学习的局限性: 大多数模型被训练用于分类物体 (监督学习) 。然而,大脑主要通过自监督 (预测未来,关联输入) 来学习。
- *注: * 作者测试了自监督学习 (SSL) 模型 (SimCLR, DINO) ,发现它们同样遭受饱和,尽管它们有时在数据效率上更高。
- 缺失的生物学特性: 目前的 ANN 缺乏循环 (反馈回路) 、脉冲和特定的生物学约束。虽然作者测试了 CORnet (一种循环模型) ,甚至它最终也饱和了。
- 数据质量: ImageNet 是静态、精选照片的集合。灵长类动物的视觉流进化是为了处理自然界连续、动态的视频流。
结论与启示
这篇论文为神经 AI (NeuroAI) 领域提供了一个至关重要的“清醒剂”。它确立了我们不能简单地使用当前的架构和数据集,通过扩大规模来实现完美的大脑模型 。
虽然扩大规模对于复制人类行为 (输出) 非常出色,但在复制神经机制 (内部状态) 方面,收益递减。
给学生的主要启示:
- 行为 \(\neq\) 机制: 一个模型可以表现得像大脑,而不必像大脑那样工作。
- 先验的效率: 看起来像大脑的架构 (CNN) 是高效的学习者,但海量数据允许非结构化模型 (Transformers) 迎头赶上。
- 数据优于参数: 如果你想要一个更好的大脑模型,获取更多/更好的数据,而不仅仅是增加层数。
- 天花板是真实的: 要突破当前神经对齐度的饱和,我们可能需要范式转变——也许是转向更具生态有效性的视频数据、具身学习,或超越简单分类的生物学合理训练目标。
对于大脑建模而言,“只要增加更多算力”的时代可能正在结束。下一个突破可能来自更聪明的设计,而不仅仅是更大的设计。
](https://deep-paper.org/en/paper/2411.05712/images/cover.png)