现代人工智能 (AI) 的计算机视觉模型在物体识别、场景分割甚至生成逼真图像方面已经达到了惊人的水平。更令人着迷的是,它们的内部工作原理——即人工神经元激活的复杂模式——在观看相同刺激时,常常与人脑的神经活动呈现出惊人的相似性。这并非巧合,而是揭示信息处理深层原理的重要线索。
多年来,科学家们一直注意到这种大脑–AI相似性,但它为何出现一直是个谜。这种相似性是由模型的架构驱动的,还是源于训练数据的规模,又或者与所接触的数据类型有关?以往的研究通常考察的是预训练模型,其中这些因素会同时变化,导致无法孤立分析它们各自的作用。
来自 Meta AI 和 ENS-PSL 的研究团队最近正面解决了这一问题。他们在一个视觉 Transformer 家族中系统地控制模型大小、训练时长和图像类型,揭示了让 AI 能够像人类一样“看”世界的因果要素。
比较 AI 与大脑: 编码分析方法
在他们的实验之前,先要理解如何比较一个基于硅的神经网络和一个生物大脑。
研究人员采用了一种成熟的方法——**编码分析 **(encoding analysis) 。核心问题是: 是否存在一个可靠的映射关系,能将 AI 的内部表征转换为大脑的活动模式?
设想同时向一个视觉 Transformer 模型和一个人展示一张猫的图片。模型生成一个高维激活向量 (X
) ,而人的大脑则产生一个复杂的神经活动模式 (Y
) ,可以通过 fMRI 或 MEG 测量得到。
编码模型尝试寻找一个简单的线性变换 \(W\),用 \(X\) 来预测 \(Y\):
如果这种变换能很好地预测大脑活动,就说明 AI 的内部表征包含了与大脑相似的信息,只是“格式”不同。预测质量通过皮尔逊相关系数 \(R\) 衡量,这就是我们的大脑相似性分数。
为了同时获得空间和时间上的洞察,研究人员结合了:
- 功能性磁共振成像 (fMRI) — 高空间分辨率: 揭示活动发生的位置。
- 脑磁图 (MEG) — 高时间分辨率: 揭示活动发生的时间。
这种双重方法不仅可以判断 AI 与大脑的表征是否相似,还能探究它们在空间与时间层级组织上的一致性。
系统化的实验设计
他们的实验以 DINOv3 家族为基础——一个先进的自监督视觉 Transformer——在系统变化的配置下进行训练:
操控的因素:
- 模型大小:
从**小型 (2100万参数) 到巨型 **(11亿参数) ,全部使用相同的人类中心数据集进行训练,以隔离规模效应。 - 训练时长:
通过在训练过程中保存检查点,他们评估大脑相似性如何从未训练网络演变为完全训练网络。 - 图像类型:
三个大型模型变体,各自训练于1000万张图像:- 人类中心: 人物、地点和物体的日常照片。
- 卫星: 高分辨率航拍图像。
- 细胞: 显微镜下的细胞图像。
三种相似性度量:
- 编码分数: 整体大脑表征相似性。
- 空间分数: 模型层级与大脑空间层级的对齐程度 (如早期层匹配初级视觉皮层) 。
- 时间分数: 模型层级与大脑时间处理流程的对齐程度 (如早期层匹配早期 MEG 响应) 。
发现 1: 训练充分的 AI 会学习到类似大脑的层级结构
大型、完全训练的 DINOv3 显示出较强的整体大脑相似性。
fMRI 结果: 该模型的特征能够预测整个视觉通路上的大脑活动——从初级视觉皮层到前额叶的高级区域。
MEG 结果: 相似性在看到图像后约 70 毫秒即出现,并可持续数秒。
这种相似性组织呈层级化:
- 空间分数: 模型的早期层可预测初级视觉区域 (V1) ,深层则对应联合皮层及前额叶皮层。
- 时间分数: 早期层匹配快速 MEG 响应;深层则匹配后期且持续的响应。
这表明,现代视觉 Transformer 并非只是学习杂乱特征,而是掌握了反映大脑视觉信息处理流程的层级结构。
发现 2: 类脑特性按发展顺序逐步形成
检查点分析揭示,类脑的组织是渐进出现的,而非瞬间形成。
未训练模型几乎没有相似性。随着训练推进:
- 匹配初级视觉皮层的表征最先出现。
- 匹配高级前额叶区域的表征则要较晚才能出现。
**“半程时间” **(half-time) ——达到最终相似性50%所需的训练量——进一步凸显了这一现象:
- V1 等初级区域半程时间短。
- 前额叶区域半程时间最长。
- 早期 MEG 时间窗口匹配迅速;后期窗口则需要更长时间。
这表明模型在早期先学习低级感官统计,只有在大量训练之后,才会获得高级抽象表征。
发现 3: 模型规模、训练经验和数据类型都很关键
模型规模
更大的模型在各项指标上的分数都更高,尤其在预测高级大脑区域时提升最大。
图像类型
在以人为中心的图像上训练的模型,分数显著高于在卫星或细胞图像上训练的模型,这一现象出现在几乎所有大脑区域。
这支持经验主义观点: 要构建像人类一样“看”的系统,必须让它接受与人类经验接近的视觉输入。
发现 4: AI 的学习过程映射大脑生理特征
研究团队进一步将大脑区域的半程时间与其物理与发育特征相关联:
- 皮层扩张: 从婴儿期到成年期增长最多的区域,AI 最后学会。
- 皮层厚度: 较厚的区域半程时间更长。
- 内在时间尺度: 信息整合周期更长的区域学习得更晚。
- 髓鞘化程度: 髓鞘较少 (传导速度较慢) 的区域学习得更晚。
AI 的发展顺序——从快速、简单的感官图谱到缓慢、复杂的联合图谱——映射了由进化与个体发育共同塑造的生物层级结构。
结论: 迈向将 AI 用作神经科学工具
核心要点:
- 所有因素都重要: 架构 (更大的模型) 、训练时长以及生态学相关数据共同提升大脑相似性。
- 分阶段发展: 模型先学习初级感官图谱,之后才掌握高级抽象图谱——而这需要海量数据。
- 生物学映射: AI 的训练过程反映了人类皮层的发育规律——AI 最难掌握的区域,正是在人类中发育最慢的区域。
在受控条件下构建并探究 AI,我们可以从单纯观察相似性,转向理解其成因。这为利用 AI 模型作为计算代理研究生物大脑的发育——以及在不同条件下如何塑造这种发育——带来了可能。
通过揭示机器如何学会像我们一样“看”,这项工作也为理解我们自己如何感知世界提供了新的视角。