AI视觉模型如何学会像人类一样看世界：通往类脑智能的三把钥匙

现代人工智能 (AI) 的计算机视觉模型在物体识别、场景分割甚至生成逼真图像方面已经达到了惊人的水平。更令人着迷的是，它们的内部工作原理——即人工神经元激活的复杂模式——在观看相同刺激时，常常与人脑的神经活动呈现出惊人的相似性。这并非巧合，而是揭示信息处理深层原理的重要线索。

多年来，科学家们一直注意到这种大脑–AI相似性，但它为何出现一直是个谜。这种相似性是由模型的架构驱动的，还是源于训练数据的规模，又或者与所接触的数据类型有关？以往的研究通常考察的是预训练模型，其中这些因素会同时变化，导致无法孤立分析它们各自的作用。

来自 Meta AI 和 ENS-PSL 的研究团队最近正面解决了这一问题。他们在一个视觉 Transformer 家族中系统地控制模型大小、训练时长和图像类型，揭示了让 AI 能够像人类一样“看”世界的因果要素。

比较 AI 与大脑: 编码分析方法

在他们的实验之前，先要理解如何比较一个基于硅的神经网络和一个生物大脑。

研究人员采用了一种成熟的方法——**编码分析 **(encoding analysis) 。核心问题是: 是否存在一个可靠的映射关系，能将 AI 的内部表征转换为大脑的活动模式？

设想同时向一个视觉 Transformer 模型和一个人展示一张猫的图片。模型生成一个高维激活向量 (X) ，而人的大脑则产生一个复杂的神经活动模式 (Y) ，可以通过 fMRI 或 MEG 测量得到。

编码模型尝试寻找一个简单的线性变换 \(W\)，用 \(X\) 来预测 \(Y\):

编码模型背后的核心数学原理，展示了一个岭回归公式。

如果这种变换能很好地预测大脑活动，就说明 AI 的内部表征包含了与大脑相似的信息，只是“格式”不同。预测质量通过皮尔逊相关系数 \(R\) 衡量，这就是我们的大脑相似性分数。

用于衡量相似性的皮尔逊相关系数公式。

为了同时获得空间和时间上的洞察，研究人员结合了:

功能性磁共振成像 (fMRI) — 高空间分辨率: 揭示活动发生的位置。
脑磁图 (MEG) — 高时间分辨率: 揭示活动发生的时间。

这种双重方法不仅可以判断 AI 与大脑的表征是否相似，还能探究它们在空间与时间层级组织上的一致性。

系统化的实验设计

他们的实验以 DINOv3 家族为基础——一个先进的自监督视觉 Transformer——在系统变化的配置下进行训练:

示意图展示了研究的三个核心组成部分: 测量指标、影响因素和相似性度量。

操控的因素:

模型大小:
从**小型 (2100万参数) 到巨型 **(11亿参数) ，全部使用相同的人类中心数据集进行训练，以隔离规模效应。
训练时长:
通过在训练过程中保存检查点，他们评估大脑相似性如何从未训练网络演变为完全训练网络。
图像类型:
三个大型模型变体，各自训练于1000万张图像:
- 人类中心: 人物、地点和物体的日常照片。
- 卫星: 高分辨率航拍图像。
- 细胞: 显微镜下的细胞图像。

表格展示了研究中不同 DINOv3 模型变体的参数、层数、批量大小和训练数据。

三种相似性度量:

编码分数: 整体大脑表征相似性。
空间分数: 模型层级与大脑空间层级的对齐程度 (如早期层匹配初级视觉皮层) 。
时间分数: 模型层级与大脑时间处理流程的对齐程度 (如早期层匹配早期 MEG 响应) 。

发现 1: 训练充分的 AI 会学习到类似大脑的层级结构

大型、完全训练的 DINOv3 显示出较强的整体大脑相似性。

fMRI 结果: 该模型的特征能够预测整个视觉通路上的大脑活动——从初级视觉皮层到前额叶的高级区域。

MEG 结果: 相似性在看到图像后约 70 毫秒即出现，并可持续数秒。

图 2: fMRI 脑图中视觉皮层的相似性分数很高 (A) ，MEG 时间序列显示相似性在图像呈现约1秒后达到峰值 (B) 。

这种相似性组织呈层级化:

空间分数: 模型的早期层可预测初级视觉区域 (V1) ，深层则对应联合皮层及前额叶皮层。
时间分数: 早期层匹配快速 MEG 响应；深层则匹配后期且持续的响应。

图 3: 层级对齐示意，从早期 (蓝色) 到晚期 (红色) 层沿视觉通路分布；模型深度与距V1的空间距离以及处理时间 Tmax 均高度相关。

这表明，现代视觉 Transformer 并非只是学习杂乱特征，而是掌握了反映大脑视觉信息处理流程的层级结构。

发现 2: 类脑特性按发展顺序逐步形成

检查点分析揭示，类脑的组织是渐进出现的，而非瞬间形成。

未训练模型几乎没有相似性。随着训练推进:

匹配初级视觉皮层的表征最先出现。
匹配高级前额叶区域的表征则要较晚才能出现。

图 4: 未训练模型 (A, C) 与部分训练模型 (B, D) 的对比，显示编码、空间和时间分数随训练稳步提升 (E) 。

**“半程时间” **(half-time) ——达到最终相似性50%所需的训练量——进一步凸显了这一现象:

V1 等初级区域半程时间短。
前额叶区域半程时间最长。
早期 MEG 时间窗口匹配迅速；后期窗口则需要更长时间。

图 5: 绘制大脑各区域及时间窗口的半程时间，显示强相关性: 距V1更远或处理时间更晚 → 学习时间更长。

这表明模型在早期先学习低级感官统计，只有在大量训练之后，才会获得高级抽象表征。

发现 3: 模型规模、训练经验和数据类型都很关键

模型规模

更大的模型在各项指标上的分数都更高，尤其在预测高级大脑区域时提升最大。

图 6: 更大的模型得分更高；最大差距在 IFSp 和 IFSa 等高阶区域。

图像类型

在以人为中心的图像上训练的模型，分数显著高于在卫星或细胞图像上训练的模型，这一现象出现在几乎所有大脑区域。

图 7: 以人为中心的照片在所有指标上均优于卫星和细胞图像训练，差异在几乎每个大脑区域都很明显。

这支持经验主义观点: 要构建像人类一样“看”的系统，必须让它接受与人类经验接近的视觉输入。

发现 4: AI 的学习过程映射大脑生理特征

研究团队进一步将大脑区域的半程时间与其物理与发育特征相关联:

图 8: AI 的半程时间与皮层扩张、厚度、时间尺度和髓鞘化程度的强相关性。

皮层扩张: 从婴儿期到成年期增长最多的区域，AI 最后学会。
皮层厚度: 较厚的区域半程时间更长。
内在时间尺度: 信息整合周期更长的区域学习得更晚。
髓鞘化程度: 髓鞘较少 (传导速度较慢) 的区域学习得更晚。

AI 的发展顺序——从快速、简单的感官图谱到缓慢、复杂的联合图谱——映射了由进化与个体发育共同塑造的生物层级结构。

结论: 迈向将 AI 用作神经科学工具

核心要点:

所有因素都重要: 架构 (更大的模型) 、训练时长以及生态学相关数据共同提升大脑相似性。
分阶段发展: 模型先学习初级感官图谱，之后才掌握高级抽象图谱——而这需要海量数据。
生物学映射: AI 的训练过程反映了人类皮层的发育规律——AI 最难掌握的区域，正是在人类中发育最慢的区域。

在受控条件下构建并探究 AI，我们可以从单纯观察相似性，转向理解其成因。这为利用 AI 模型作为计算代理研究生物大脑的发育——以及在不同条件下如何塑造这种发育——带来了可能。

通过揭示机器如何学会像我们一样“看”，这项工作也为理解我们自己如何感知世界提供了新的视角。

比较 AI 与大脑: 编码分析方法#

系统化的实验设计#

操控的因素:#

三种相似性度量:#

发现 1: 训练充分的 AI 会学习到类似大脑的层级结构#

发现 2: 类脑特性按发展顺序逐步形成#

发现 3: 模型规模、训练经验和数据类型都很关键#

模型规模#

图像类型#

发现 4: AI 的学习过程映射大脑生理特征#

结论: 迈向将 AI 用作神经科学工具#