引言

能够窥探人类思想并看到一个人正在想象什么,长期以来一直是科幻小说的范畴。从《盗梦空间》 (Inception) 到《黑镜》 (Black Mirror) ,“梦境记录仪”的概念抓住了我们的集体想象力。然而,在计算神经科学领域,这并非虚构——这是一个活跃且快速发展的研究领域,被称为 fMRI 图像重建 (fMRI-to-image reconstruction)

近年来,我们见证了 AI 能力的爆发式增长,它能够仅根据大脑活动重建一个人正在观看的图像。现在的模型可以利用一个人看冲浪者时的功能性磁共振成像 (fMRI) 扫描数据,生成一张可识别的冲浪者图像。但一个更艰巨的挑战依然存在: 我们能否重建一个人仅仅在想象的内容?

当你闭上眼睛想象一个红苹果时,你的大脑处于活跃状态,但这些信号比你实际看到一个苹果时要微弱得多,也更加“嘈杂”。直到最近,我们还缺乏足够的数据来适当地训练和测试针对这种内部“心灵之眼”的模型。

这篇博文将探讨一篇关键的研究论文: “NSD-Imagery: A benchmark dataset for extending fMRI vision decoding methods to mental imagery” (NSD-Imagery: 一个用于将 fMRI 视觉解码方法扩展到心理意象的基准数据集) 。研究人员发布了一个开创性的数据集,并对最先进的 AI 模型进行了广泛的分析。他们的发现表明,虽然我们在读取心理意象方面越来越近,但用于视觉的最佳模型并不一定是用于想象的最佳模型。

图 1. NSD-Imagery 数据集与以前的数据集的概览。第 1 部分展示了新数据集的规模与 DeepRecon 或简单 Gabor 滤波器等以前的基准相比的情况。

背景: 视觉 vs. 意象

要理解这一贡献的重要性,我们首先需要区分视觉感知 (Visual perception)心理意象 (Mental imagery)

视觉感知发生在光线击中视网膜时,通过视神经向视觉皮层发送强大且结构化的信号。这是一个由外部刺激驱动的“自下而上”的过程。由于信号强且在空间上有组织,将 fMRI 数据映射到所看到的图像 (视觉解码) 已经实现了高保真度。

另一方面, 心理意象是一个“自上而下”的过程。它源于大脑额叶区域和记忆系统,向视觉皮层发送反馈信号以模拟图像。这些信号的信噪比 (SNR) 要低得多。它们更模糊、细节更少,并且更难从大脑的背景活动中分离出来。

数据缺口

正如上方的图 1 所示,以前的心理意象数据集非常有限。有些使用简单的几何形状 (斑点或字母) ,有些则受试者或试验次数很少。这限制了现代深度学习模型的能力,因为这些模型渴望海量数据,以学习“思想”与“图像”之间的复杂映射。

自然场景数据集 (Natural Scenes Dataset, NSD) 通过提供数万次人们观看复杂照片的试验,改变了视觉解码的游戏规则。我们今天讨论的这篇论文介绍了 NSD-Imagery , 这是该海量数据集的扩展,同一批受试者被要求参与心理意象任务。这使得研究人员能够执行跨解码 (cross-decoding) : 在高质量的“视觉”数据上训练 AI,并测试它是否可以泛化到困难的“意象”数据上。

核心方法: 构建“心灵之眼”

研究人员设计了一项实验,以严格测试模型解码想象力的能力。他们收集了 8 名曾参与原始 NSD 实验的受试者的数据。

实验任务

受试者参与了两种主要类型的运行任务:

  1. 视觉任务 (Vision Task) : 受试者看到一张图像 (例如,一个甜甜圈) 和一个提示字母。这建立了他们的大脑对看到物体的反应的“真值 (ground truth) ”。
  2. 意象任务 (Imagery Task) : 受试者看到提示字母,并被指示生动地想象相应的图像 3 秒钟。

图 2. 任务概览。左图显示视觉任务 (看甜甜圈) 。右图显示意象任务 (根据提示想象甜甜圈) 。

刺激物

为了测试模型的极限,研究人员不仅仅使用了随机照片。他们选择了三个特定类别的刺激物:

  • 简单刺激 (Simple Stimuli) : 几何形状,如定向条、十字和“X”形。这些用于测试模型是否可以捕获基本的结构信息。
  • 复杂刺激 (Complex Stimuli) : 自然照片 (例如,风景、冲浪者、人群) 。这些用于测试模型重建语义内容和细节的能力。
  • 概念刺激 (Conceptual Stimuli) : 单个词汇,如“哺乳动物”或“条纹”。在这里,受试者想象该概念的通用版本。

模型

该研究评估了五个最先进的视觉解码模型,所有模型都在原始 NSD (视觉) 数据上进行了训练:

  1. MindEye1 & MindEye2: 最近的高性能模型,使用对比学习和大规模扩散模型 (类似于 Stable Diffusion 背后的模型) 。
  2. Brain Diffuser: 一种结合了简单线性解码和生成扩散的模型。
  3. iCNN: 一种较旧的深度学习方法。
  4. Takagi et al.: 另一种潜在扩散方法。

关键问题是: 仅在看到的图像上训练的模型能否重建想象的图像?

实验与结果

研究结果既充满希望又令人惊讶。它们为当前 AI 在解码思维方面的进展提供了细致入微的视角。

1. 定性成功: 我们可以看到你的想法

首先是好消息。最好的模型确实可以重建心理意象。当受试者想象复杂的场景时——比如冲浪者或一盘食物——模型生成的图像通常与思想的语义类别和构图相匹配。

图 4. 心理意象重建的定性比较。左列显示真值 (受试者被告知要想象的内容) 。右侧各列显示不同 AI 模型从大脑活动中重建的内容。

在图 4 中,请看“复杂刺激 (Complex Stimuli) ”行 (自然照片) 。

  • 第 3 行 (冲浪者) : 注意 Brain DiffuserMindEye1 如何成功生成一个人在浪上的图像。虽然不是像素级的复制,但内容是正确的。
  • 第 5 行 (甜甜圈) : 几个模型成功生成了圆形的、类似食物的物体。

然而,看看“简单刺激 (Simple Stimuli) ” (顶部的线条和十字) 。模型在这里表现得很挣扎。它们通常生成的不是干净的黑线条,而是奇怪的、有纹理的风景,只是模糊地遵循线条的方向。这很可能是因为生成模型 (如 Stable Diffusion) 具有很强的先验 (priors) ——它们是在互联网照片上训练的,所以它们试图强迫每一个大脑信号看起来像一张照片,即使受试者想象的是一条简单的线。

2. 视觉基线

为了进行比较,让我们看看当受试者实际看到图像 (视觉任务) 时,这些模型的表现如何。

图 3. 视觉任务期间重建的定性比较。注意与意象任务相比,质量明显更高。

如图 3 所示,视觉重建要清晰得多。 MindEye1MindEye2 产生的结果与真值惊人地相似。这证实了模型在它们受训的数据 (感知) 上表现非常出色。我们在图 4 (意象) 中看到的质量下降是心理意象中“噪声”的代价。

3. “解耦”的意外发现

这是论文中最关键的发现: 更好的视觉模型并不等于更好的意象模型。

在视觉解码领域, MindEye2 目前被认为是目前最先进的 (SOTA) 。它能从看到的图像中捕捉到令人难以置信的细节。然而,当应用于心理意象时,其性能崩溃了。

看看下面的相关性分析:

图 6. 人类相似度评分结果。此图比较了视觉 (X 轴) 与意象 (Y 轴) 的表现。陡峭的斜率意味着良好的泛化能力。注意 Brain Diffuser (绿色) 和 MindEye1 (蓝色) 有正斜率,而 MindEye2 (紫色) 则更平坦/更低。

在图 6 中,X 轴代表模型重建看到的图像的能力,Y 轴代表它重建想象的图像的能力。

  • Brain Diffuser (绿色方块) : 在两者上表现都很可靠。
  • MindEye2 (紫色三角形) : 显示出微弱的相关性。尽管在视觉方面表现惊人,但它无法泛化到想象中。

为什么? 研究人员假设,像 MindEye2 这样复杂的架构本质上对视觉皮层的高保真信号“过拟合”了。它们依赖于心理意象中根本不存在的细粒度细节。像 Brain Diffuser 这样更简单的模型,使用稳健的岭回归和多模态特征 (图像 + 文本) ,反而更具包容性,更擅长捕捉思想的“主旨”,而这正是心理意象所提供的。

4. 人类评估: 复杂性悖论

研究人员不仅依赖计算机指标;他们还请了 500 名人类评分员来识别重建的图像。

图 5. 人类识别准确率的累积分布。蓝线 (视觉复杂) 最好。令人惊讶的是,橙线 (意象复杂) 优于绿色虚线 (视觉简单) 。

图 5 揭示了一个迷人的“复杂性悖论”。你可能认为想象一条简单的白线比想象复杂的风景更容易。但结果显示恰恰相反:

  • 从想象中重建复杂场景 (橙线) 比从视觉中重建简单形状 (绿线) 更准确。

这很可能是由于前面提到的“先验”。AI 模型“知道”风景长什么样。当它们从大脑中检测到微弱的“户外”信号时,它们可以用逼真的图像填补空白。但是,当它们接收到“垂直线”的信号时,由于 AI 是在自然照片上训练的,它不知道如何解释它,经常会产生栅栏或树干的幻觉。

结论与启示

NSD-Imagery 的发布标志着神经科学和 AI 向前迈出了重要一步。它提供了所需的基准,使我们从解码所见之物转向解码所想之物。

主要收获

  1. 泛化是可能的: 我们可以使用在视觉数据上训练的模型来解码想象力,从而避免收集数千小时困难的意象数据的需求。
  2. 架构很重要: 更新、更大的模型并不总是更好。对于人类思维这种嘈杂、低分辨率的信号,目前更简单、更稳健的架构 (如 Brain Diffuser) 胜过复杂、专用的架构 (如 MindEye2) 。
  3. 先验问题: 当前的 AI 模型偏向于自然图像。为了解码抽象思维或简单形状,我们可能需要重新训练这些系统的生成骨干网络。

广泛影响

这为什么重要?除了很酷之外,这项技术具有深远的医疗潜力。

  • 交流: 对于“闭锁综合征”患者 (有意识但无法移动或说话) ,可靠的意象解码可以提供沟通渠道。如果患者想象特定的场景 (例如,“海滩”代表是,“森林”代表否) ,这些模型可以将该信号转化为信息。
  • 诊断: 它可以帮助诊断意识障碍患者,确定无反应的患者是否实际上具有隐性意识。

通往真正的“梦境记录仪”的道路仍然漫长且充满噪声,但这篇论文表明信号是存在的——我们只需要构建正确的天线来捕捉它。