打破物理定律?OpticalNet 如何利用 AI 看见不可见之物

几个世纪以来,探索“微观世界”一直是科学发展的驱动力。从古代简陋的放大镜到今天精密的显微镜,我们从未停止对更高分辨率的追求。但始终存在一堵难以逾越的墙: 衍射极限 (Diffraction Limit)

物理学规定,光学系统无法分辨尺寸显著小于照明光波长一半的特征。对于可见光而言,这个极限大约是 200 纳米。这意味着病毒、DNA 链以及生命中错综复杂的机制往往处于焦距之外,表现为模糊的斑点,而非清晰的结构。

虽然电子显微镜 (EM) 可以看得更小,但它需要真空环境,并且会用高能光束轰击样品,这通常会杀死活体样本。科学家们的“圣杯”一直是在保持标准光学显微镜柔和、易用特性的同时,实现 EM 级别的分辨率。

OpticalNet 登场了。在一篇开创性的 CVPR 论文中,研究人员提出了一种利用深度学习突破衍射极限的方法。但他们不仅仅构建了一个模型;他们构建了首个通用数据集,旨在教计算机如何解码“不可见之物”。

Figure 1. Framework of OpticalNet. Drawing an analogy to modular construction, where small units could be assembled to create larger complex objects, the authors build the OpticalNet dataset.

如图 1 所示,其核心理念非常优雅: 如果我们能教 AI 从模糊的光斑中识别物质的基本“积木 (building blocks) ”,我们就能重建人眼永远无法分辨的复杂的亚波长物体。

物理屏障: 什么是衍射极限?

要理解解决方案,我们必须先理解问题。为什么我们不能无限放大?

光具有波动性。当光通过孔径 (如显微镜透镜) 或与微小物体相互作用时,它会发生衍射——即光波会扩散。一个理想的光点在相机传感器上不会显示为一个点;它会显示为一个模糊的靶心,被称为艾里斑 (Airy disk)

Figure 2. Illustration of the diffraction limit. An ideal point light source inevitably diffracts into a finite-sized Airy disk. Two adjacent spots become indistinguishable when they are too close.

图 2 完美地展示了这一现象。

  1. 衍射斑 (Diffraction Spot) : 单个点产生一个被环绕的中心强度峰值。
  2. 可分辨 (Resolvable) : 如果两个点相距较远,你能看到两个明显的峰值。
  3. 不可分辨 (阿贝极限,Abbe Limit) : 当点靠得太近时 (对于可见光约为 \(200\) 纳米以下) ,它们的艾里斑会融合。相机看到的是一个团块,而不是两个。

这就是衍射极限 。 关于精细细节的信息被物理地编码在光中,但由于衍射而被扰乱,导致标准透镜无法分辨。然而,信息并没有消失——它只是被加密了。这就是深度学习进入这个方程的地方。

数据悖论

深度学习已经彻底改变了计算机视觉。如果你想训练一个模型来识别猫,你会给它喂数千张猫的照片。但是,你如何训练一个模型去观察“不可见”的亚波长物体呢?

要训练一个超分辨率模型,你通常需要成对的图像:

  1. 输入: 低质量、模糊的图像。
  2. 真值 (Ground Truth) : 高质量、清晰的图像。

显微镜学中的问题在于我们无法拍摄真值照片 。 根据定义,这些物体太小了,无法用光学显微镜拍摄。这种悖论——缺乏亚波长物体的高质量光学数据——一直是该领域最大的瓶颈。你无法为你看不见的东西打标签。

OpticalNet 的解决方案: 积木块

OpticalNet 背后的研究人员通过制造他们自己的真值解决了这个问题。他们没有试图寻找现有的微观物体,而是利用聚焦离子束 (FIB) 技术制造了它们。这使得他们能够以纳米级的精度蚀刻形状。

他们采用了“乐高”式的方法。他们假设任何复杂的物体都只是更小的基本形状的集合。如果神经网络能够学会分辨基本的方形单元,它应该能够将这种知识泛化,从而重建任何东西——甚至是字母或星形图案。

数据集构建

团队创建了三个特定的数据集来训练和测试他们的模型:

  1. Block 数据集 (训练用) : 由包含 180 纳米方块的网格 (例如 \(3 \times 3\), \(5 \times 5\)) 组成。这些方块小于衍射极限。蚀刻 (白色) 和未蚀刻 (黑色) 方块的图案作为“真值”。
  2. “Light”数据集 (测试用) : 单词“Light”的草书写法。这测试了模型是否能够处理曲线和任意形状,而不仅仅是它受训时的方块。
  3. 西门子星 (Siemens Star,测试用) : 一个经典的辐射状辐条分辨率基准。随着辐条靠近中心,它们之间的距离会缩小,从而提供连续的分辨率测试。

Figure 3. Fabricated samples and the diffraction images alongside the high-precision microscopy setup.

图 3 展示了这个项目的物理现实。面板 (a) 显示了“Block”样品。面板 (d) 显示了显微镜捕捉到的原始数据——这些是衍射图像 。 它们看起来像池塘里的涟漪,与实际物体几乎没有相似之处。面板 (e) 突出了所需的极端工程: 显微镜被放置在隔振平台上的声学室中,以防止即使是最轻微的震动破坏数据。

“环境”问题

人们可能会认为,只要观察一个小的 \(3 \times 3\) 网格就能预测物体。然而,光的衍射是非局部的。来自相邻像素的涟漪会干扰目标像素的涟漪。

Figure 4. (a) An optical Block with random surroundings demonstrates how the diffraction image is influenced by square units outside the target region.

图 4 说明了这一挑战。你看到的衍射图案不仅仅来自红色的中心框;它受到了周围方块衍射光的严重污染。模型必须学会将目标信号从环境噪声中解离出来。

方法: 图像到图像转换

研究人员将这个物理问题构建为一个计算机视觉任务: 图像到图像转换 (Image-to-Image Translation)

目标是将输入空间 (衍射图像) 映射到输出空间 (二值物体图像) 。输入是干涉图案的灰度图像,输出是一个二值网格,其中 1 代表物体 (蚀刻的金) ,0 代表空旷空间。

损失函数

为了训练神经网络,研究人员利用了专门为像素级二分类设计的损失函数。由于真值是二元的 (这里有金块还是没有?) ,二元交叉熵 (BCE) 是自然的选择。

Equation 1: The fundamental loss function for training.

这里,\(\mathcal{F}(x_i)\) 是模型对衍射图像 \(x_i\) 的预测,而 \(y_i\) 是真值。

将其扩展到像素级别,损失是基于图像的高度 (\(H\)) 和宽度 (\(W\)) 计算的:

Equation 2: The expanded Binary Cross-Entropy loss function.

这个方程迫使模型最小化预测概率图与纳米物体实际二值结构之间的差异。

推理与阈值化

一旦模型预测出一个概率图 (例如,某像素的值为 0.8,意味着有 80% 的置信度是一个物体) ,研究人员会应用一个阈值 \(\lambda\) (通常为 0.5) 将其转换回清晰的二值图像。

Equation 3: The thresholding function for binarization.

从预测到重建: 拼接策略

研究人员不会尝试一次性对整个样品成像。记住,衍射会产生大量的干涉。相反,他们通过扫描物体,拍一张照片,移动 180 纳米,再拍一张照片。

这产生了大量的数据重叠。物体上的单个点可能出现在一次扫描的“中心”,以及另一次扫描的“边缘”。

Figure 6. Illustration for the stitching. For the 3x3 block configuration setting, each target location (red box) is covered by nine overlapping block images (yellow box).

如图 6 所示,单个红色目标方块被多个重叠的黄色扫描块覆盖。研究人员利用这种冗余来提高准确性。他们将覆盖特定点的每一次扫描的预测结果进行平均。

这种“拼接”期望的数学公式为:

Equation 4: The stitching expectation equation.

这个方程本质上是说: “为了决定位置 \((k,l)\) 是否存在物体,查看覆盖该点的所有衍射图像 \(x_m\),检查模型对该点的预测,并将它们平均。”这种统计系综方法显著降低了噪声。

基准测试: 仿真与现实

在使用离子束切割黄金 (这既昂贵又缓慢) 之前,团队构建了一个复杂的仿真引擎。这使他们能够预训练模型并验证他们的理论。

他们测试了几种架构:

  • CNNs: ResNet-18, ResNet-34, U-Net 变体 (标准深度学习主力) 。
  • Transformers: Vision Transformers (使用自注意力机制的较新架构) 。

仿真结果

仿真数据的初步结果很有希望。大多数模型都能解决“Block”谜题。然而,当他们转移到“Light”标志和西门子星 (SS) 时,出现了有趣的分歧。

Table 2. Comparisons of models trained on simulation Block dataset evaluated on different test sets.

在表 2 中,我们看到 Transformer 普遍优于基于 CNN 的架构,特别是在困难的“Light”测试集中,该测试集包含模型在训练期间从未见过的形状 (它只见过方块!) 。

实验结果 (真实世界)

然而,真正的考验是真实世界的数据。真实的光学系统具有仿真所忽略的噪声、振动和缺陷。

Table 3. Performance under metrics of models trained on experiment datasets.

表 3 揭示了挑战的现实。 Transformer 模型在这里占据主导地位。注意“SS” (西门子星) 一列。卷积神经网络 (ResNets 和 U-Nets) 表现挣扎,准确率仅在 50% 左右 (对于二值数据来说,这本质上是随机猜测) 。然而,Transformer 保持了高得多的保真度。

视觉证据

数字是一回事,但视觉重建说明了真实情况。

Figure 8. Visualization of stitched predictions using ResNet-34 and transformer on the experimental dataset.

图 8 是这项研究的“确凿证据”。

  • 第一行 (真值) : 物体的实际样子。
  • 第二行 (ResNet-34) : CNN 表现不佳。看“Light”的文本——它很模糊并且周围有伪影。西门子星 (SS) 则是一团模糊。
  • 第三行 (Transformer) : Transformer 的输出非常清晰。它成功地重建了草书“Light”,并在比 CNN 更靠近中心的位置分离了西门子星的辐条。

为什么 Transformer 赢了? 作者推测这是由于全局上下文 (Global Context) 。 在衍射中,图像左侧的像素会受到来自图像右侧光波的影响。CNN 偏向于“局部”处理 (查看邻居) 。Transformers 凭借其自注意力机制,旨在一次性查看整个图像,理解长距离依赖关系。这使得它们能够更有效地对衍射图案进行“去噪”。

分析极限

团队还分析了用于训练的“Block”大小如何影响结果。

Figure 9. Stitched predictions on SS performed by transformers trained with varying ground truth block dimensions.

图 9 显示了使用在 \(3 \times 3\), \(5 \times 5\), 和 \(7 \times 7\) 方块上训练的模型对西门子星的重建结果。

  • \(3 \times 3\): 中心尚可,但外圈很乱。
  • \(7 \times 7\): 分辨率提高,但在外部区域引入了更多的噪声伪影。

这表明了一种权衡: 较大的方块包含更多信息 (更多的周围环境上下文) ,但也引入了更多的复杂性和潜在的噪声,使得模型的工作更加困难。

结论与未来展望

OpticalNet 论文标志着计算成像领域的重大飞跃。通过结合高精度纳米制造、光学物理和现代深度学习,研究人员创建了一个能够看见不可见之物的管道。

关键要点:

  1. 数据集是关键: 通过使用“积木”制造他们自己的真值,他们绕过了纳米显微术中的数据稀缺问题。
  2. Transformers > CNNs: 对于光学衍射问题,Transformer 的全局注意力机制击败了 CNN 的局部处理。
  3. 泛化是可行的: 一个仅在简单方块上训练的模型可以成功重建草书文本和星形图案,证明它学会了衍射物理学,而不仅仅是方块的形状。

这项工作开启了无标记超分辨率的大门。想象这样一个未来: 生物学家可以将活体病毒放在标准光学显微镜下——无需真空,无需致命的电子束——而 AI 瞬间解码衍射图案,以纳米级的细节揭示其结构。OpticalNet 是迈向这一现实的第一步。