引言
在计算机视觉和信号处理领域,噪声是大敌。无论是充满颗粒感的低光照片、医疗成像中的伪影,还是光纤电缆中的信号衰减,“去噪”都是使数据变得可用的基本步骤。
传统上,我们依靠电子芯片 (CPU 和 GPU) 来清理这些图像。我们运行繁重的算法——从经典的维纳滤波 (Weiner filtering) 到现代的卷积神经网络 (CNN) ——来推测干净的图像应该是什么样子。虽然有效,但这种方法碰到了一个坚硬的壁垒: 延迟和功耗 。 电子计算涉及电子在晶体管中的移动,这会产生热量并消耗时间。当你需要实时处理数据时,例如在高速光纤通信中,电子芯片往往会成为瓶颈。
但是,如果我们可以趁图像还是光的时候,在它击中数字传感器之前就对其进行处理呢?
这代表了光学计算的前沿。在近期的一篇 CVPR 论文中,来自北京大学和天津大学的研究人员推出了全光非线性衍射去噪深度网络 (All-Optical Nonlinear Diffractive Denoising Deep Network, N3DNet) 。 该架构以光速执行图像去噪,处理速度比电子芯片快近 3,800 倍 , 且能耗几乎可以忽略不计。
在这篇文章中,我们将详细解析 N3DNet 的工作原理,为什么它的“非线性”本质对光学神经网络来说是游戏规则的改变者,以及研究人员是如何利用强化学习来构建它的。
背景: 对速度的渴望 (以及线性问题)
要理解 N3DNet,我们首先需要了解衍射深度神经网络 (Diffractive Deep Neural Network, \(D^2NN\)) 的概念。
想象一系列前后放置的半透明屏幕 (层) 。当你用一束光 (承载着图像) 照射它们时,光线会发生弯曲和散射 (衍射) 。如果你精心设计这些屏幕上每个点的厚度和透明度,你就可以精确控制光线如何与自身发生干涉。你可以设计这些屏幕,使得一张充满噪声的图像从一侧进入,仅通过衍射的物理过程,一张干净的图像就能投射到另一侧。
这就是 \(D^2NN\)。它使用光子而不是电子,这意味着“计算”随着光的传播瞬间发生。
然而,传统的 \(D^2NN\) 有一个重大缺陷: 线性 。 标准的光学衍射是一个线性过程。在深度学习中,我们知道复杂的任务需要非线性 (如 ReLU 或 Sigmoid 激活函数) 来建模复杂的特征。如果没有非线性,神经网络只是一个有限的线性变换。这在历史上使得光学网络在去噪方面远不如它们的电子“表亲”。
N3DNet 通过引入光学非线性和稳健的训练机制解决了这个问题。
核心方法: 深入 N3DNet
N3DNet 架构是一个混合系统,结合了光学物理和先进的机器学习训练。让我们来看看它的高层结构。

如上图 1 所示,该系统由“环境” (物理光学层) 和“智能体” (用于设计这些层的强化学习算法) 组成。
如下面的图解所示,光学前向传播被分解为两个主要模块:
- 图像编码与预去噪 (I)
- 全光衍射传播 (II)

让我们剖析一下这些阶段。
1. 编码与预去噪
在深度网络开始工作之前,图像必须被转换为光信号。输入图像被编码到光波载波上。该信号的电场描述为:

这里,\(A_s\) 是图像信号,\(A_0\) 是载波光振幅。
研究人员在这里添加了一个巧妙的预处理步骤。在光线到达神经网络层之前,它通过了一个 4f 光学系统 (一种使用透镜的标准光学设置) ,该系统执行傅里叶变换 。 通过在频域中放置带通滤波器,他们可以立即去除一些噪声频率。

这个经过滤波的信号 \(h\) 作为衍射网络的输入。
2. 非线性衍射层
这是创新的核心所在。光线现在通过 \(M\) 个衍射层传播。每一层都由“神经元”组成——这些微小的物理单元可以调制通过它们的光的相位。
通过衍射传播
根据惠更斯-菲涅耳 (Huygens-Fresnel) 原理,波前的每一点都充当次级球面子波的源。研究人员在数学上对这种传播进行了建模,以计算光线如何从一个神经元移动到下一层。
层与层之间的传播由相对距离和波长控制:

该公式基于神经元之间的距离 \(d\) 计算光学模式 \(w\)。到达第一个隐藏层 \(g^0\) 的信号是输入图像在自由空间中衍射的结果:

非线性激活 (PEL)
如前所述,纯线性衍射不足以实现高质量的去噪。为了解决这个问题,作者引入了相位指数线性 (Phase Exponential Linear, PEL) 激活函数。
在物理设备中,这种非线性是利用特定的超表面 (由 \(Si_3N_4\) 和掺铒 \(TiO_2\) 组成) 来实现的,它们会对光强产生反应。在数学上,第 \(l\) 层中神经元 \(g_i^l\) 的输出计算方式为: 将上一层的输入求和,应用传输系数 \(p\),然后将其通过 PEL 函数:

PEL 函数本身的定义为:

通过设置 \(\alpha=0.5\) 和 \(\beta=0.2\),该函数引入了必要的非线性,使得网络能够“决定”保留哪些特征以及抑制哪些特征 (如噪声) 。
传输系数 \(p\) (即该神经网络的“权重”) 控制层上每个特定点的振幅和相位调制:

最后,通过测量光强在输出平面捕获去噪后的图像:

3. 使用正则化辅助 DQN 进行训练
我们如何确定物理层中成千上万个神经元的正确相位值 (\(\phi\)) ?研究人员将其构建为一个强化学习 (RL) 问题。
他们开发了一种称为正则化辅助深度 Q 网络 (Regularization-Assisted Deep Q-Network, RA-DQN) 的算法。
- 状态 (\(S\)): 衍射层的当前相位值。
- 动作 (\(A\)): 应用于相位值的变化 (\(\Delta \phi\))。
- 奖励: 图像质量的提升 (负损失) 。
网络使用了一个复合损失函数,该函数同时考量了像素精度 (Charbonnier 损失) 、频率恢复 (傅里叶损失) 和结构相似性 (FSIM 损失) :

RA-DQN 智能体使用 Q-learning 更新规则来更新其策略:

为了使训练更加稳定 (这是 RL 中的常见挑战) ,他们添加了一个正则化项 \(\kappa\),用于惩罚步骤之间的剧烈变化,从而平滑优化路径:

4. 物理实现
一旦模型在计算机上训练完成,参数 (各层的相位值) 就会被导出到 3D 打印机。

图 3 展示了实际的实验室设置。
- 激光器: 提供载波光。
- DMD (数字微镜器件) : 将数字图像编码到光束上。
- 4f 系统: 执行预去噪带通滤波。
- N3DNet: 执行深度学习推理的 3D 打印模块。
- CCD: 捕获最终清理后的图像。
实验与结果
为了测试 N3DNet,研究人员需要数据。由于光纤通信中没有用于光学模式去噪的标准数据集,他们建立了自己的数据集。
MIDD 数据集
他们推出了模式图像去噪数据集 (Mode Image Denoising Dataset, MIDD) , 包含 120,000 对从真实光纤通信系统中捕获的噪声图像和干净图像。这些图像包括各种线偏振模式 (LP) 和轨道角动量 (OAM) 模式。

仿真性能
作者将 N3DNet 与最先进的电子去噪方法进行了比较,包括 BM3D (传统方法) 以及 DnCNN、RIDNet 和 Masked Training (MT) 等深度学习模型。

在视觉对比中 (图 5) ,N3DNet 比 BM3D 更好地恢复了精细细节 (如飞机上的文字) ,并且可以与最好的电子深度学习方法相媲美。在定量分析上,N3DNet 在几乎所有测试数据集上都取得了最高的 PSNR (峰值信噪比) 和 SSIM (结构相似性指数) 。
真实世界实验结果
仿真固然很好,但这个物理塑料块真的有用吗?
研究人员将 3D 打印的 N3DNet 与其他光学方法 (如 MPLC) 和电子方法进行了测试。

图 6 显示了真实光纤模式下的结果。即使随着传输距离 \(l\) 的增加 (这会显著增加噪声) ,N3DNet 也能成功重建 \(LP_{21b}\) 模式清晰的四瓣结构。
“杀手级特性”: 速度与能量
这项研究最令人震惊的结果是效率对比。

请看图 7 中的图表 (b) 和 (c):
- 速度: N3DNet 处理每张图像大约需要 4.4 微秒 。 电子同类产品 (在高端 Snapdragon 芯片上) 大约需要 16.7 毫秒。这是 ~3,800 倍的加速 。
- 能量: N3DNet 处理每张图像的能耗在纳焦耳级别,大约比电子方法低六个数量级 (1,000,000 倍) 。
图表 (a) 也突出了 RA-DQN 训练算法 (棕色线) 的有效性,它比标准的 SGD 或 Adam 优化器更快地收敛到更低的损失。
结论
N3DNet 论文展示了光学计算的一个令人信服的巨大飞跃。通过成功地将非线性激活函数集成到衍射网络中,并使用强化学习对其进行优化,作者创造了一种不仅准确,而且运行速度是电子芯片根本无法匹敌的去噪器。
核心要点:
- 光学优势: 用光处理光消除了与电信号相互转换的延迟,实现了微秒级的推理时间。
- 非线性是关键: 相位指数线性 (PEL) 函数的引入使得光学网络能够处理线性衍射模型遗漏的复杂噪声。
- 用于硬件的 RL: 设计物理硬件是一个复杂的非凸优化问题,强化学习 (RA-DQN) 在这一点上优于传统的梯度下降。
这项技术对光纤通信的未来有着巨大的潜力,毕竟信号在长距离传输中会衰减。电信枢纽有朝一日可能不再需要将光信号转换为电子数字数据来清理它们 (这会造成瓶颈) ,而是可以使用无源的 N3DNet 模块,在光通过的瞬间即时“清理”它们。
](https://deep-paper.org/en/paper/file-1929/images/cover.png)