介绍
我们在犯罪侦查剧中都见过这样的老套路: 播放一段从逃逸车辆上拍摄的粗糙、马赛克化的视频,探员说一句“增强”,突然间车牌就变得清晰可见。在现实中,车牌图像修复 (LPIR) 要困难得多。高速运动、光线不足、距离过远以及相机抖动等因素结合在一起,造成了严重的退化,即使是最好的光学字符识别 (OCR) 系统也会感到困惑。
虽然深度学习已经彻底改变了图像修复技术,但许多现有方法存在一个隐性缺陷: 它们依赖于合成数据。研究人员通常采用高质量图像,然后人为添加模糊或噪声来训练模型。但是,软件中添加的高斯模糊与车辆在雨夜以 60 英里/小时的速度行驶时产生的复杂非线性失真完全不同。
在这篇文章中,我们将深入探讨 LP-Diff , 这是一篇正面解决该问题的研究论文。研究人员介绍了两项重大突破: 一个包含真实世界退化图像的大规模数据集 (MDLP) ,以及一种专门用于从这些困难图像中恢复纹理和时序细节的新型扩散架构。
真实世界数据的缺口
在了解解决方案之前,我们必须了解当前数据集存在的问题。大多数现有的车牌 (LP) 数据集由高分辨率的静态图像组成。为了训练修复模型,研究人员通常会对这些图像进行合成退化处理。
LP-Diff 的作者认为,合成退化无法捕捉真实世界相机和环境的“特定领域”特征。为了证明这一点,他们在合成数据上训练模型,并在真实镜头上进行测试。结果模型彻底失败了。
为了解决这个问题,研究人员收集了 MDLP (多帧退化车牌) 数据集。它包含 10,245 对图像,均是在真实道路环境中使用高速摄像机自动捕获的。至关重要的是,他们捕获了多个连续帧。这使得模型能够看到车牌随时间的变化——离相机更近或改变角度——从而提供了单张静态图像无法提供的关键时序线索。

如上图 Figure 5 所示,差异是鲜明的。第二行显示了在合成数据 (CCPD) 上训练的模型输出结果——它未能重建出可辨识的文本。第三行显示了在新的真实世界 MDLP 数据集上训练的同一模型,它恢复了锐利、可读的字符。
LP-Diff: 架构
修复这些图像需要的不仅仅是一个标准的神经网络。研究人员提出了 LP-Diff , 这是一个结合了扩散模型的生成能力与特定模块的框架,旨在增强文本纹理并融合跨时间的信息。

Figure 2 展示了完整的流程。模型将 三个连续帧 (\(f_1, f_2, f_3\)) 作为输入。仅仅看一帧是不够的;通过看三帧,模型可以交叉参考信息。如果字符在第 1 帧中因运动而模糊,它在第 2 帧中可能会稍微清晰一些。
该架构由四个关键部分组成,我们将逐一拆解:
- 编码器/解码器 (Encoder/Decoder): 用于特征提取。
- ICAM: 融合时间序列数据。
- TEM: 增强字母和数字的特定形状。
- DFM & RCDM: 过滤特征并执行最终的扩散生成。
1. 帧间交叉注意力模块 (ICAM)
由于输入由三个帧组成,模型需要一种方法来对齐和合并它们。 帧间交叉注意力模块 (ICAM) 负责处理此任务。
其假设是连续帧包含高度相关的特征,但也包含动态变化 (如汽车向前移动) 。ICAM 使用交叉注意力机制来捕捉这些相关性。它获取帧的编码特征并计算注意力图,以突出动态变化,同时抑制冗余的背景信息。
在数学上,第一帧和第二帧的融合可以表示为:

在这里, DFM (双路径融合模块) 用于过滤查询 (Query, \(Q\)) 和键 (Key, \(K\)) 关系,以在将其应用于值 (Value, \(V\)) 之前减少背景噪声。这确保了模型专注于变化的像素——移动的汽车——而不是静止的道路。
2. 纹理增强模块 (TEM)
这可能是论文中最有趣的贡献。车牌与一般图像 (如风景或人脸) 不同,因为它们严重依赖边缘和几何形状来构成字符。严重的退化会破坏这些高频细节。
为了恢复它们,研究人员设计了 纹理增强模块 (TEM) 。

如 Figure 3 所示,TEM 不仅仅处理像素值;它显式地计算图像特征的几何属性。它分三步完成此操作:
步骤 A: Sobel 滤波
首先,该模块应用 Sobel 滤波器将特征分解为 X 和 Y 方向的分量。这突出了字母数字字符中常见的垂直和水平笔画。

步骤 B: 曲率计算
文本字符具有特定的曲率 (想想 ‘C’、‘O’ 或 ‘8’ 中的曲线) 。标准的降噪通常会平滑掉这些曲线。TEM 计算特征图的 曲率 (Curvature) , 以区分平坦区域和字符笔画中的突变。

通过计算这个曲率 (\(Cur^{(m)}\)) ,模型对其试图重建的形状有了几何上的理解。
步骤 C: 梯度幅值
最后,为了测量这些边缘的强度,模型计算梯度幅值 (Gradient Magnitude, \(GM\)) 。

结合曲率 (形状) 和梯度幅值 (强度) ,TEM 能够选择性地增强车牌字符的纹理,使它们从模糊的背景中凸显出来。
3. 双路径融合模块 (DFM)
在纹理增强之后,特征仍然包含噪声和背景冗余。 双路径融合模块 (DFM) 充当了守门员的角色。
它沿两个维度处理特征:
- 通道维度 (Channel Dimension): 决定看什么 (哪些特征图包含最相关的信息) 。
- 空间维度 (Spatial Dimension): 决定看哪里 (专注于车牌区域而不是保险杠或道路) 。
它使用池化操作 (平均、最大、中值) ,随后是线性层和卷积层,来权衡不同特征的重要性。
4. 残差条件扩散模块 (RCDM)
最后阶段是生成。作者使用了 扩散模型 (Diffusion Model) , 这是 DALL-E 或 Stable Diffusion 等图像生成器背后的最先进技术。
然而,从头开始生成车牌效率低下。相反,他们采用了 残差条件扩散模块 (RCDM) 。 模型试图预测 残差——即模糊输入与清晰真实值之间的差异。
前向过程向图像添加噪声 (扩散模型的标准做法) ,逆向过程尝试去噪,并由从编码器、ICAM 和 TEM 中提取的特征 (\(\psi\)) 进行引导。

模型经过训练以预测每一步添加的噪声 \(\epsilon_\theta\)。通过迭代去除这种噪声,并在纹理增强特征的条件下,RCDM 重建出一个清晰、高保真的车牌。
实验与结果
这个复杂的架构真的有效吗?研究人员将 LP-Diff 与几种最先进 (SOTA) 的方法进行了比较,包括 SRCNN、Real-ESRGAN 和 ResShift 。
视觉对比
视觉效果令人信服。在下图中,你可以看到输入 (顶行) 严重退化。

- Real-ESRGAN (一种流行的修复工具) 倾向于过度平滑或幻造出错误的伪影。
- ResDiff 和 ResShift 在严重模糊的情况下表现挣扎,通常导致字符难以辨认。
- LP-Diff (Ours) 始终如一地恢复了正确的字符。看右上角的例子: 真实值是 “JS16A”。LP-Diff 几乎完美地恢复了它,而其他模型则产生模糊的团块。
定量分析
视觉上的改进得到了硬数据的支持。作者在 MDLP 数据集和合成的 CCPD 数据集上进行了测试。

在 Table 1 中:
- PSNR (峰值信噪比): 越高越好。LP-Diff 达到了 14.396 , 得分最高。
- SSIM (结构相似性指数): 越高越好。LP-Diff 以 0.393 领先。
- LPIPS (学习感知图像块相似度): 越低越好。LP-Diff 得分为 0.159 , 表明其输出在人眼中最像真实值。
文本识别准确率
修复车牌的最终目标是读取它。研究人员将修复后的图像输入到文本识别模型 (CRNN) 中,以查看修复是否真的帮助机器读取了车牌。
他们测量了 NED (归一化编辑距离)——本质上是 OCR 出错的字符数比例。
- 输入退化图像: 0.709 错误率 (非常高) 。
- Real-ESRGAN: 0.279 错误率。
- LP-Diff: 0.198 错误率。
这证实了 LP-Diff 不仅仅是让图像看起来漂亮;它恢复了识别所需的特定语义信息。
消融实验: 我们需要所有组件吗?
为了确保每个模块都是必要的,作者进行了消融实验,逐一移除了组件。

- 移除 ICAM (exp2): PSNR 显著下降 (14.39 -> 12.93)。这证明了使用多帧 (时序信息) 至关重要。
- 移除 TEM (exp3): PSNR 降至 12.76。没有曲率和边缘增强,模型难以定义字符形状。
- 移除 DFM (exp4): PSNR 降至 13.16。没有空间和通道过滤,噪声会淹没系统。
结论
“LP-Diff” 论文有力地证明了真实世界的图像修复不能依赖合成训练数据。通过收集 MDLP 数据集,研究人员提供了一个反映交通监控混乱现实的基准。
此外, LP-Diff 架构表明,通过整合特定领域的知识,通用扩散模型可以得到显著改进。通过强制模型关注 时序变化 (通过 ICAM) 和 几何纹理 (通过 TEM) ,他们取得了优于通用超分辨率模型的结果。
对于计算机视觉领域的学生和研究人员来说,这篇论文强调了一个重要的教训: 理解你的数据 。 复杂的纹理增强模块之所以有效,是因为车牌是纹理丰富的物体。多帧注意力之所以有效,是因为交通涉及运动。设计适合问题物理特性的架构往往能产生最好的结果。
本论文的数据集和代码可在 GitHub 上获取,为智能交通系统的未来改进铺平了道路。
](https://deep-paper.org/en/paper/file-2100/images/cover.png)