引言
如果你想知道一片森林储存了多少碳,或者一个生态系统有多健康,你需要知道树木的高度。这听起来很简单,但在全球——甚至仅仅是国家——范围内测量树冠高度是一场巨大的后勤噩梦。你不可能派出一队研究人员带着卷尺走进每一公顷的林地。
传统上,我们依赖于两种极端手段。一端是机载激光扫描 (Aerial Laser Scanning, ALS) , 即通过飞机搭载激光雷达进行扫描。它极其精确,能生成森林结构的密集 3D 点云,但成本极其高昂且极少更新。另一端是卫星图像。像 Sentinel-2 这样的卫星虽然频繁且免费地飞过头顶,但其分辨率 (每像素 10 到 30 米) 往往过于粗糙,无法区分单棵树木或检测细微的伐木活动。
这中间存在一个折衷方案: 甚高分辨率 (Very High Resolution, VHR) 卫星图像,它能捕捉到米级的细节。然而,开发 AI 模型从这些图像中估算树高一直面临着一个巨大的障碍: 数据通常是专有的、昂贵的,或者被锁定在非商业许可之后。
这就要提到一篇突破性的论文: “Open-Canopy: Towards Very High Resolution Forest Monitoring” (Open-Canopy: 迈向甚高分辨率森林监测) 。 在这项工作中,研究人员推出了首个开放获取的、国家级规模的基准,用于以惊人的 1.5 米分辨率估算树冠高度。通过结合覆盖法国全境的卫星图像和机载激光雷达数据,他们创建了一个数据集,使我们能够训练现代计算机视觉模型,以前所未有的清晰度从太空“看”到森林的高度。
在这篇文章中,我们将通过了解 Open-Canopy 是如何构建的,用于破解森林结构密码的深度学习架构,以及这对于未来环境监测的重要性。
背景: 数据困境
要理解 Open-Canopy 的重要性,我们必须审视森林监测的现状。
目前大多数全球树冠高度图都依赖于 GEDI (全球生态系统动力学调查) ,这是安装在国际空间站上的激光雷达。GEDI 提供精确的树高样本,但它只捕捉稀疏的足迹 (地面上的点) ,而不是连续的地图。研究人员通常利用这些稀疏的点,在低分辨率卫星图像 (如 Landsat) 上训练模型。结果生成的地图只能给你一个森林高度的大致概念,缺乏精准林业或生物多样性监测所需的粒度。
“圣杯”是在 ALS (机载激光扫描) 数据上训练模型。ALS 提供的“地面真值”非常精确,甚至可以绘制出单根树枝。如果我们能训练一个深度学习模型,让它通过观察卫星图像来预测 ALS 高度图,我们就能廉价且频繁地监测森林。
此前也有过尝试,但它们都受限于可复现性问题。以前最先进论文中使用的数据集通常依赖于私有卫星提供商 (如 Maxar) ,或者不发布其训练集划分。这使得科学界无法验证结果或在此基础上进行构建。
法国的独特机遇
法国为解决这一问题提供了独特的机会。最近的国家倡议公开了两个关键数据集:
- LiDAR-HD: 一个庞大的政府项目,使用机载激光以 3D 方式测绘法国全境。
- DINAMIS: 一个为研究提供 SPOT 6-7 卫星图像 (1.5 米分辨率) 开放访问的门户。
Open-Canopy 的作者结合了这些资源,创建了一个覆盖超过 87,000 km² 领土的数据集。

如 图 2 所示,该数据集不仅仅是图像的随机集合。它被精心划分为训练集、验证集和测试集,分布在法国不同的生物气候区域,从阿尔卑斯山到地中海。顶部面板 (a) 显示了地理分布,而 (b) 和 (c) 可视化了输入 (卫星图像) 和目标 (激光雷达高度图) 。
Open-Canopy 数据集
建立这种规模的基准需要严格的数据工程。研究人员不仅仅是裁剪图像;他们必须完美地对齐不同的数据源。
输入数据
模型的输入是 SPOT 6-7 卫星图像 。 虽然标准的计算机视觉模型通常预期红、绿、蓝 (RGB) 通道,但林业应用在很大程度上受益于第四个通道: 近红外 (NIR) 。 植被强烈反射近红外光,使其成为判断植物健康和密度的有力信号。Open-Canopy 中的图像经过了“全色锐化 (pansharpening) ”处理,这一过程结合了低分辨率的彩色数据和高分辨率的黑白数据,生成具有四个光谱波段 (R、G、B、NIR) 的清晰的 1.5 米分辨率图像。
地面真值
AI 模型的目标是 树冠高度模型 (Canopy Height Model, CHM) 。 这是从 ALS 点云推导出来的。通过从每个像素的激光扫描最高点减去地面高程,研究人员创建了一个代表植被绝对高度的栅格地图。
植被掩膜
遥感中的一个挑战是区分 10 米高的树和 10 米高的建筑物。为了将基准集中在林业上,研究人员创建了一个综合的 植被掩膜 。

图 3 展示了这一过程。他们结合了原始的激光雷达植被检测 (a) 与官方政府森林地图 (b) 。结果是一个精确的掩膜 (c) ,它不仅包括茂密的森林,还包括树篱、城市公园以及官方地图经常遗漏的零散树木。这确保了模型是因其测量树木的能力而被评估,而不是测量摩天大楼。
核心方法: 使视觉模型适应森林
既然有了数据,我们如何预测树高?这个问题被构建为一个 密集回归任务 。 对于输入卫星图像中的每个像素,模型必须预测一个代表以米为单位的高度的连续值。
从 UNet 到 Transformer
历史上, UNet 架构一直是卫星图像分割的主力军。它使用卷积神经网络 (CNN) 对图像进行下采样以捕捉上下文,然后上采样以预测细节。
然而,计算机视觉领域最近已被 视觉 Transformer (ViT) 彻底改变。与关注像素局部邻域的 CNN 不同,Transformer 使用“注意力”机制来理解整个图像的全局关系。这对于森林至关重要,因为树的高度可能取决于周围树冠的密度或地形的纹理。
作者对几种架构进行了基准测试:
- UNet & DeepLabv3: 标准的 CNN 基线。
- ViT (Vision Transformer) : 标准的 Transformer 架构。
- 分层 Transformer (Swin, PVTv2) : 这些是混合体,结合了 Transformer 的全局上下文和 CNN 的多尺度处理能力。
第 4 通道的挑战
这些模型大多数是在 ImageNet (一个包含猫、汽车等日常照片的大型数据库) 上预训练的。ImageNet 图像有 3 个通道 (RGB) 。SPOT 图像有 4 个 (RGB + 近红外) 。
为了使用预训练的权重,研究人员必须调整网络的第一层。他们保留了来自 ImageNet 的 RGB 权重,并用小的随机值初始化新 NIR 通道的权重。这使得模型可以从对视觉特征的强大理解开始,同时逐渐学习如何利用红外数据。
为什么架构很重要
结果揭示了一个有趣的性能层级。标准的 Transformer (ViT) 表现挣扎,产生了块状伪影。UNet 更好,但缺乏精度。明显的赢家是 分层 Transformer , 特别是 PVTv2 (金字塔视觉 Transformer) 。

图 4 直观地展示了差异。第一行显示绝对误差。看看 ViT-B 那一列: 上面布满了“热”的黄色/红色斑点,表明误差高达 40 米。 PVTv2 那一列则暗得多,表明分层 Transformer 生成的高度图更加准确和一致。
实验与结果
研究人员将他们的模型与现有的全球森林产品进行了评估。对比在视觉上非常惊人。
定性比较
下图将 Open-Canopy 方法与其他最先进的地图进行了比较。

在 图 1 中,面板 (a) 是卫星图像,(b) 是地面真值激光雷达。面板 (c) 是 在 Open-Canopy 上训练的 PVTv2 模型 的预测结果。注意它是如何捕捉到树冠的精细纹理和空地的清晰边界的。
将其与面板 (e)、(f) 和 (g) 进行比较,这些代表了其他知名的产品 (如 Lang 等人或 Potapov 等人的产品) 。那些地图更加模糊和块状化。这不仅仅是因为那些模型更差;而是因为它们受限于低分辨率的训练数据 (10m 或 30m) 。Open-Canopy 证明,在 1.5m 数据上进行训练可以在保真度上实现巨大的飞跃。
定量成功
数据支持了视觉效果。PVTv2 模型实现了 2.52 米的平均绝对误差 (MAE) 。 相比之下,当在这个分辨率下评估时,全球地图的误差通常在 6 到 9 米之间。
研究人员还分析了误差的来源。

图 5 显示了不同树高的误差分布。箱线图显示,Open-Canopy 模型 (每组中的第一个) 始终具有以零为中心的最紧密分布 (最小的箱体) 。与其他方法相比,它在高达的树木 (30-60m) 上的表现要好得多,其他方法往往低估了雄伟的老生长林的高度。
它具有泛化能力吗?
对区域数据集的一个主要批评是,在其上训练的模型可能在其他地方失效。为了测试这一点,研究人员采用了他们的模型 (仅在法国训练) ,并将其应用于 美国犹他州 的一片森林。
尽管地理和树种存在差异,该模型的表现却非常出色,其准确性与专门在美国数据上训练的模型相当。这表明 Transformer 学习到的森林结构特征是稳健且可迁移的。
Open-Canopy- \(\Delta\): 检测变化
森林监测不仅仅是静态高度;它关乎动态。非法伐木、风暴破坏以及干旱导致的枯死都需要检测随时间推移的树冠高度 变化。
研究人员引入了第二个基准: Open-Canopy- \(\Delta\) 。 他们专注于 *尚蒂伊森林 (Forêt de Chantilly) *,这是一个遭受气候引起的枯死影响的区域。他们获取了 2022 年和 2023 年的激光雷达数据,提供了一个完美的“前后”地面真值。
这是一个极其困难的任务。树木生长缓慢,因此生长的信号很微弱。然而,发现高度 下降 的区域 (由于砍伐或死亡) 至关重要。

图 6 可视化了这一挑战。面板 (b) 显示了地面真值变化: 红色区域表示高度损失。面板 (c) 显示了 Open-Canopy 模型的预测。虽然不完美,但它成功识别了主要的树冠损失区域。
至关重要的是,Open-Canopy 模型的表现明显优于基于 Sentinel-2 数据的方法 (面板 d) 。由于 Sentinel-2 分辨率低,它会遗漏 VHR 模型能捕捉到的小块枯死区域。
结论与意义
“Open-Canopy” 论文代表了环境 AI 的一个关键时刻。通过发布一个大规模、高质量、开放获取的数据集,作者消除了全球研究人员的准入门槛。
主要收获:
- 分辨率为王: 在 1.5m 图像上进行训练可以测量单棵树木和小规模干扰,这是 10m 卫星数据完全无法做到的。
- Transformer 有效: 分层视觉 Transformer (如 PVTv2) 在解释复杂的森林纹理方面具有独特的清晰视野。
- 开放科学的胜利: 通过摆脱专有数据,该基准使得科学界能够进行公平比较和更快的迭代。
当我们面对加速的气候危机时,像这样的工具至关重要。它们使政府和环保人士能够从粗略的森林碳估算转变为精确、可操作的测量——逐个像素,逐棵树木。
](https://deep-paper.org/en/paper/2407.09392/images/cover.png)