简介
在计算机视觉的世界里,一切都出奇地井然有序。无论你是在 ImageNet 上训练模型,还是处理你自己收集的度假照片,数据通常看起来都差不多: 标准的 RGB 图像,由标准的相机拍摄,通常被调整到标准的分辨率 (比如 \(224 \times 224\)) 。这种一致性使得像 ResNet 和 Vision Transformers (ViTs) 这样的模型能够成为强大的通用引擎。
但如果你从太空中观察地球,这种秩序就崩塌成了混乱。
地球观测 (Earth Observation, EO) 数据以混乱著称。卫星在不同的高度轨道运行,搭载的传感器以截然不同的方式观察世界。你可能有一张来自 Sentinel-2 的 10 米分辨率光学图像,一张来自 Sentinel-1 的雷达扫描图 (它可以穿透云层,但在人眼看来像是一团静态噪点) ,以及一张 0.2 米分辨率的商业无人机图像——它们拍摄的却是同一片森林。
传统上,在这个领域构建 AI 意味着建立一个个“孤岛”。你需要为 Sentinel-2 训练一个模型,为航空无人机训练另一个完全不同的模型。如果你想把它们结合起来,就不得不笨拙地调整图像大小,从而丢失关键细节或引入伪影。
AnySat由此登场。

AnySat 是一种新的基础模型架构,旨在打破这些孤岛。如上图所示,它提出了一个激进的转变: 一个单一的模型,能够同时消化高度异构的数据——不同的分辨率、尺度和模态。无论是利用雷达追踪森林砍伐,还是利用高分辨率光学图像对农作物进行分类,AnySat 都能同时从所有这些数据中学习,从而建立对地球的统一理解。
在这篇文章中,我们将解构 AnySat 如何通过其尺度自适应架构和独特的自监督学习方法,成功地成为地理空间数据的“通用翻译机”。
挑战: 太空中的巴别塔
要理解 AnySat 的重要性,我们首先需要了解问题的难度。在标准的深度学习中,我们通常假设输入的张量尺寸是固定的。例如,一个标准的 Vision Transformer (ViT) 会将图像分割成固定的块 (例如 \(16 \times 16\) 像素) 。
在地球观测中,一个 \(16 \times 16\) 像素的块 (patch) 根据传感器的不同,意味着完全不同的东西:
- Sentinel-2: 一个块覆盖 \(160 \times 160\) 米。
- 航空无人机: 一个块覆盖 \(3.2 \times 3.2\) 米。
- MODIS 卫星: 一个块覆盖将近 \(4 \times 4\) 公里。
如果你直接将这些数据输入标准模型,模型对物理尺度将毫无概念。无人机图像中的一座房子看起来只有几个像素,而在卫星图像中,整个街区可能只是一个像素。以前的方法试图通过将所有内容重新缩放到一个通用的分辨率来解决这个问题,但这在计算上既浪费又降低了数据质量。
此外, 模态 (传感器数据的类型) 也存在根本差异。光学相机捕捉反射的阳光 (化学属性) ,而合成孔径雷达 (SAR) 捕捉表面纹理和水分 (物理属性) 。基础模型需要理解光学图像中的亮绿色像素和雷达图像中的高后向散射像素可能代表同一片玉米地。
AnySat 解决方案
AnySat 通过两项主要创新解决了这些挑战:
- 尺度自适应块编码 (Scale-Adaptive Patch Encoding) : 一种在不调整原始图像大小的情况下摄取任何分辨率数据的方法。
- 多模态 JEPA (Multimodal JEPA) : 一种自监督学习策略,教导模型通过在特征空间 (而不是像素空间) 中预测缺失信息来理解数据的语义。
1. 尺度自适应块编码
第一个障碍是如何将数据输入网络。AnySat 抛弃了输入图像必须有固定尺寸的想法。取而代之的是,它处理被分割成块 (patches) 的瓦片 (tiles,即大的地理区域) 。
然而,由于每个传感器的分辨率 (每像素代表的米数) 不同,物理块内的像素数量差异巨大。AnySat 使用分层编码方案解决了这个问题。

如图 2 所示,该过程如下:
- 物理一致性: 模型以米 (例如 \(P \times P\) 米) 为单位定义块的大小,而不是像素。这确保了模型总是以物理单位进行“思考”。
- 子块划分 (Sub-Patching) : 由于像素密度不同,高分辨率传感器的块会有很多像素,而低分辨率传感器的像素很少。AnySat 将块分割成固定像素大小 (\(\delta_m\)) 的子块 (sub-patches) 。
- 投影: 每个子块都由一个针对该传感器定制的多层感知机 (MLP,即投影器 \(\phi^{\text{proj}}\)) 进行处理。
- 合并: 一个共享的 Transformer (\(\phi^{\text{trans}}\)) 将所有这些子块聚合成整个块的一个单一向量表示。
这种方法的妙处在于,共享的 Transformer 并不关心有多少个子块。无论输入是密集的无人机图像 (许多子块) 还是粗糙的卫星图像 (很少子块) ,输出都是一个大小为 \(E\) 的单一标准化嵌入向量。
从数学上讲,块 \(x_p^m\) (模态 \(m\) 在位置 \(p\) 的块) 的编码表示为:

这种架构使得 AnySat 能够使用同一套核心网络权重处理从 0.2 米/像素到 250 米/像素的输入。
2. AnySat 的架构
一旦数据被编码成这些标准化的向量,AnySat 就会采用学生-教师 (Student-Teacher) 架构进行学习。其核心思想是通过玩一个复杂的“填空”游戏,在没有人为标签的情况下训练模型 (自监督学习) 。

图 3 概述了工作流程。该架构包括:
- 学生 (The Student) : 它看到的是数据的受损版本。有些块被完全移除 (“丢弃”) ,而另一些块的特定传感器模态被隐藏 (“掩码”) 。它的工作是猜测缺失的内容。
- 教师 (The Teacher) : 它看到的是完整的、未受损的数据。它的工作是提供“正确答案”。
至关重要的是,教师网络不是通过反向传播训练的。它的权重是学生权重的指数移动平均 (EMA) 。 这确保了教师总是比学生稍微稳定和“成熟”一些,从而为学习提供一个稳定的目标。
该模型使用一个模态组合器 (\(\phi^{\text{comb}}\)) 来合并来自覆盖同一块的不同传感器 (如光学和雷达) 的信息。这产生了用于最终预测的多模态表示 \(f^*\)。

3. 训练: 联合嵌入预测架构 (JEPA)
计算机视觉中的大多数自监督模型 (如 MAE) 都试图重建缺失的像素。如果你遮住了一辆车,模型会试图逐个像素地画出这辆车。
在地球观测中,像素重建是很危险的。同一片森林在相隔一天拍摄的两张卫星图像看起来可能完全不同,这取决于云的阴影、太阳角度或大气雾霾。如果模型试图重建精确的像素,它就会浪费能力去学习云和阴影,而不是森林本身。
AnySat 采用了 JEPA 框架。学生不再预测像素,而是试图预测教师产生的特征嵌入 。

损失函数计算的是学生对被丢弃块 (\(K\)) 的预测嵌入与教师的实际嵌入之间的距离。

通过在“潜在空间” (特征空间) 进行预测,模型学习到了语义一致性。它学会了“森林”就是“森林”,不管在该特定图像中是否有云影飘过。
4. 对齐模态
当处理多传感器数据时,仅仅重建缺失部分是不够的。我们需要确保模型理解建筑物的雷达图像与同一建筑物的光学图像是对应的。
为了强制实现这一点,AnySat 添加了一个对比损失 (Contrastive Loss) 。 这个损失函数强制要求来自不同模态 (例如 \(f^{optical}\) 和 \(f^{radar}\)) 的同一块的嵌入在向量空间中彼此靠近,同时推开不同块的嵌入。

这种对齐至关重要。它允许模型迁移知识。如果 AnySat 学会了使用光学数据识别特定的作物类型,对比损失有助于它将该知识映射到雷达模式,即使在光学数据缺失 (例如在夜间或多云天气) 的情况下也能提高性能。
GeoPlex: 统领一切的数据集
一个通用的模型需要通用的训练数据。研究人员汇编了 GeoPlex , 这是一个包含 5 个多样化多模态数据集的庞大集合。

如图 4 所示,GeoPlex 不仅规模巨大,而且在地理和光谱上都具有多样性。它涵盖了:
- 分辨率: 从 0.2m (航空) 到 250m (MODIS) 。
- 传感器: 11 种不同的模态,包括 Sentinel-1/2、Landsat、SPOT 和 NAIP。
- 类型: 单张图像和时间序列数据。

表 C 详细列出了 AnySat 摄取的数据种类的多样性。这种多样性防止了模型过度拟合特定传感器或特定区域的怪癖 (例如欧洲森林的“绿色”与亚马逊森林的差异) 。
为了感知尺度,该模型使用了一种专门的位置编码,该编码考虑了块的物理尺寸,确保网络知道它正在查看的数据“在哪里”以及“有多大”。

实验结果
那么,这个“通用翻译机”真的有效吗?研究人员在 9 个不同的下游任务中对 AnySat 进行了测试,范围从作物分类到洪水分割。
在 GeoPlex 上的表现
首先,他们在 GeoPlex 包含的数据集的测试集上评估了模型。结果令人印象深刻。

图 5 显示,AnySat (紫色条) 始终优于或匹配最先进的 (SOTA) 专用模型。
- 树种分类: AnySat 优于 OmniSat 和 DOFA 等专用模型。
- 语义分割: 在土地覆盖识别 (PASTIS, FLAIR) 等任务中,AnySat 取得了更高的平均交并比 (mIoU) 分数。
这是值得注意的,因为通常“通用”模型会为了多功能性而牺牲峰值性能。AnySat 似乎两者兼得: 既有大型基础模型的鲁棒性,又有专家的精确性。
在外部数据集上的泛化能力
对基础模型真正的考验是它如何处理从未见过的数据。研究人员在 6 个未包含在训练组合 (GeoPlex) 中的外部数据集上测试了 AnySat。
表 1 中的结果令人震惊。

AnySat 在 Sen1Floods11 (洪水检测) 和 HLS Burn Scar (烧伤痕迹检测) 等数据集上取得了最先进的结果,通常优于那些大得多或专门针对类似数据训练的模型 (如 Prithvi 或 SatMAE) 。
更令人印象深刻的是,AnySat 可以处理未见过的传感器配置 。 例如, TimeSen2Crop 数据集包含单像素时间序列 (没有空间上下文) ,这是一种 GeoPlex 中未明确存在的格式。AnySat 能够无缝适应。
能力可视化
数字讲述了一个故事,但视觉输出讲述了另一个故事。 图 B 展示了该模型的语义分割能力。

预测结果 (中间行) 与真实值 (底行) 紧密对齐,即使对于像农田地块或洪水这样复杂的形状也是如此。该模型处理了航空图像的高分辨率纹理与 Sentinel 数据的粗糙块之间的过渡,且没有产生调整大小后的数据中常见的“棋盘格”伪影。
为什么它有效? (消融实验)
研究人员进行了消融实验,以了解哪些组件驱动了这种性能。

表 2 强调了两个主要发现:
- 对比损失很重要: 移除对比损失 (用于对齐光学和雷达数据) 会显著降低分类性能。这证实了学习模态之间的关系对于语义理解至关重要。
- JEPA vs. 随机丢弃: 与随机 Token 丢弃相比,JEPA 的结构化掩码策略在分割任务中被证明略胜一筹,加强了预测架构的价值。
性能总结
为了可视化 AnySat 的优势,研究人员将其性能与 SOTA 方法绘制在一个雷达图上。

如图 A 所示,紫色线 (AnySat) 几乎在每个轴上都包围了橙色线 (SOTA) 。无论是微调 (FT) 还是线性探测 (LP) ——即只训练最后一层——AnySat 都为 EO 任务提供了一个卓越的起点。
结论
AnySat 代表了地球观测 AI 的显着成熟。它使我们摆脱了“一个传感器,一个模型”的时代,迈向我们可以将卫星数据视为统一、连续信息流的未来。
通过将尺度自适应编码器与 JEPA 和对比学习的语义能力相结合,AnySat 解决了 EO 数据最头疼的问题: 异构性。它允许研究人员利用他们手头的任何数据进行训练——无人机、旧卫星、新雷达星座——并生成一个整体大于部分之和的模型。
对于进入该领域的学生和研究人员来说,AnySat 证明了遥感的未来不仅仅是发射更好的卫星;还在于构建更智能的架构,最终理清我们要面对的这个混乱、多模态且不断变化的星球图景。
](https://deep-paper.org/en/paper/2412.14123/images/cover.png)