超越平坦宇宙: Galaxy Walker 如何为 AI 天文学引入几何感知
当我们看着屏幕上的照片时,我们看到的是现实的平坦二维呈现。几十年来,计算机视觉模型一直基于这一前提运行。它们将图像视为像素的平面网格,并在欧几里得 (平坦) 向量空间中处理特征。
但宇宙并不是平坦的。
从行星的球形轨道到宇宙的双曲膨胀,再到黑洞周围时空的扭曲,宇宙是由复杂的非欧几里得几何形状定义的。当我们把天文学数据强行塞进标准的平坦空间视觉语言模型 (VLMs) 时,我们会丢失关键的结构信息。
这正是论文 “Galaxy Walker: Geometry-aware VLMs For Galaxy-scale Understanding” 所解决的问题。研究人员提出了一种新颖的框架,打破了传统 AI 的欧几里得限制。通过将球面和双曲几何直接集成到模型架构中,“Galaxy Walker” 在理解星系属性和形态方面达到了最先进的性能 (SOTA) 。
在这次深度探索中,我们将了解 Galaxy Walker 的工作原理,其几何感知组件背后的数学原理,以及为什么“用曲线思考”是天文学 AI 的未来。
现代 AI 中的几何鸿沟
在理解解决方案之前,我们必须先定义问题。现代 VLM (如 GPT-4o 或 Llama-Vision) 虽然强大,但它们在几何上是“天真”的。它们依赖于在欧几里得向量空间中构建的补丁嵌入 (patch embeddings) 和卷积。
然而,天文现象存在于具有不同曲率的流形上:
- 欧几里得空间 (曲率 = 0) : 平坦的宇宙。适合局部结构。
- 球面空间 (曲率 > 0) : 封闭的宇宙。对于理解全局拓扑、行星表面和投影观测至关重要。
- 双曲空间 (曲率 < 0) : 膨胀的宇宙。对于建模层次结构、黑洞和宇宙的加速膨胀至关重要。
如下图所示,传统的 VLM 强行将所有这些丰富的几何形状塞进一个扁平的盒子里。相反,Galaxy Walker 被设计为可以在这些不同的流形上“行走”。

当研究人员在天文学任务上测试通用 VLM 时,结果很差。像 GPT-4o 这样的模型在估计星系属性时的 \(R^2\) 得分低于 0.6。原因很明显: 仅用平面几何无法准确地模拟双曲引力场。
Galaxy Walker 登场: 一个几何感知框架
Galaxy Walker 并不是一个完全从零开始的新模型;相反,它是对预训练 VLM 的复杂增强。它通过两个关键创新将几何先验注入模型:
- 几何提示 (Geometry Prompt) : 一种通过在欧几里得、球面和双曲空间构建的物理图上执行“随机游走”来生成 token 的机制。
- 几何适配器 (Geometry Adapter) : 一个混合专家 (MoE) 模块,使用针对每种几何类型设计的专门数学运算来处理这些特征。
以下是高层架构:

让我们详细拆解这两个组件。
1. 几何提示 (The Geometry Prompt)
几何提示的目标是告诉模型星系位于宇宙复杂结构中的何处。为此,研究人员基于星系的物理位置 (赤经和赤纬) 构建了一个多关系图。
标准坐标被投影到三个不同的几何“宇宙”中。为了在这些弯曲空间 (流形) 上执行数学运算,模型使用了切空间 (Tangent Spaces) 。
可以将切空间想象成放在地球仪上的一张平整纸张。在纸张接触地球仪的点上,你可以进行常规的数学运算。为了将数据从物理弯曲流形移动到这个平坦的切空间 (反之亦然) ,我们使用指数映射 (Exponential maps) 和对数映射 (Logarithmic maps) 。
从物理坐标到流形坐标 \(\mathbf{V}_{\mathbb{M}}\) 的映射定义为:

这里,\(proj\) 是投影函数,\(exp^c_o\) 是在原点处曲率为 \(c\) 的指数映射。
一旦图构建完成,模型就会执行“随机游走”以收集关于星系邻居的信息。然而,由于邻居存在于弯曲空间中,特征聚合 (模型如何从邻居学习) 必须尊重该几何形状。研究人员使用了黎曼 GraphSAGE 层。
该过程分为两步:
- 转换 (步骤 1) : 将欧几里得特征 (如图像/光谱) 转换为特定的流形 (球面或双曲) 。
- 提示生成 (步骤 2) : 在该流形上使用关系图学习几何感知特征。

聚合这些特征的核心数学运算很复杂,因为它涉及将数据在弯曲流形和平坦切空间之间移动以执行聚合 (SAGE) ,然后再映射回来。这包含在以下方程中:

本质上,这个方程是说: “获取特征 \(X\),使用对数映射将其平铺到切平面上,使用 GraphSAGE 聚合邻居,然后使用指数映射将结果投影回弯曲流形。”
2. 几何适配器 (混合专家)
一旦几何提示注入了这些空间信息,VLM 就需要一种方法来处理它。标准的 Transformer 块使用假设为平坦空间的前馈网络 (FFNs) 。
Galaxy Walker 在 transformer 层中插入了一个几何适配器 (Geometry Adapter) 。 这是一个混合专家 (MoE) 模块,包含三个特定的“专家”,每个专家都设计为根据不同的几何形状处理数据。
专家 A: 欧几里得专家
这保留了预训练 VLM 的常规处理能力。它是一个标准的 FFN:

专家 B: 球面专家
该专家旨在捕捉角度关系和全局拓扑结构 (如行星表面) 。它将输出投影到单位球面上。注意 \(\kappa\) 参数,它控制曲率和归一化步骤:

专家 C: 双曲专家
这是最奇特的专家,对于模拟宇宙膨胀和层次结构至关重要。它在庞加莱球 (Poincaré ball) 模型内运行。它使用指数和对数映射 (\(\exp_0, \log_0\)) 在双曲空间中处理特征:

门控网络 (The Gating Network)
模型如何知道哪种几何形状与特定星系相关?它使用一个可学习的门控网络 (\(G\)) 。 对于每个 token,网络都会计算一个概率分布——本质上是在决定,“这个特征看起来 70% 是双曲的,30% 是欧几里得的。”

训练策略
模型分两个阶段进行训练,以确保它先学习几何知识,然后再将其与语言模型集成。
- 阶段 I: 几何提示学习。 提示模块在星系属性估计任务上独立训练,以学习三个空间的表示。
- 阶段 II: 几何适配器学习。 VLM 主干被冻结 (为了效率) ,仅训练几何适配器和投影层。
损失函数结合了语言建模损失 (\(\mathcal{L}_{LM}\)) 和用于数值预测 (如预测星系质量) 的回归损失 (\(\mathcal{L}_{reg}\)) 。

实验设置与结果
研究人员利用了一个包含超过 270,000 个样本的海量数据集,结合了来自 DESI-LS 的多波段图像和来自 DESI EDR 的光谱。

为了支持几何提示,他们构建了巨大的多关系图。如下图所示,这些图包含超过 100,000 个节点,在三个几何空间中具有不同的边缘连接。

性能比较
如下表 3 所示的结果令人震惊。作者将 Galaxy Walker 与特定领域的模型 (如 AstroCLIP) 和通用 VLM (GPT-4o, Claude 3.5) 进行了比较。
关键结论:
- 通用 VLM 表现挣扎: 看一下 GPT-4o 和 Claude 的 \(R^2\) 分数。它们通常接近零甚至为负 (这意味着模型比仅仅猜测平均值还要差) 。它们无法掌握数据背后的物理规律。
- 最先进水平 (SOTA) : Galaxy Walker 在几乎所有指标上都取得了最高分。
- 具体提升: 注意 sSFR (比恒星形成率) 一栏。Galaxy Walker 达到了 0.84 的 \(R^2\),而 AstroCLIP 仅为 0.69。对于一个复杂的物理属性来说,这是一个巨大的精度飞跃。
- 形态学: 在分类形状方面,特别是像 BAR (棒状结构) 和 SAC (旋臂计数) 这样的复杂形状,Galaxy Walker 显示出显著的提升 (F1 分数 +0.17) 。

为什么它能奏效?深入观察专家模块
这篇论文最引人入胜的部分之一是分析模型针对不同任务选择了哪个专家。模型真的在“使用”双曲空间吗?
答案是肯定的。下方的图 3 可视化了不同专家的激活强度。
- 属性估计 (图 a 右下) : 像质量 (\(M_*\)) 和金属丰度 (\(Z_{MW}\)) 这样的属性严重依赖欧几里得专家。这是合理的;这些属性通常源自直接的光度测量 (亮度/颜色) 。
- 形态学 (图 a 左侧) : 看一下双曲专家 (绿色条) 。它在 BAR、SPR (旋臂) 和 SAC (旋臂计数) 上激活强烈。这些结构受引力场和旋转曲线支配——这些现象遵循自然地由双曲几何表示的对数模式。
- 案例研究 (b) : 三角图展示了具体的星系。
- *案例 1 (侧向圆盘) : * 模型严重依赖球面专家 (红色角) ,可能是为了模拟径向发射模式。
- *案例 2 (多组分) : * 双曲专家 (蓝色角) 占主导地位,捕捉相互作用星系之间的层次关系。

模态和提示的重要性
研究人员还分析了不同输入模态 (图像 vs 光谱 vs 几何) 对成功的贡献。
在图 4(b) 中,相关性矩阵揭示了有趣的物理现象。 光谱数据与双曲图之间存在极高的相关性 (0.82) 。这表明光谱特征 (详述了恒星的化学成分和运动) 与双曲几何表示自然契合。

此外,团队还探索了如何最好地向模型提问。他们发现,在提示中提供“知识背景”——解释欧几里得、球面和双曲 token 代表什么——与简单的拼接相比,显著提升了性能。

训练动态: 适配器应该多密集?
最后,对于 AI 工程师来说,一个实际问题是: 我们应该多久插入一次这些几何适配器?每一层?每 4 层?
训练动态 (图 5) 显示, 密集集成 (每一层,绿色三角形) 最初学习速度非常快。然而, 稀疏集成 (每 4 层,红色圆圈) 最终会追赶上来,并在计算效率和性能之间提供更好的平衡。主表中的结果是使用稀疏方法获得的,证明不需要转换每一层就能获得几何感知的好处。

结论与未来展望
“Galaxy Walker” 代表了我们将 AI 应用于科学领域的一种范式转变。它摆脱了“一种架构适用所有”的方法,并承认物理世界——以及整个宇宙——并不总是符合标准深度学习的平坦向量空间。
通过整合几何提示 (流形上的随机游走) 和几何适配器 (具有黎曼数学的混合专家) ,该模型实现了对星系更“物理”的理解。
关键要点:
- 几何至关重要: 引入球面和双曲空间极大地提高了涉及引力结构和全局拓扑的任务的性能。
- 专业化是关键: MoE 架构允许模型根据正在分析的特定星系特征,在“平坦思维” (欧几里得) 和“弯曲思维” (非欧几里得) 之间动态切换。
- 效率: 该方法通过增强预训练模型而不是从头开始训练来工作,并且稀疏集成保持了较低的推理成本 (仅增加毫秒级的处理时间) 。
随着我们通过詹姆斯·韦伯太空望远镜和欧几里得 (Euclid) 等项目继续绘制宇宙地图,像 Galaxy Walker 这样的工具将变得至关重要。它们让 AI 不仅仅是将宇宙看作一张图片,而是将其理解为一个复杂的、多维的几何结构。
](https://deep-paper.org/en/paper/2503.18578/images/cover.png)