引言

在过去几年里,人工智能领域一直被一种特定的架构所主导: Transformer。像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 彻底改变了机器处理序列数据的方式,展示了近乎涌现的推理能力。

这自然给其他领域的研究人员提出了一个引人深思的问题: 如果一个模型擅长预测句子中的下一个单词,那么它是否也同样擅长预测交通中汽车的下一步动作?

从表面上看,这两个领域惊人地相似。两者都涉及自回归序列建模 (在给定 \(0...t\) 的情况下预测 \(t+1\)) 、基于 Token (词元) 的表示以及对上下文的高度依赖。在语言中,上下文是你刚刚写下的段落;在驾驶中,上下文是道路的几何形状和其他驾驶员的行为。

然而,将架构从一个领域“复制粘贴”到另一个领域很少能开箱即用。道路不是句子,轨迹也不是文本字符串。

在这篇文章中,我们将深入探讨一篇引人入胜的论文: “Do LLM Modules Generalize? A Study on Motion Generation for Autonomous Driving” (LLM 模块具有泛化性吗?一项关于自动驾驶运动生成的研究) 。 研究人员对五个核心 LLM 组件——分词器 (Tokenizers) 、位置编码 (Positional Embeddings) 、预训练 (Pre-training) 、后训练 (Post-training) 和测试时计算 (Test-time Computing) ——进行了系统评估,以此观察哪些可以迁移到自动驾驶领域,以及至关重要的是,哪些会失效。

图 1: 自动驾驶运动生成任务与大型语言模型有着惊人的相似之处。

如图 1 所示,两者的高层流程几乎完全相同。但正如我们将要发现的,魔鬼往往藏在细节之中。

任务: 运动生成

在剖析架构之前,我们必须先定义问题。作者主要关注运动生成 (Motion Generation) , 特别是“Sim Agents (仿真智能体) ”任务。

在这种设置下,模型会被提供:

  1. 上下文 (\(C_t\)) : 静态环境 (高精地图、交通信号灯、道路边界) 。
  2. 历史信息 (\(H_i^t\)) : 所有智能体 (汽车、行人、骑行者) 过去 1 秒的运动情况。

目标是同时为多个智能体生成逼真的、时长 8 秒的未来轨迹 (\(\hat{Y}_i\)) 。其数学公式如下:

公式 1: 运动生成的公式化表示。

这不仅仅是为了预测一条可能的路径。一个好的模拟器需要生成多样化合理的推演 (rollouts) ——即未来可能发生的 32 种不同情况,且所有情况都需遵守物理规律和交通规则。

核心方法: 改编 LLM 模块

研究人员构建了一个 GPT 风格的基线模型来测试他们的假设。该模型由两个主要部分组成: 场景编码器 (Scene Encoder)运动生成器 (Motion Generator)

架构

场景编码器将地图和智能体历史压缩成 Token。与标准的文本编码器不同,该网络必须处理几何数据 (点和向量) 。如下所示,它使用类似 PointNet 的结构来嵌入智能体和地图元素,随后通过注意力层在智能体 (A2A) 、地图 (M2A) 以及反之亦然之间混合信息。

图 6: 场景编码器的架构。

这些嵌入随后被输入到运动生成器中,它充当系统的“GPT”。它使用自回归解码器来预测下一个运动 Token。注意这里复杂的注意力机制: 它不仅仅关注之前的 Token (时间注意力) ;它在每一步还会关注其他智能体和地图。

图 7: 运动生成器的架构。

建立了这个基线后,让我们看看作者研究的五个模块。

模块 1: 分词 (Tokenizing)

问题: LLM 在离散词表 (单词或子词) 上运行。车辆运动是连续的 (速度、加速度、位置) 。如何将连续的曲线变成离散的 Token ID?

方法:

  1. 数据驱动 (例如 SMART) : 将数百万条真实世界的轨迹聚类成 (比如说) 1,024 种“标准”形状。这就像创建一本常用短语词典。
  2. 基于模型 (Verlet) : 对物理量 (加速度/速度) 进行离散化,而不是对原始轨迹形状进行离散化。

作者提出了一个 Verlet-Agent 分词器。他们将轨迹转换到智能体的局部坐标系中,并对加速度空间进行离散化。这与之前使用场景中心坐标系的工作 (MotionLM) 不同。

这有什么重要意义?如果你基于全局坐标进行分词,“向北加速”和“向东加速”看起来是不同的 Token。如果你使用智能体中心坐标,“向前加速”无论是车头朝向哪个方向,都是同一个 Token。这种一致性提高了泛化能力。

图 8: 初始速度对相同运动 Token 序列引起的行驶距离的影响。

如图 8 所示,Verlet 包装器确保一个 Token 代表运动状态 (加速度) 的变化,从而保证无论初始速度如何,物理上都是一致的。

结论: 基于模型的智能体中心方法显著优于数据驱动的聚类方法。如表 1 所示,它以小得多的词表规模 (169 个 Token vs 2048 个) 实现了更高的准确率。

表 1: 分词器设计

模块 2: 位置编码 (PE)

问题: 在 NLP 中,位置是 1D 的 (单词 1,单词 2,单词 3) 。在驾驶中,位置是 2D/3D 的 (x, y, 航向角) 且具有关系性。你需要知道车辆 A 在车辆 B 的后面,并且在车道线的左侧

标准的 NLP 位置编码 (添加到输入中的正弦/余弦函数) 在这里失效了,因为它们不能有效地捕捉 2D 物体之间的相对几何关系。

解决方案: 作者改编了 DRoPE (方向旋转位置编码) 。 RoPE 不是添加一个向量,而是在高维空间中旋转嵌入。旋转的角度对应于位置/方向。

定义标准 PE 的公式

基于位置和航向进行旋转的数学公式如下:

位置旋转公式 航向旋转公式

转折点: 作者发现标准的 DRoPE 有一个缺陷。如果你在各自的局部坐标系中编码每条车道段,两条平行的车道在数学上对网络来说看起来是一样的。注意力机制很难区分它们。

他们提出了 Global-DRoPE 。 他们将坐标保留在全局框架中 (保留“左车道”和“右车道”之间的语义区别) ,但在注意力计算过程中使用旋转机制来注入相对位置信息。

图 11: 在 DRoPE 下使用局部 (上排) 和全局 (下排) 坐标输入时的车道段特征可视化。

请看图 11。上排 (局部坐标) 显示出高度的冗余——特征看起来是一样的。下排 (全局坐标) 显示了平滑的过渡和交叉路口不同部分的独特特征。如下面的图 12 所示,这导致了更好的轨迹生成。

图 12: 使用局部与全局坐标编码的运动生成结果比较。 表 2: Sim Agents 任务上不同位置编码方法的比较。

模块 3: 预训练和缩放定律 (Scaling Laws)

问题: LLM 的定义特征之一是缩放定律 : 增加更多的数据和参数可以以可预测的方式降低损失。这适用于驾驶吗?

实验: 作者在 Waymo Open Motion 数据集的 10% 到 800% (增强后) 范围内,训练了不同大小 (从 Mini 到 Large) 的模型。

结论: 是的,缩放定律适用。 如图 9 所示,随着数据的增加,损失呈线性下降 (在双对数坐标系上) 。然而,他们遇到了天花板: “Large”模型即使在 800% 的数据集上也开始过拟合,这表明仅仅增强数据是不够的——我们需要真正更大的数据集 (如全部的 Waymo 或 nuPlan 数据) 来进一步提升参数规模。

图 9: 数据量和模型参数的缩放定律 表 3: GPT 层的缩放定律

从定性上看,预训练模型学会了复杂的行为,如掉头和礼让行人 (图 13) 。

图 13: 预训练后三个并行推演的结果。

模块 4: 后训练 (对齐)

问题: 预训练模型 (通过模仿学习训练) 就像一个文本补全模型——它模仿普通人类。但“普通”人类的驾驶并不总是安全或最优的。我们需要对模型进行对齐,就像我们使用 RLHF (基于人类反馈的强化学习) 来阻止 ChatGPT 生成有害内容一样。

方法: 作者比较了三种对齐技术:

  1. SFT (有监督微调) : 在安全关键案例上进行微调。
  2. REINFORCE / A2C: 标准的强化学习方法,最大化奖励函数 (惩罚碰撞) 。
  3. GRPO (组相对策略优化) : 一种在 LLM (如 DeepSeek-Math) 中使用的新方法。

为什么选择 GRPO? 标准 RL (A2C) 需要训练一个“Critic (评论家) ”网络来估计状态的价值。这在自动驾驶的高维空间中是出了名的不稳定。GRPO 跳过了 Critic。相反,它针对同一个输入生成一组 \(N\) 个轨迹,对它们进行排名,并更新策略以支持组内优于平均水平的轨迹。

图 10: 强化学习框架。

GRPO 损失函数包含一个 KL 散度项,以确保模型不会偏离原始的类人物理特性太远 (见下式) 。

公式: GRPO 损失函数

结论: GRPO 胜出。如表 4 所示,它实现了最佳平衡。标准 RL (REINFORCE/A2C) 创建了过于保守的“机器人式”驾驶员,它们为了避免碰撞而拒绝移动 (真实性得分低) 。GRPO 在显著提高安全性的同时保持了类人的真实性。

表 4: 后训练结果比较。

这种差异在下面的热力图中非常明显。SFT 改变甚微。REINFORCE 收敛到单一的安全路径 (无聊/可预测) 。GRPO 探索了一个安全的路径分布

图 3: 不同后训练方法的比较,显示了端点分布。

图 14 展示了 GRPO 解决预训练模型“失败”场景的具体案例,例如安全汇入或礼让行人。

图 14: GRPO 与预训练模型的定性比较。

模块 5: 测试时计算 (Test-time Computing)

问题: 即使是最好的模型偶尔也会输出碰撞轨迹。在 LLM 中,我们在推理过程中使用“思维链 (Chain of Thought) ”或“Best-of-N”采样等技术来改善输出。

解决方案: 作者实现了一个生成-搜索-聚类 (Generate-Search-Cluster) 流程。

  1. 生成: 并行生成许多推演 (例如 1024 个) 。
  2. 搜索: 过滤掉任何与地图或智能体碰撞的轨迹。
  3. 聚类: 使用 K-Medoids (K-中心点聚类) 对剩余的安全轨迹进行分组,并挑选出多样化的代表。

结论: 这是确保安全性最有效的方法。如图 15 所示,原始输出有许多“红色 X”碰撞。而“搜索+聚类”方法几乎消除了它们。

图 15: 测试时计算方法的定性比较。 表 5: 不同测试时计算策略的比较

结果与局限性

结合所有这些优化模块 (Verlet-Agent 分词器 + Global-DRoPE + GRPO + 搜索/聚类) ,作者将他们的模型提交到了 Waymo Sim Agents 排行榜。

如表 6 所示,他们取得了与最先进 (SOTA) 方法相比具有竞争力的结果。

表 6: Sim Agents 排行榜上与 SOTA 的比较

评估悖论

作者强调了当前基准测试中的一个关键缺陷。标准指标是“真实性似然度 (Realism Likelihood) ”,它衡量生成的轨迹与真值 (Ground Truth) 的接近程度。

但是,如果真值本身就很糟糕呢?

在图 4 中,人类驾驶员 (真值) 由于噪声或错误实际上驶出了道路。预训练模型模仿了这个错误并获得了分。优化后 (GRPO) 的模型修正了错误并保持在道路上,但因为与真值不匹配而获得了分。这表明,随着自动驾驶模型变得比人类更好,我们的指标也需要进化。

图 4: 使用基于似然度的评估的一个局限性。 表 7: 上述场景的指标。

结论

这篇论文为将“LLM 剧本”改编到自动驾驶领域提供了路线图。关于“LLM 模块是否具有泛化性?”的答案是一个微妙的 “是的,但是……”

  • 是的: 自回归生成、缩放定律和对齐 (RLHF/GRPO) 是能够很好迁移的强大范式。
  • 但是: 你不能忽视该领域的物理特性。分词器必须尊重物理学 (Verlet) ,嵌入必须尊重几何学 (Global-DRoPE) ,而 RL 必须平衡安全性与类人的真实性。

通过将自动驾驶视为一个带有物理约束的语言建模问题,我们正离生成式世界模型更近一步,这种模型能够模拟——并最终驾驭——现实世界的复杂性。