引言
车辆的 GPS 轨迹无处不在,存在于出租车、配送车队和网约车的日志中。每条轨迹都讲述着丰富的移动故事——车辆从哪里出发、如何行驶 (直行、转弯、停车) 以及最终目的地。将这一叙事提取为紧凑的向量 (即嵌入) 对于多种智能交通系统 (ITS) 应用非常有价值,包括轨迹预测、高效路径规划、异常检测等。
然而,实现这一目标存在两个显著的现实难题。首先,行程的“目的” (例如通勤、购物、出差) 通常隐含于文本元数据中,如道路名称和兴趣点 (POI) 描述。将大型语言模型 (LMs) 整合进轨迹编码器以捕捉这些语义细微差别会带来大量计算开销。其次,真实世界的轨迹常常噪声多且冗余严重。高频采样通常包含许多无信息点,例如交通停靠或匀速行驶期间记录的点,这会膨胀计算量并可能降低轨迹表示的质量。
本文提出了 TrajMamba , 一种专为高效且语义丰富而设计的轨迹编码器。其核心创新包括:
- 一个 Traj-Mamba 编码器 , 使用高效的结构化状态空间模块 (SSMs) 联合建模轨迹的 GPS 和道路视角,有效捕捉连续运动模式。
- 一个 旅行目的感知的预训练流程 , 通过对比学习将轨迹嵌入与来自道路和 POI 信息的文本视图对齐。关键在于,该过程在预训练期间注入旅行目的语义,但不会在运行时给编码器增加额外开销。
- 一个基于知识蒸馏的预训练策略 , 使用可学习的掩码生成器识别并保留最重要的轨迹点,从而压缩轨迹。该过程训练以在保留完整轨迹关键信息的前提下生成高效的压缩表示。
图 1 给出了一个通勤轨迹的直观示例,展示了 TrajMamba 旨在解析的多样化运动和语义线索。

图 1: 一条显示道路类型、POI 和运动行为的通勤车辆轨迹。
需要了解的背景
在深入 TrajMamba 的架构之前,了解论文所利用的主要构件和概念会很有帮助。
结构化状态空间模型 (SSMs) : SSMs 是一类将序列建模转化为线性微分方程解相关操作的序列模型。它们擅长捕捉长程依赖,同时保持计算效率 (在有效实现下相对于序列长度呈线性) 。连续时间的 SSM 通常由以下方程定义:
\[ h'(t) = A h(t) + B x(t),\quad y(t) = C h(t), \]然后可以离散化为递归关系。这些递归可以展开为卷积,从而在训练时实现快速并行计算。
Mamba / 选择性 SSMs: 在 SSM 的基础上,Mamba 风格的选择性 SSMs 引入了一个重要增强: 使 SSM 参数 (尤其是 B、C 和 \(\Delta\)) 依赖于输入 token。这样的输入相关参数化允许模型动态地“关注”序列中的特定 token 或片段,类似于 Transformer 中的注意力机制,但关键在于它保留了 SSM 的线性时间计算特性。
对比学习 (InfoNCE) : 这是一种强大的自监督学习技术,用于对齐同一数据实例的不同表示或“视图”。它通过将正样本对 (同一数据的不同视图) 在嵌入空间中拉近,同时将负样本对 (不同数据实例的视图) 推远来工作。InfoNCE 损失函数常用于此目的。
最大熵编码 (MEC) : MEC 是一种目标函数,简单来说,它鼓励压缩后的表示尽可能保留来自原始未压缩形式的信息。它是一种信息最大化 (infomax 风格) 的目标,有助于确保压缩嵌入仍然丰富且信息量大。
TrajMamba: 核心方法 (逐步解析)
流程概览
从高层来看,TrajMamba 的流程分为三个清晰的阶段,如图 2 所示:
- Traj-Mamba 编码器构建: 构建编码器以通过联合建模轨迹的 GPS 坐标和道路网络上下文来生成紧凑的轨迹嵌入。
- 旅行目的感知预训练: 通过对比地将编码器的轨迹嵌入与来源于道路和 POI 的丰富文本视图对齐,预训练 Traj-Mamba 编码器以理解旅行目的。
- 知识蒸馏预训练: 为了解决冗余问题,采用知识蒸馏策略。该策略涉及一个可学习的掩码生成器,通过识别并保留最重要的点来压缩轨迹。然后训练一个学生编码器,使其处理这些压缩轨迹并匹配处理完整轨迹的教师模型所学到的语义内容。
这是系统示意图:

图 2: 整体 TrajMamba 框架: 旅行目的预训练与知识蒸馏预训练。
下面我们将详细拆解这三部分组件。
1) Traj-Mamba 编码器 —— 联合建模 GPS 与道路视角
动机。 车辆的位置和运动可以自然地用两种互补的方式来表示:
- GPS 特征: 包括原始坐标、时间戳以及派生的运动学属性如速度、加速度和移动角度等,捕捉连续的物理运动信息。
- 道路特征: 与车辆所处的具体道路段相关,包括道路标识、类型,以及道路网络中的其他语义信息,提供上下文与结构信息。
联合编码这两种视角对于捕捉连续运动模式 (例如车辆从主干道转入高速公路) 以及理解这些模式如何与道路网络相关联至关重要。
高层设计。 Traj-Mamba 编码器由堆叠的 \(L\) 个 Traj-Mamba 模块构成。正如图 3 所示,每个模块包含两个并行的选择性多输入 SSM 流:
- GPS-SSM 流: 该路径处理 GPS 潜在向量,并结合高阶运动特征以驱动其选择机制。
- Road-SSM 流: 该路径处理道路潜在向量,其选择机制以 GPS-SSM 流的输出为条件,实现跨模态交互。

图 3: 一个 Traj-Mamba 模块的结构,展示了 GPS-SSM 和 Road-SSM 流及其门控交互。
输入特征。 对于每个轨迹点 \(\tau_i\),模型提取并构建若干特征:
- GPS 特征: 包括其坐标 \(g_i=(\text{lng}_i,\text{lat}_i)\)、相对于轨迹起点的时间增量 \(\Delta t_i\),以及以分钟为单位的时间戳 (例如一天中的分钟数) 。
- 道路特征: 包括道路 ID (映射为嵌入) 、周中日、小时以及分钟等时间信息。
- 高阶运动特征 \(s_i=(v_i, \text{acc}_i, \theta_i)\): 从相邻点计算得到,包括速度、加速度和运动角度。这些特征随后进行 min-max 归一化并拼接。
这些特征初始被嵌入为两个独立的潜在向量序列,\(Z_{\mathcal{T}}^G\) 和 \(Z_{\mathcal{T}}^R\)。每个序列的形状为 \(n \times \frac{E}{2}\),其中 \(n\) 为点的数量,\(E\) 为最终嵌入维度。对单个点将两者拼接即可得到 \(E\) 维的 token 嵌入。
选择性 SSM 参数化。 GPS-SSM 分支的一个关键方面是其选择性机制,使 SSM 参数与输入相关。具体而言,高阶运动特征序列 \(S_{\mathcal{T}}\) (形状为 \(n \times 3\)) 通过线性投影动态生成 SSM 的 B、C 和 \(\Delta\) 参数:
\[ \boldsymbol{B} = \mathrm{Linear}(\boldsymbol{S}_\mathcal{T}), \quad \boldsymbol{C} = \mathrm{Linear}(\boldsymbol{S}_\mathcal{T}), \quad \boldsymbol{\Delta} = \sigma_\Delta(\mathrm{Linear}(\boldsymbol{S}_\mathcal{T}) + \boldsymbol{b}_\Delta). \]这些逐 token 的输入相关参数允许 SSM 针对不同轨迹点采取差异化处理,基于每个点观测到的具体运动模式自适应其行为。Road-SSM 分支采用类似过程,其选择参数基于 GPS-SSM 的输出构建,从而实现信息流动。
模块输出与融合。 每个 Traj-Mamba 模块为 GPS 和道路流生成输出嵌入,分别记为 \(Y_i^G\) 和 \(Y_i^R\)。为了整合这些信息并为下一层作准备,模块执行融合操作。该融合通过与 \(X_i^R\) (Road-SSM 的处理输入) 进行点乘门控,随后经 RMSNorm 与线性投影,得到下一层输入 \(Z_i^G\) 和 \(Z_i^R\):
\[ \boldsymbol{Z}_i^G = \mathrm{Linear}(\mathrm{RMSNorm}(\boldsymbol{Y}_i^G \odot \boldsymbol{X}_i^R)), \quad \boldsymbol{Z}_i^R = \mathrm{Linear}(\boldsymbol{Y}_i^R). \]与 \(X_i^R\) 的点乘门控尤为重要,因为它允许道路级信号有选择地过滤并强调与 GPS 派生特征相关的部分。在经过 \(L\) 层这样的模块处理后,最终的 GPS 与道路潜在序列被拼接,并对所有 token 做均值池化,得到单个紧凑的轨迹嵌入 \(z_{\mathcal{T}} \in \mathbb{R}^E\)。
为何该设计有利。 该架构设计提供了若干优势: (a) 使用 SSMs 确保了线性时间复杂度,使模型能高效处理长轨迹序列;(b) 通过高阶运动特征使 SSM 参数与输入相关,模型可以以精细控制捕捉细腻的运动行为;(c) GPS 与道路流的显式融合保证了原始运动数据与地图/语义上下文都能全面贡献于最终轨迹嵌入。
2) 旅行目的感知预训练 (与道路/POI 文本视图的对比对齐)
问题。 旅行目的通常可以从文本描述中推断,例如道路名称、兴趣点类型 (如公园、市场、写字楼) 和地址。然而,在运行时将大型语言模型 (LMs) 直接嵌入轨迹编码器以提取这些语义会显著增加计算开销和模型体积,使实时推断变得不切实际。
解决方案。 TrajMamba 通过采用对比预训练方案来解决这一问题。该方法在预训练阶段将丰富的旅行目的语义注入 Traj-Mamba 编码器,而在推断时不增加额外成本:
- 构建文本视图: 为每条轨迹构建两个不同的文本“视图”: 一个是道路视图 \(z_{\mathcal{T}}^{\mathrm{Road}}\),另一个是POI 视图 \(z_{\mathcal{T}}^{\mathrm{POI}}\)。
- 文本编码器训练: 对道路和 POI 的文本描述训练专门的文本编码器。这些编码器利用共享的预训练文本嵌入模块作为初始输入,同时聚合局部邻域信息 (来自附近的道路/POI) 和全局上下文 (来自起点与终点) 来生成每个 token 的文本嵌入。随后这些嵌入经过轻量的 Mamba 模块处理并做均值池化,生成最终的道路和 POI 视图嵌入。
- 对比对齐: 在预训练期间应用 InfoNCE 对比损失 。 该损失将 Traj-Mamba 编码器的轨迹嵌入 \(z_{\mathcal{T}}\) 与其对应的道路与 POI 文本视图对齐,同时将其推远于同一批次中其他轨迹的文本视图。
道路 / POI 视图构建。 对于每个轨迹点 \(\tau_i\):
- 基于地理距离识别最近的 POI \(p_i\)。
- 使用共享的预训练文本嵌入模块 \(E_{\text{text}}\) 获取道路段的初始文本嵌入 \(\boldsymbol{z}_{e_i}\) 和 POI 的初始文本嵌入 \(\boldsymbol{z}_{p_i}\)。
- 然后通过聚合来自邻近道路段/POI 的局部信息以及来自轨迹起点 \(\tau_1\) 和终点 \(\tau_n\) 的全局信息来增强这些初始嵌入。该聚合使用残差连接以保留原始文本信息: \[ \tilde{\boldsymbol{z}}_{e_i} = \boldsymbol{z}_{e_i} + \mathrm{Agg}^{\mathrm{Road}}(\boldsymbol{z}_{e_j}, \boldsymbol{z}_{e_1}, \boldsymbol{z}_{e_n} \mid j \in \mathcal{N}_i), \] \[ \tilde{\boldsymbol{z}}_{p_i} = \boldsymbol{z}_{p_i} + \mathrm{Agg}^{\mathrm{POI}}(\boldsymbol{z}_{p_j}, \boldsymbol{z}_{p_1}, \boldsymbol{z}_{p_n} \mid j \in \mathcal{N}'_i) + \boldsymbol{E}_{\mathrm{P_id}}(p_i). \] 聚合后的序列 \(<\tilde{\boldsymbol{z}}_{e_1}, \dots, \tilde{\boldsymbol{z}}_{e_n}>\) 和 \(<\tilde{\boldsymbol{z}}_{p_1}, \dots, \tilde{\boldsymbol{z}}_{p_n}>\) 接着通过一对 2 层的 Mamba2 模块处理并做均值池化,生成最终的道路与 POI 视图 \(z_{\mathcal{T}}^{\mathrm{Road}}, z_{\mathcal{T}}^{\mathrm{POI}} \in \mathbb{R}^E\)。
对比对齐。 给定一个批次 \(\mathbb{T} = \{\mathcal{T}_i\}_{i=1}^{B}\) 的轨迹,Traj-Mamba 编码器生成它们的嵌入 \(\{z_{\mathcal{T}_i}\}_{i=1}^{B}\)。同时,文本流水线生成对应的道路和 POI 视图 \(\{z_{\mathcal{T}_i}^{\mathrm{Road}}\}_{i=1}^{B}\) 与 \(\{z_{\mathcal{T}_i}^{\mathrm{POI}}\}_{i=1}^{B}\)。训练过程中最小化平均 InfoNCE 损失:
\[ \mathcal{L}_{\mathbb{T}} = \tfrac12(\mathcal{L}_{\mathbb{T}}^{\mathrm{Road}} + \mathcal{L}_{\mathbb{T}}^{\mathrm{POI}}). \]该损失使每个轨迹嵌入 \(z_{\mathcal{T}_i}\) 更接近其自身的道路与 POI 文本视图 (正样本) ,同时远离批次中其他轨迹的文本视图 (负样本) 。这有效地将旅行目的语义注入 TrajMamba 编码器,而不会改变其架构或增加推断时的计算负担。文本编码器仅在预训练阶段使用。
3) 带可学习掩码生成器的知识蒸馏预训练
动机。 即使在初步的基于规则的过滤 (例如移除停靠点或重复点) 之后,真实世界的轨迹仍可能相当长并包含许多隐含的冗余或无信息点。目标是开发一个能在显著压缩后的轨迹 (仅包含关键点) 上高效运行且保持高质量嵌入的编码器。
方法。 TrajMamba 采用双管齐下的策略: 训练一个可学习的掩码生成器以自适应选择要保留的点,然后使用知识蒸馏确保处理这些压缩点的学生编码器能够准确重现处理完整轨迹的教师编码器所学到的语义信息。
掩码生成器 (软随机门控) 。 掩码生成器接受已预处理的轨迹 \(\tilde{\mathcal{T}}^{\text{pre}}\) (其中显式冗余点已被移除) ,并使用稀疏随机门控机制为每个点计算掩码 \(m_i\)。
- 一个随机初始化的、可学习的参数向量 \(\hat{\mu}\) 经过轻量的 Mamba 模块 (用于捕捉轨迹特征的时间相关性) 。该输出随后通过均值池化与 Sigmoid 激活组合,生成平滑参数 \(\mu\): \[ \mu = \mathrm{MeanPool}\left(\hat{\mu} \odot \mathrm{Sigmoid}(\mathrm{Mamba}(\tilde{\mathcal{T}}^{\mathrm{pre}}) \hat{\mu})\right). \]
- 在训练期间,对每个点的 \(\mu_i\) 注入随机噪声 \(\epsilon \sim \mathcal{N}(0, \delta^2)\),然后计算软门 \(m_i = g(\mu_i) = \max(0, \min(1, \mu_i + \epsilon))\)。这一技术受随机门控启发,促进被选点的稀疏性,同时保持可微性以便训练。在测试阶段移除噪声 \(\epsilon\)。
压缩输入。 在应用生成的掩码 \(m\) 之后,模型得到显著压缩的轨迹 \(\tilde{\mathcal{T}}\) (远短于原始轨迹) 。该压缩轨迹随后输入一个 Traj-Mamba 编码器,该编码器用预训练教师模型的权重进行初始化。该编码器的输出 \(\tilde{z}_{\mathcal{T}}\) 作为下游任务的压缩表示。
预训练目标。 为指导这一知识蒸馏过程,结合了两项主要损失函数:
- MEC 损失 (最大熵编码) : 该目标旨在最大化由冻结的教师编码器产生的完整轨迹嵌入 \(Z\) 中被压缩嵌入 \(\tilde{Z}\) 保留的信息量,遵循 infomax 原则: \[ \mathcal{L}_{\mathbb{T}}^{\mathrm{MEC}} = -\mathrm{trace}\Big(\frac{B+E}{2}\sum_{k=1}^K \frac{(-1)^{k+1}}{k}\Big(\frac{E}{B\varepsilon^2} \boldsymbol{Z}^\top \tilde{\boldsymbol{Z}}\Big)^k\Big). \] 直观上,该损失鼓励压缩嵌入尽可能信息丰富,捕捉完整轨迹表示中蕴含的丰富语义。
- 掩码正则化损失: 该损失施加在掩码生成器的参数上,以约束压缩轨迹的长度,从而保证编码效率。它对 \(\mu\) 参数使用高斯误差函数 (erf) : \[ \mathcal{L}_{\mathbb{T}}^{\mathrm{mask}} = \mathrm{Mean}\Big(\tfrac12 + \tfrac12 \operatorname{erf}\Big(\frac{\langle\boldsymbol{\mu}_{\mathcal{T}_1},\dots,\boldsymbol{\mu}_{\mathcal{T}_B}\rangle}{\sqrt2\delta}\Big)\Big). \] 该项鼓励掩码朝向期望的稀疏程度偏置,从而控制压缩比。
- 最终的知识蒸馏损失为这两项目标的平衡组合: \[ \mathcal{L}'_{\mathbb{T}} = \tfrac12(\mathcal{L}_{\mathbb{T}}^{\mathrm{MEC}} + \mathcal{L}_{\mathbb{T}}^{\mathrm{mask}}). \]
在该阶段结束时,系统产出两大关键组件:
- 一个能够自适应压缩轨迹、智能选择关键点的 掩码生成器 。
- 一个经过微调的 学生编码器 , 能够生成与教师完整轨迹表示语义对齐的高质量压缩轨迹嵌入。
为何这很优雅。 这一可学习压缩机制在预训练阶段端到端训练。它巧妙地通过蒸馏保留了教师模型已注入的旅行目的信息。其实际好处显而易见: 在推断时,编码的轨迹显著更短,从而可以更快地计算高质量嵌入。
实验与结果 —— 关键结论
为了验证 TrajMamba 的有效性,作者在真实世界数据集上进行了广泛实验,并评估了多个下游任务。
数据集与任务
- 数据集: 使用了两份来自滴滴的真实车辆轨迹数据集——成都 和 西安 。 经过预处理 (过滤长度小于 5 或大于 120 的轨迹,并重采样) 后,这些数据集分别包含约 14 万和 21 万条轨迹。POI 信息来自高德 API,道路网络数据来自 OpenStreetMap。
- 下游任务: TrajMamba 在三个代表性任务上进行了评估:
- 目的地预测 (DP) : 预测轨迹的最终 GPS 坐标或最终道路段,实验中故意省去最后 5 个点。
- 到达时间估计 (ATE) : 估计仍在行驶轨迹的剩余旅行时间。
- 相似轨迹检索 (STS) : 在一批候选轨迹中根据嵌入余弦相似度识别与查询轨迹最相似的轨迹。
基线方法包含九个最先进 (SOTA) 的轨迹学习方法: t2vec、Trembr、CTLE、Toast、TrajCL、LightPath、START、MMTEC 和 JGRM。
关键定量结论
- 目的地预测 (DP) : 如表 1 所示,TrajMamba 持续优于所有基线。与第二名 JGRM 相比,TrajMamba 在两个数据集上的道路段预测平均提升分别为 9.30% 和 3.75% 。 在 GPS 预测上,改进更为显著,分别超过 45.16% 和 26.71% 。

表 1: 目的地预测 (DP) 性能结果。 $\uparrow$: 越高越好, $\downarrow$: 越低越好。 粗体: 最佳, 下划线: 第二佳。
- 到达时间估计 (ATE) : 表 2 显示 TrajMamba 在 ATE 上也持续优于所有基线。在微调设置下,TrajMamba 与 SOTA 模型 JGRM 相比表现具有竞争力,在两个数据集上分别提升 32.35% 和 23.44% 。 即便在不微调 (
w/o ft) 的情况下也能取得优异表现,凸显其预训练过程的有效性以及对连续特征的稳健建模能力。

表 2: 到达时间估计 (ATE) 性能结果。较低的值表示更好的性能。 粗体: 最佳, 下划线: 第二佳。
- 相似轨迹检索 (STS) : 表 3 的结果展示了 TrajMamba 在 STS 任务中的出色表现,取得了最高的 Acc@1 / Acc@5 以及最低的 Mean Rank。这表明其预训练过程有效提取了旅行语义并减少了冗余,从而生成能准确捕捉轨迹相似度的嵌入。

表 3: 相似轨迹检索 (STS) 性能结果。 $\uparrow$: 越高越好, $\downarrow$: 越低越好。 粗体: 最佳, 下划线: 第二佳。
效率与可扩展性
- 效率: TrajMamba 的主要设计目标之一是运行时效率。表 4 对比了不同方法的模型大小、每轮训练时间和嵌入时间 (秒) 。TrajMamba 在保持紧凑模型体积的同时达成了非常快的嵌入速度,可与轻量级的 RNN 方法 (如 Trembr 和 t2vec) 相媲美,并显著快于以 Transformer 为主的基线 (如 START 和 JGRM) 。这种高计算效率对于实时应用至关重要。

表 4: 方法效率分析。较低的值表示更好的性能。 粗体: 最佳, 下划线: 第二佳。
- 可扩展性: 图 5 展示了 TrajMamba 的可扩展性。它在下游微调过程中展示出更快的学习进度,并在使用更少数据时相比 JGRM 达到更好的性能表现。这在较少微调 epoch 和更小训练数据比例下仍能得到更高下游精度,凸显了其精心设计的预训练流程的价值。

图 5: 在成都数据集上微调的可扩展性。
消融与敏感性分析
- 消融研究: 表 5 给出了消融研究结果,系统性地探查了 TrajMamba 关键组件的贡献。完整的 TrajMamba 模型持续优于其各种变体,表明:
- 用普通的 Mamba 或 Transformer 模块替换 Traj-Mamba 模块 会导致性能下降,凸显所提模块结构的优势。
- 移除 旅行目的感知预训练 (
w/o Purpose) 或 知识蒸馏预训练 (w/o KD) 会对性能产生负面影响,证明两种预训练程序的重要性。 w/o Compress变体 (使用完整轨迹嵌入) 表现更差,表明减少冗余对嵌入质量至关重要。- 将可学习掩码生成器替换为基于规则的方法 (如 Douglas-Peucker
MG-Trans-DP) 或直接降采样 (MG-Trans-DS) 会导致性能下降,强调掩码生成器有效识别关键轨迹点的能力。 w/o Filter变体 (移除基于规则的预处理) 与完整模型表现相近,验证了掩码生成器的核心能力在于其可学习的软掩码而非初始显式过滤。
| 任务 | 目的地预测 | 到达时间估计 | 相似轨迹检索 | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 指标 | GPS RMSE ↓ (米) | GPS MAE ↓ (米) | Road Segment Acc@1 ↑ (%) | Road Segment Acc@5 ↑ (%) | Road Segment Recall ↑ (%) | RMSE ↓ (秒) | MAE ↓ (秒) | MAPE ↓ (%) | Acc@1 ↑ (%) | Acc@5 ↑ (%) | Mean Rank ↓ | |
| V-Mamba | 152.51 | 109.84 | 56.93 | 85.61 | 29.36 | 51.25 | 20.22 | 5.62 | 94.63 | 98.00 | 1.36 | |
| V-Transformer | 182.00 | 139.76 | 57.56 | 86.44 | 29.31 | 56.59 | 19.84 | 5.23 | 93.90 | 97.45 | 1.41 | |
| w/o Purpose | 153.84 | 116.82 | 58.07 | 86.25 | 29.94 | 53.21 | 18.78 | 5.30 | 85.35 | 91.95 | 5.83 | |
| w/o KD | 145.34 | 106.60 | 52.83 | 80.74 | 22.48 | 53.26 | 19.52 | 5.35 | 95.40 | 99.10 | 1.65 | |
| w/o Compress | 174.65 | 129.93 | 48.88 | 76.94 | 18.90 | 51.77 | 21.37 | 5.13 | 94.93 | 98.17 | 3.88 | |
| MG-Trans-DP | 173.95 | 129.12 | 48.83 | 77.37 | 18.93 | 50.55 | 20.30 | 5.34 | 96.10 | 98.80 | 1.38 | |
| MG-trans-DS | 150.70 | 106.35 | 53.12 | 80.46 | 23.16 | 54.70 | 19.55 | 5.56 | 95.10 | 98.80 | 2.16 | |
| w/o Filter | 125.56 | 86.49 | 58.31 | 86.75 | 30.52 | 50.18 | 17.41 | 4.56 | 96.90 | 99.00 | 1.22 | |
| TrajMamba | 129.47 | 85.95 | 58.21 | 86.81 | 30.45 | 50.17 | 17.73 | 4.77 | 96.53 | 99.13 | 1.15 |
表 5: 在所有任务上对成都数据集的消融分析。 $\uparrow$: 越高越好, $\downarrow$: 越低越好。 粗体: 最佳, 下划线: 第二佳。
- 超参数分析: 图 4 详细说明了关键超参数 (层数 \(L\)、嵌入维度 \(E\)、SSM 状态维度 \(N\) 和头数 \(H\)) 对性能的影响。作者确定 \(L=5\)、\(E=256\)、\(N=32\) 和 \(H=4\) 为最优值,在性能与计算效率之间取得平衡。实验表明 \(E\) 对性能影响最大,在 256 以上边际收益递减。

图 4: 在成都数据集上验证的超参数有效性。
算例研究: 可学习压缩
- 图 6 直观展示了 TrajMamba 可学习轨迹压缩的有效性。面板 (a) 显示了由于高采样频率导致存在许多冗余点的原始轨迹。面板 (b) 展示了基于规则的过滤轨迹,在此移除了显式冗余如停靠点,但仍有许多非关键点 (隐式冗余) 残留。面板 (c) 强调了预训练掩码生成器的威力,它准确识别并仅保留对揭示旅行语义至关重要的关键轨迹点,消除了隐式冗余。值得注意的是,靠近起点和终点的点通常被保留,因为它们携带强烈的旅行目的信号。最终得到的压缩轨迹在保证高编码效率的同时也保持了嵌入质量。

图 6: 在成都数据集上的算例研究。
关于 KD 预训练中损失权重的简短说明
在知识蒸馏预训练中,MEC 损失 (\(\mathcal{L}_{\mathbb{T}}^{\mathrm{MEC}}\)) 与掩码正则化损失 (\(\mathcal{L}_{\mathbb{T}}^{\mathrm{mask}}\)) 之间的平衡至关重要。赋予 \(\mathcal{L}_{\mathbb{T}}^{\mathrm{MEC}}\) 的权重控制了有多少来自完整轨迹嵌入的信息被保留到压缩表示中;而 \(\mathcal{L}_{\mathbb{T}}^{\mathrm{mask}}\) 的权重影响掩码的稀疏性,从而决定压缩轨迹的长度。如表 6 所示,对这两项目标采用平衡的权重 (0.5, 0.5) 可使 TrajMamba 在下游任务上取得最佳的综合性能,同时维持高效的编码时间。
| 任务 | 目的地预测 | 到达时间估计 | 相似轨迹检索 | 效率 | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 指标 | RMSE ↓ (米) | MAE ↓ (米) | Acc@1 ↑ (%) | Acc@5 ↑ (%) | Recall ↑ (%) | RMSE ↓ (秒) | MAE ↓ (秒) | MAPE ↓ (%) | Acc@1 ↑ (%) | Acc@5 ↑ (%) | Mean Rank ↓ | Embed Time ↓ (秒) | |
| (1.0, 0.0) | 125.62 | 86.54 | 56.28 | 83.85 | 26.36 | 51.77 | 19.66 | 5.34 | 95.80 | 98.30 | 1.66 | 1.944 | |
| (0.7, 0.3) | 135.45 | 91.97 | 58.13 | 86.36 | 30.08 | 54.51 | 17.94 | 4.80 | 96.60 | 98.90 | 1.16 | 1.731 | |
| (0.3, 0.7) | 134.87 | 90.07 | 58.15 | 86.55 | 30.03 | 50.98 | 18.56 | 5.05 | 95.80 | 98.80 | 1.20 | 1.692 | |
| (0.5, 0.5) (Ours) | 129.47 | 85.95 | 58.21 | 86.81 | 30.45 | 50.17 | 17.73 | 4.77 | 96.53 | 99.13 | 1.15 | 1.721 |
表 6: 在所有任务上对成都数据集的 $\mathcal{L}{\mathbb{T}}^{MEC}$ 和 $\mathcal{L}{\mathbb{T}}^{mask}$ 损失函数不同权重的计算影响。 $\uparrow$: 越高越好, $\downarrow$: 越低越好。 粗体: 最佳, 下划线: 第二佳。
实践意义与何时使用 TrajMamba
TrajMamba 的独特设计为真实世界的出行应用提供了若干重要实用优势:
- 实时服务: 它能够快速生成高质量的轨迹嵌入 (相对于压缩后轨迹长度呈线性复杂度) 且编码器轻量,这使得 TrajMamba 非常适合实时应用场景,包括网约车的在线目的地预测、动态 ETA 计算和智能交通管理等关键系统。
- 低资源微调: 精心设计的预训练阶段向模型注入了丰富的旅行目的与运动语义。这意味着 TrajMamba 即使在较小的任务特定数据集上微调,也能取得很好的下游性能,从而降低了大量标注数据收集的负担。
- 存储与吞吐效率: 可学习的压缩机制生成更短且仅包含关键点的轨迹,从而产生更小的嵌入。这降低了存储需求并提高了数据吞吐,对于需要并行处理和存储大量轨迹的系统尤为重要。
局限性与未来方向
作者坦诚地指出一个局限性: 道路段和 POI 所派生的旅行语义在不同地理数据集中可能差异显著。这使得直接的跨城迁移或零样本实验具有挑战性,因为在一个城市 (例如成都) 训练的模型未必能在另一个城市上无缝迁移。未来的工作将专注于开发通用的道路与 POI 嵌入或学习鲁棒的跨城适配器,以增强模型的可迁移性并扩大适用范围。
结论
TrajMamba 提出了一种创新的解决方案,有效应对了学习车辆轨迹表示的两大基本挑战: (1) 在不对运行时编码器造成沉重计算负担的情况下整合丰富的旅行目的语义; (2) 通过自适应、可学习的压缩机制高效地减少轨迹冗余。其实现方式是巧妙地结合了用于效率与长程依赖建模的选择性结构化状态空间 (SSM) 模块、与道路/POI 文本视图的对比对齐以增强语义、以及与随机掩码相结合的知识蒸馏以实现智能压缩。
结果是一个紧凑且高度高效的编码器,能够生成强大的轨迹嵌入。大量涵盖多种下游任务 (包含目的地预测、到达时间估计和相似轨迹检索) 的实验证明,TrajMamba 持续优于最先进的基线方法。
对于关注速度与语义理解同等重要的出行应用研究者和从业者——例如车队管理、精确 ETA 预测或高级轨迹分析——TrajMamba 提供了一个值得深入研究和借鉴的模型。
](https://deep-paper.org/en/paper/2510.17545/images/cover.png)