解锁长视频理解：深入解析 VideoRoPE

近年来，大型语言模型 (LLM) 的能力呈爆炸式增长，这主要归功于它们处理海量文本的能力。然而，当我们从文本转向视频时，撞上了一堵新墙。视频不仅仅是“带图片的文字”，它是一种复杂的立体媒介，结合了空间细节 (画面中发生了什么) 与时间进程 (什么时候发生的) 。

大多数当前的视频 LLM 试图直接将基于文本的技术调整用于视频，结果往往参差不齐。在这个适配过程中，最关键的组件就是位置嵌入 (Position Embedding) ——即模型如何知道某条信息位于“何处”。

在这篇文章中，我们将深入探讨 VideoRoPE , 这篇研究论文从根本上重新思考了我们如何在视频数据中编码位置。我们将探讨为什么现有方法在视频变长或内容重复时会失效，以及一种新的 3D 架构方法如何解决这些问题，从而在视频理解和检索方面取得最先进的结果。

Figure 1. VideoRoPE outperforms RoPE variants on benchmarks.

挑战: 从文本到视频

要理解 VideoRoPE，我们首先需要了解它所改进的机制: 旋转位置嵌入 (Rotary Position Embedding, RoPE) 。

在 Transformer (GPT、LLaMA 和 Qwen 背后的架构) 的世界里，模型是并行处理 Token (词元) 的。如果没有位置嵌入，模型就不知道“dog”这个词是在“bites”之前还是之后。RoPE 通过在几何空间中旋转 Token 的嵌入来解决这个问题。旋转的角度对应于 Token 的位置。

Vanilla RoPE 的局限性

原始的 RoPE (Vanilla RoPE) 是为一维序列 (如文本行) 设计的。当研究人员开始构建视频 LLM 时，他们面临一个选择:

展平视频: 将视频帧视为一长串的一维 Token。这会破坏像素之间的空间关系 (垂直和水平邻居) 。
3D RoPE: 尝试分别编码时间 ($t$)、高度 ($y$) 和宽度 ($x$)。

虽然像 M-RoPE (用于 Qwen2-VL) 这样的 3D 方法朝着正确的方向迈出了一步，但它们在数学上存在细微但致命的缺陷。如下面的对比所示，现有方法无法满足稳健视频建模所需的所有特征: 3D 结构、正确的频率分配、空间对称性和索引缩放。

Table 1 and Radar Chart comparing different RoPE variants.

VideoRoPE 的作者发现，仅仅拆分维度是不够的。你必须决定哪些维度代表时间，哪些代表空间。如果选择错误，当面对重复的视觉数据时，你的模型就会变得“困惑”。

试金石: “干扰项”问题

为了证明现有方法存在缺陷，研究人员引入了一个新的、更难的基准测试: V-NIAH-D (Visual Needle-In-A-Haystack with Distractors，带干扰项的视觉大海捞针) 。

标准的“大海捞针”测试将特定图像 (针) 隐藏在长视频 (大海) 中，并要求模型找到它。大多数模型在这方面表现不错。然而，研究人员增加了一个变数: 干扰项 (Distractors) 。他们插入了在语义上与“针”相似但在并不是正确目标的图像。

Figure 2 comparing V-NIAH and V-NIAH-D performance.

如上图所示，像 M-RoPE 这样的先前方法 (热力图中的第二行) 在标准任务 (a) 上表现尚可。但一旦引入干扰项 (b)，它们的表现就会崩溃 (出现更多红色/橙色区域) 。

为什么？因为模型对“时间”的位置嵌入是周期性的。它在数学上将第 100 帧的“针”与第 1000 帧的“干扰项”混淆了，因为它们的位置编码看起来太相似了。这种现象在位置空间中被称为哈希冲突 (Hash collision) 。

故障分析: 为什么频率很重要

为了理解为什么会发生这些冲突，我们需要看看 RoPE 的数学原理。RoPE 以不同的频率旋转向量。

\[ A _ { t _ { 1 } , t _ { 2 } } = ( q _ { t _ { 1 } } R _ { t _ { 1 } } ) \left( k _ { t _ { 2 } } R _ { t _ { 2 } } \right) ^ { \top } = q _ { t _ { 1 } } R _ { \Delta t } \pmb { k } _ { t _ { 2 } } ^ { \top } , \]

在一个标准的特征向量中 (例如大小为 $d=128$) ，所有维度并不都是平等的。

低维度 (索引 $0, 1, 2...$) 以高频旋转。它们转得非常快。
高维度 (索引 $...126, 127$) 以低频旋转。它们转得非常慢。

先前方法 (M-RoPE) 的问题: M-RoPE 将时间 (Temporal) 信息分配给了低维度 (前 16-32 个维度) 。这些维度旋转迅速。这意味着位置信号会很快重复自己 (振荡) 。如果你有一个长视频，“第 1 分钟”的位置嵌入在数学上可能看起来与“第 5 分钟”完全相同。

下面的可视化清晰地说明了这一故障。顶行 (M-RoPE) 将注意力集中在空间特征 ($x, y$) 而不是时间 ($t$) 上，当存在干扰项时，无法锁定正确的帧。

Figure 3: Attention-based frequency allocation analysis.

注意底部一行 (VideoRoPE) 。通过修正频率分配 (我们将在接下来详细说明) ，模型可以清晰地关注时间维度 (VideoRoPE-t) ，从而忽略干扰项。

核心方法: VideoRoPE

VideoRoPE 引入了一种 3D 位置嵌入策略，建立在旨在解决振荡、对称性和缩放问题的三大支柱之上。

1. 低频时间分配 (LTA)

VideoRoPE 最重要的贡献是反转了频率的剧本。VideoRoPE 没有使用高频 (低索引) 维度来表示时间，而是将时间分配给最高维度 (低频) 。

为什么这很重要？

高频 (低维度) : 适合局部细节，但波形重复得很快。
低频 (高维度) : 波形具有非常长的周期。在标准视频的背景下，它实际上永远不会重复。

通过将时间分量 $t$ 移动到特征向量的末尾，VideoRoPE 确保位置嵌入随时间单调变化。第 1000 帧看起来与第 100 帧截然不同。

让我们看看频率波的 3D 可视化:

Figure 4: Comparing frequency allocation in M-RoPE vs VideoRoPE. 上图: (a) M-RoPE 使用高频维度表示时间。注意那些“波纹”——这就是振荡。不同时间点的点获得了相同的值 (哈希冲突) 。

Figure 4b: VideoRoPE frequency allocation. 上图: (b) VideoRoPE 使用低频维度。表面光滑平坦。每一个时间点都有一个唯一的值。

这一简单的改变消除了让先前模型易受干扰项影响的“哈希冲突”。

2. 用于空间对称性的对角布局 (DL)

第二个创新解决了我们如何相对于时间来组织空间维度 ($x$ 和 $y$) 。

在像 M-RoPE 这样的先前方法中，视觉 Token 的索引与文本 Token 有些脱节。具体来说，M-RoPE 堆叠索引的方式会导致它们聚集在坐标系的角落。这造成了空间对称性 (Spatial Symmetry) 的缺失——视觉 Token 没有自然地承接在它们之前的文本 Token。

VideoRoPE 提出了一种对角布局 。它不是重置索引或堆叠它们，而是沿着 3D 空间的对角线排列整个输入。

Figure 6: 3D visualization of position embedding layouts.

(a) Vanilla RoPE: 一条直线 (1D) 。没有空间宽度。
(b) M-RoPE: 注意垂直的“墙”。索引在某些方向停止增长，造成不自然的聚集。
(c) VideoRoPE: 索引 (红点和蓝点) 沿着密集的对角路径延伸。

这种布局确保了任何两个视觉 Token 之间的相对位置得以保留，重要的是，文本提示结束与视频开始之间的“距离”是一致的。它模仿了文本 Token 的自然线性增长，同时保留了 3D 空间信息。

通过观察 Token 是如何交错的，这一点得到了进一步的可视化:

Figure 5: Position embeddings of adjacent tokens.

在底部一行 (VideoRoPE) 中，注意空间 ($x,y$) 和时间 ($t$) 设计是如何交错的，以保持一种对于最初在 1D 文本上训练的 Transformer 来说感觉“原生”的结构。

3. 可调节时间间隔 (ATS)

最后是粒度问题。文本序列中的一步 (一个单词) 在语义上并不等同于视频中的一步 (一帧) 。视频通常具有很高的冗余度；两个相邻的帧几乎相同，而两个相邻的单词通常不同。

VideoRoPE 引入了一个缩放因子 $\delta$，以将视频帧索引与原始 Token 索引解耦。

\[ \begin{array}{c} \begin{array} { r } { ( t , x , y ) = \left\{ \begin{array} { l l } { ( \tau , \tau , \tau ) } & { \mathrm { i f ~ } 0 \leq \tau < T _ { s } } \\ { } \\ { } \\ { \left( T _ { s } + \delta ( \tau - T _ { s } ) , \right)} \\ { T _ { s } + \delta ( \tau - T _ { s } ) + w - \frac { W } { 2 } , } \\ { T _ { s } + \delta ( \tau - T _ { s } ) + h - \frac { H } { 2 } } \end{array} \right.} & { \mathrm { i f ~ } T _ { s } \leq \tau < T _ { s } + T _ { v } } \\ { } \\ { \left( \begin{array} { l } { \tau + ( \delta - 1 ) T _ { v } , } \\ { \tau + ( \delta - 1 ) T _ { v } , } \\ { \tau + ( \delta - 1 ) T _ { v } } \end{array} \right) } & { \mathrm { i f ~ } T _ { s } + T _ { v } \leq \tau < T _ { s } + T _ { v } + T _ { c } } \end{array} \end{array} \]

这个公式可能看起来很吓人，但概念很简单:

起始文本: 使用标准索引。
视频: 将相对于起点的帧索引 ($ \tau - T_s $) 乘以 $\delta$。这允许模型“拉伸”或“压缩”时间感知。
结束文本: 从视频结束的地方恢复线性索引。

这种解耦使得 VideoRoPE 能够处理不同帧率和长度的视频，而不会混淆模型的内部时钟。

实验与结果

这种理论上的重构真的有效吗？作者在多个基准测试中将 VideoRoPE 与 Vanilla RoPE、TAD-RoPE 和 M-RoPE 进行了对比测试。

长视频检索 (V-NIAH & V-NIAH-D)

最显著的结果来自检索任务。下面的热力图显示了不同上下文长度 (X 轴) 和帧深度 (Y 轴) 下的准确率 (绿色 = 100%，红色 = 0%) 。

Figure 7: Retrieval results visualization.

看部分 (b) V-NIAH-D (图表的底部一行) :

Vanilla RoPE (1) & TAD-RoPE (2): 几乎全红。当存在干扰项时，它们无法找到针。
M-RoPE (3): 稍好，但仍有明显的红色斑块，表明不稳定。
VideoRoPE (4): 几乎全绿。它对干扰项具有鲁棒性，甚至在极端的上下文长度下也能有效工作。

定量数据支持了这一点:

Table 3: Accuracy comparison on V-NIAH.

VideoRoPE 在困难的 V-NIAH-D 任务上达到了 87.11% 的准确率 , 相比之下, M-RoPE 仅为 74.67% , 而 Vanilla/TAD-RoPE 仅约为 30% 。

长视频理解

除了找到图像，模型还需要理解发生了什么。作者在 LongVideoBench 和 MLVU (多任务长视频理解) 等基准上进行了测试。

Table 2: Comparison on understanding benchmarks.

(注: 请参考此图片的表格部分) *

VideoRoPE 在不同的上下文长度 (8k 到 64k) 下的得分始终更高 (以粗体标记) 。它表现出了特别的优势: 随着上下文长度的增加，它能保持性能，而其他方法往往会退化。

消融研究: 我们需要所有组件吗？

任何研究论文的一个关键部分是消融研究 (Ablation Study) ——移除系统的某些部分，看看它们是否真的是必要的。

Table 5: Ablation study of VideoRoPE modules.

结果显示了阶梯式的提升:

基线 (M-RoPE): 得分 54.35。
+ 对角布局 (DL): 在某些指标上性能略有下降，但提高了稳定性。
+ DL & LTA (低频时间分配): 大幅跃升至 55.60。频率修正贡献最大。
+ DL & LTA & ATS (完整的 VideoRoPE): 最终跃升至 57.26。

这证实了对称性 (DL)、正确频率使用 (LTA) 和缩放 (ATS) 的结合对于获得最佳性能是必需的。

结论

VideoRoPE 代表了我们将大型语言模型适配到视频方面迈出的重要一步。这篇论文强调了一个微妙但深刻的教训: 数学很重要。 简单地将 3D 输入插入到 1D 或优化不佳的 3D 嵌入方案中，会引入无形的错误——振荡和冲突——从而在复杂性增加时混淆模型。

通过坚持四个关键原则——3D 结构、低频时间分配、空间对称性和可调节时间间隔——VideoRoPE 为下一代视频 LLM 提供了坚实的基础。它使模型能够清晰地“看到”时间，区分针和干扰项，无论视频变得多长。

随着我们迈向能够观看电影、分析监控录像或理解数小时实时交互的 AI 智能体，像 VideoRoPE 这样稳健的位置嵌入将是这一切成为可能的幕后引擎。

挑战: 从文本到视频#

Vanilla RoPE 的局限性#

试金石: “干扰项”问题#

故障分析: 为什么频率很重要#

核心方法: VideoRoPE#

1. 低频时间分配 (LTA)#

2. 用于空间对称性的对角布局 (DL)#

3. 可调节时间间隔 (ATS)#

实验与结果#

长视频检索 (V-NIAH & V-NIAH-D)#

长视频理解#

消融研究: 我们需要所有组件吗？#

结论#