平衡过去：如何用差异理论压缩长上下文 Transformer 的 KV 缓存

Introduction

Transformer 解码器，是现代大语言模型 (LLM) 背后的核心组件，通过逐个生成 token 工作。为了维护上下文并避免重复计算，它会存储不断增长的此前生成的 key (\(K\)) 和 value (\(V\)) 嵌入，这就是所谓的“KV 缓存”。这个缓存是关键组成，但也是主要的内存瓶颈，尤其当模型处理越来越长的上下文时。每增加一个新 token，就会为每个注意力头和层添加一个 \(d\) 维的 key 和一个 \(d\) 维的 value，导致内存需求随上下文长度线性增长。

如果我们只保留过去 token 的一个非常小且经过精心挑选的子集，同时仍然能准确计算注意力，那将带来巨大的潜力: 可以在不付出高昂内存代价的前提下实现真正的长上下文 LLM。

本文介绍了 BALANCEKV , 一种新的流式算法，实现了此目标。它在只存储子线性 (相对于上下文长度) 内存的同时，可证近似注意力。核心思想出人意料地优雅且具有几何直觉: 它利用差异理论 (discrepancy theory) 中的向量平衡 (vector balancing) 来选择紧凑的“平衡”键值对子集。目标是对于任意未来的查询，保留子集上的 softmax 加权和能与真实注意力输出非常接近。

BALANCEKV 结合了若干复杂技术:

一个新的子程序 SoftmaxBalance , 这是一个针对指数权重量身定制的基于差异的划分方法。
经典的流式技术如 merge-and-reduce , 用于在在线环境下处理内存限制。
范数分桶 (norm bucketing) , 用以有效管理数值尺度差异很大的 value 向量。

最终得到的是一个有实际意义的流式算法，具有强的理论保证并在实证上表现出色。

在本文中，我们将逐层剖析这一有趣的思路:

首先，澄清需要近似的注意力问题。
接着，深入介绍使之成为可能的差异理论技巧。
然后，探讨如何在流式、内存受限的环境中使该方法可行。
最后，审视实验结果揭示的 BALANCEKV 在现实中的有效性。

Background: What We Need to Approximate

在自回归 Transformer 中，在生成 token 阶段，每个自注意力层都会针对当前 token 的查询嵌入与所有此前生成 token (以及初始上下文) 的 key 和 value 嵌入计算注意力。

具体来说，对于第 \(j\) 个 token，查询为 \(q_j\)，单个注意力头和层的注意力输出通常定义为:

\[ \operatorname{Attn}(q_j, K_j, V_j) := \operatorname{softmax}\left(\frac{K_j \cdot q_j}{\sqrt{d}}\right)^T \cdot V_j. \]

注意力定义。 (等式 1)

这里，\(K_j\) 和 \(V_j\) 是通过堆叠此前 \(j\) 个 key 和 value 嵌入分别形成的矩阵。

等价地，通过显式写出 softmax 函数，注意力可以表示为:

\[ \operatorname{Attn}(q_j, K_j, V_j) = \frac{1}{Z_j} \exp\left(\frac{K_j \cdot q_j}{\sqrt{d}}\right) \cdot V_j, \]

注意力的 softmax 形式。

其中 \(\exp(A)\) 表示对矩阵 \(A\) 的逐项指数，\(Z_j\) 是归一化常数:

\[ Z_j := \sum_{i \in [j]} \exp(\langle k_i, q_j \rangle / \sqrt{d}). \]

归一化常数 \(Z_j\)。

问题在于，将所有 \(j\) 个过去的键值对存入 \(K_j\) 和 \(V_j\) 会使内存随 \(j\) 线性增长。流式注意力近似的目标是在每个时间步 \(j\) 输出一个估计值 \(z_j\)，满足以下误差约束:

\[ \|z_j - \mathrm{Attn}(q_j, K_j, V_j)\|_2 \le \varepsilon \left\|\mathrm{softmax}\left(\frac{K_j \cdot q_j}{\sqrt{d}}\right)\right\|_2 \|V_j\|_F. \]

近似目标。 (等式 2)

非正式地，这意味着估计 \(z_j\) 应当在注意力输出的“自然尺度”内，即不超过 softmax 分数的幅度乘以 \(V_j\) 的 Frobenius 范数的 \(\varepsilon\) 倍。在只存储远少于 \(j\) 个键值对的情况下达到这样的保证，是本文解决的核心挑战。

High-Level Idea: Balance the Dataset So Either Half Approximates the Whole

我们先用一个简单的思考实验来激发主要想法。假设我们能够把所有键值对的全集 \(C\) 划分成两个大小相近的子集 \(C'\) 与 \(C \setminus C'\)，使得对于“任意可能的查询” \(q\)，两半上的 softmax 加权和几乎相等:

\[ \sum_{\{k,v\}\in C'} \exp\left(\frac{\langle k,q\rangle}{\sqrt{d}}\right) v \approx \sum_{\{k,v\}\in C \setminus C'} \exp\left(\frac{\langle k,q\rangle}{\sqrt{d}}\right) v. \]

平衡两半的直觉。

如果该近似成立，则全集 \(C\) 上的和大约等于 \(C'\) 上和的两倍。因此，若 \(C'\) 包含大约一半的项，仅保留 \(C'\) 就能以约 2 倍压缩率获得较小精度损失:

\[ \sum_{\{k,v\}\in C} \exp\left(\frac{\langle k,q_n\rangle}{\sqrt{d}}\right) v \approx 2 \sum_{\{k,v\}\in C'} \exp\left(\frac{\langle k,q_n\rangle}{\sqrt{d}}\right) v. \]

由半集得到整体的近似。

关键难点在于我们需要这种等式对所有可能的查询 \(q\) (或至少对我们预计会遇到的查询范围) 都“统一”地成立。此外，项的权重通过与 keys 的内积的指数依赖于 \(q\)，这是高度非线性且依赖查询的函数。

这正是差异理论 (discrepancy theory) 发挥作用的地方。

Discrepancy Theory and the Self-Balancing Walk

差异理论的核心问题是: 给定一组向量，是否可以为它们分配符号 (\(\pm 1\))，使得对于任意方向，被符号化后的向量在该方向上的有符号和都很小？该领域一项突破性的结果是 Alweiss、Liu 和 Sawhney 提出的 Self-Balancing Walk 算法。它展示了可以在线地产生这样的符号 (随着向量到达逐步决定) ，并保证任意方向上的有符号和非常小——具体而言，在任意方向上可以做到 \(O(\log n)\) 级别的小。

非正式地，对于一组向量 \(\{u_i\}\)，Self-Balancing Walk 算法选择符号，使得对于任意向量 \(u\)，以高概率有:

\[ \left|\sum_{i:\,\text{sign}(i)=+1} \langle u_i, u\rangle - \sum_{i:\,\text{sign}(i)=-1} \langle u_i, u\rangle\right| \le O(\log(n/\delta)) \cdot \max_i \|u_i\|_2 \cdot \|u\|_2. \]

Self-Balancing Walk 的保证。

为了把这个强大的结果用于注意力问题，作者采用了一个巧妙的技巧: 他们将 softmax 指数转换为某个 (可能是无限维的) 特征空间中的内积。

具体地，他们定义了特征映射 \(\varphi(k)\)，使得:

\[ \varphi(k) = \left(\frac{(k/d^{0.25})^{\otimes i}}{\sqrt{i!}}\right)_{i \geq 0}. \]

特征映射定义。

该映射满足一个关键的核恒等式: 对于任意两个向量 \(k, q \in \mathbb{R}^d\)，它们在该特征空间中的内积等价于注意力中出现的指数项:

\[ \langle \varphi(k), \varphi(q) \rangle = \exp\left(\frac{\langle k, q \rangle}{\sqrt{d}}\right). \]

指数核恒等式。

此外，特征向量的范数也有良好形式:

\[ \|\varphi(k)\|_{2}^{2} = \exp\left(\frac{\|k\|_{2}^{2}}{\sqrt{d}}\right). \]

特征范数恒等式。

现在，考虑由键的特征向量与其对应的 value 向量的张量积形成的对: \(\varphi(k_i) \otimes v_i\)。两个此类张量积对象之间的内积具有良好的分解形式:

\[ \langle \varphi(k_i) \otimes v_i, \varphi(k_j) \otimes v_j \rangle = \exp\left(\frac{\langle k_i, k_j \rangle}{\sqrt{d}}\right) \cdot \langle v_i, v_j \rangle. \]

内积分解。

这个巧妙的技巧将带有复杂指数权重的平衡问题，归约为一个标准的向量平衡问题，但在提升 (且可能是无限维) 的特征空间中。在这些 \(\varphi(k_i) \otimes v_i\) 向量上运行 Self-Balancing Walk，会产生一个划分，其有符号和直接控制对任意 \(q\) 的量 \(\sum \exp(\langle k_i, q\rangle/\sqrt{d}) v_i\)，误差仅受范数和对数因子轻微影响。这成为 SoftmaxBalance 子程序的核心。

SoftmaxBalance: Partitioning with Respect to Exponential Weights

SoftmaxBalance 是实现上述思路的算法。它接收一串键值嵌入对 \((k_j, v_j)\)，并在提升后的向量 \(\varphi(k_j) \otimes v_j\) 上运行 Self-Balancing Walk。该过程为每个键值对分配符号 \(\eta_j \in \{+1, -1\}\)。算法随后输出两类符号中较小的一类 (若相等则任选其一) 。

根据 Self-Balancing Walk 的保证和核技巧，两类在 softmax 加权下的 value 和之差是可控的。形式化地，论文证明 (为清晰起见简化后) :

\[ \left\| \sum_{\{k,v\} \in C'} \exp\left(\frac{\langle k,q \rangle}{\sqrt{d}}\right) v - \sum_{\{k,v\} \notin C'} \exp\left(\frac{\langle k,q \rangle}{\sqrt{d}}\right) v \right\|_{2} \leq O\left(\sqrt{s} \cdot \log(ns/\delta) \cdot \exp\left(\frac{\|q\|_{2}^{2}}{2\sqrt{d}}\right) \cdot \exp\left(\max_{j \in [n]} \frac{\|k_{j}\|_{2}^{2}}{2\sqrt{d}}\right) \cdot \max_{j \in [n]} \|v_{j}\|_{2}\right). \]

SoftmaxBalance 的统一保证。

这个界说明，在 SoftmaxBalance 返回一个半尺寸子集 \(C'\) 后，对于任意查询 \(q\)，\(C'\) 与 \(C \setminus C'\) 上的 softmax 加权 value 和之差最多为一个表达式，该表达式:

仅以对数方式随 \(n\) (token 总数) 增长；
包含依赖查询和键范数的指数因子 (如果 keys 与 queries 的 \(\ell_2\) 范数有界，这些因子是可控的，现实中 LLM 常用层归一化来控制范数) ；
随 value 向量的最大范数与 value 维度 \(s\) 伸缩。

关键的是，该算法是随机化的且在线的: 它随着元素到达就分配符号，不需要预先看到整个流。这提供了期待中的一次性 2 倍压缩。要实现更激进的压缩，我们理想上会递归地重复这个过程，但这会给流式算法带来新的挑战。

Making It Streaming: Merge-and-Reduce

单独的 SoftmaxBalance 是一个离线算法，即它在完整的 \(n\) 个项上运行。为了得到一个能在流式设置下工作的算法——对元素只遍历一次且内存受限——作者采用了一个经典技巧: MERGEANDREDUCE 算法。

MERGEANDREDUCE 的核心思路如下:

将到来的 token 流划分成固定大小的块，每块大小为 \(t\)。
对于每个完整块，应用 SoftmaxBalance 将其压缩到约一半大小。
将这些被压缩的块两两合并，然后对合并后的块再次应用 SoftmaxBalance 。该过程递归进行，形成一个二叉归约树。
在任一时刻，这个树结构只需存储 \(O(t \cdot \log(n/t))\) 个项，显著小于完整流的大小。

MERGEANDREDUCE 的树状结构可以想象为 token 流进入批次，然后被 SoftmaxBalance 压缩，再向上合并并重新压缩:

MERGEANDREDUCE tree.

图 2: MERGEANDREDUCE 的树状结构示意。tokens 被划分为批次，由 SoftmaxBalance 压缩，然后递归合并与再压缩。

由于每次应用 SoftmaxBalance 都将输入大小减半，经过 \(T = \log_2(n/t)\) 层后，树的根节点代表对整个目前已处理流的高度压缩的摘要。通过精细的数学累加，可以证明这些层级上的累积误差在适当选择 \(t\) (大致与 \(\sqrt{s} \cdot \exp(2r^2/\sqrt{d})/\varepsilon\) 成比例，另加对数因子) 时，会保持在 \(\varepsilon\) 倍注意力尺度以内。

论文在定理 3.4 中形式化了每步运行时间与内存消耗。该流式框架有效地允许在在线情况下递归地应用平衡过程。

Handling Widely Varying Value Norms: BALANCEKV in Full

一个实际挑战是，当 value 向量 \(v_i\) 的幅度差异很大时会出现问题。如果对所有键值对使用单一的归约过程，大范数的 value 可能会主导求和，从而破坏对小范数值的近似边界。

解决方案既简单又有效:

按 value 范数进行“分桶”: 按照 value 向量范数落在的 2 的幂区间对 token 进行分组 (例如 \(2^{i-1} \le \|v_j\|_2 < 2^i\)) 。
对每个活跃的桶分别运行独立的 MERGEANDREDUCE 实例。这样可为该范数区间产生针对性的压缩摘要。
将各桶的摘要按适当权重组合起来。
对注意力分母 \(Z_j\) (softmax 的归一化和) 也单独维护一个 MERGEANDREDUCE 实例来近似。该实例仅处理标量 (等价于把 \(v_i = 1\)) ，以近似 \(Z_j\)。

这个完整的流式例程就是论文中所称的 BALANCEKV (论文中的算法 1) 。

在时间 \(j\) 时 BALANCEKV 计算的估计 \(z_j\) 直观上是对各分桶压缩输出的加权和作为分子，再除以相似压缩的分母。论文将估计式紧凑地表示为:

\[ z_j = \frac{\sum_{l=0}^T 2^l \sum_{\{k,v\} \in V^l} \exp\bigg(\frac{\langle k, q_j \rangle}{\sqrt{d}}\bigg) v}{\sum_{l=0}^T 2^l \sum_{\{k,v\} \in K^l} \exp\bigg(\frac{\langle k, q_j \rangle}{\sqrt{d}}\bigg)}. \]

估计量 \(z_j\) 的公式。

BALANCEKV 的最终理论结果表明，在假设查询和键的 \(\ell_2\) 范数被上界 (至多为 \(r\)) 的情况下，它能以高概率实现等式 (2) 所述的近似。该算法使用:

总内存: \(\widetilde{O}\left(d\sqrt{d} e^{2 r^2/\sqrt{d}} / \varepsilon\right)\)。
每步运行时间: \(\widetilde{O}\left(d^2 e^{4 r^2/\sqrt{d}} / \varepsilon^2\right)\)。

这里的 \(\widetilde{O}\) 表示忽略多项式和对数因子。关键结论是 BALANCEKV 的内存消耗随 \(1/\varepsilon\) 缩放，这相比于通常随 \(1/\varepsilon^2\) 缩放的朴素子采样方法是一个显著改进。

How the Guarantees Add Up (Intuitive Sketch)

下面简要概述这些理论保证如何叠加。每次调用 SoftmaxBalance 都保证，在将一块键值对减半后，对于任意查询方向，被“丢失的质量” (即原始和与 2 倍保留半集和之间的差异) 是小的。该误差由包括多项对数因子、最大 value 范数及键与查询范数的指数因子的项所界定。

在 MERGEANDREDUCE 的运行过程中，每个元素会参与 \(O(\log(n/t))\) 次归约。各层的误差会相加。通过合适设置批次大小 \(t\) (依赖于 \(\varepsilon\) 以及那些指数因子) ，跨所有层累积的加性误差可以保持在 \(\varepsilon\) 倍的自然 softmax 尺度之内。

如 BALANCEKV 中所做的按 value 范数分组，能确保这种缩放在不同数值量级间可控。最后一步使用 Cauchy–Schwarz 不等式将这些每桶的加性误差转换为公式 (2) 中的乘法型误差。论文的完整证明详尽地阐述了这些论证，包括每一层的加性近似边界:

\[ \left\|\sum_{i=1}^{j} \exp\left(\frac{\langle k_i, q_j \rangle}{\sqrt{d}}\right) v_i - z_j\right\|_2 \leq \varepsilon j \cdot e^{-r^2/\sqrt{d}} \cdot \max_{i \in [n]} \|v_i\|_2. \]

每层的加性近似界。

以及整体的合并误差分解:

\[ \sum_{i=0}^{T-1} 2^i \left\| \sum_{\{k,v\} \in B^{i+1} \cup C^{i+1}} \exp\left( \frac{\langle k, q_j \rangle}{\sqrt{d}} \right)v - \sum_{\{k,v\} \in B^i \setminus (B^{i+1} \cup C^{i+1})} \exp\left( \frac{\langle k, q_j \rangle}{\sqrt{d}} \right)v \right\|_2. \]

合并误差分解。

What Can’t Be Avoided: A Lower Bound

为了进一步将 BALANCEKV 的效率置于上下文中，作者还提供了一个互补的理论结果: 任何流式算法在近似注意力问题上都存在的空间复杂度下界。这意味着不论算法多么巧妙，都无法突破某个最低内存使用量。

论文证明，对任意满足等式 (2) 的流式近似注意力算法，所需空间至少为 (忽略常数项) :

\[ \Omega\left(\min\left\{\frac{1}{\varepsilon^2}, d\exp(2r^2/\sqrt{d})\right\}\right). \]

下界表达式。

该下界通过将问题归约到通信复杂性中知名的 INDEX 问题来推导。直观上，如果你能够用远低于该下界的空间近似注意力，那么你就可以利用该近似来解决 INDEX 问题 (从一个字符串中以最小通信量恢复单个比特) ，而 INDEX 已知需要一定量的通信 (因此需要相应的内存) 。该结果表明 BALANCEKV 的复杂度规模已经非常接近理论上可能达到的最优。

Experiments: Does It Work in Practice?

作者通过两类主要实验严格评估了 BALANCEKV :

单层注意力近似: 直接评估注意力近似质量。
端到端生成任务: 衡量作为 KV 缓存压缩器时对整体 LLM 性能的影响。

Single-Layer Ablations (Small-Scale Check)

此实验将 BALANCEKV 与独立的均匀采样在单层注意力近似任务上进行比较。实验使用 Llama-3.1-8B-Instruct 和 Mistral-8B-Instruct，以及 TriviaQA 数据集。重点关注第 1、2 和 5 层。

结果如图 1 所示, BALANCEKV 在相对近似误差上持续优于均匀采样，尤其在更激进的压缩率下 (即保留更少项时) 表现突出。

Comparison of relative errors across different layers of Llama-3.1-8B-Instruct (left) and Ministral-8B-Instruct-2410 (right) on TriviaQA dataset.

图 1: 在 TriviaQA 数据集上，Llama-3.1-8B-Instruct (左) 和 Mistral-8B-Instruct-2410 (右) 不同层的相对误差比较。

两个重要趋势在这些实验中显现:

随着压缩率提高, BALANCEKV 相对于均匀采样的优势更加明显，凸显其在内存受限情形下的有效性。
更高的层 (例如第 5 层) 通常比低层 (1–2 层) 更难压缩，在相同压缩率下呈现更大的相对误差。

进一步的消融研究显示，随着批次大小 (即 MERGEANDREDUCE 中的 t 参数) 增加，注意力近似质量会提高，但运行时间也变慢，这与理论预测一致。

End-to-End Long-Context Tasks

在端到端评估中, BALANCEKV 被集成为预处理 (prefill) 阶段的 KV 缓存压缩器。在解码 (decoding) 阶段，所有新生成的嵌入都被保留在缓存中——这是一个常见的实践选择，因为生成长度通常远小于输入上下文长度。

BALANCEKV 与若干近来的 token 级 KV 缓存压缩方案进行了比较: StreamingLLM、SnapKV、PyramidKV 以及均匀采样。评估使用 LongBench 数据集 (特别是 LongBench-E，用于均匀长度分布) ，以及多种 LLM: Llama-3.1-8B-Instruct、Qwen-2.5-14B-Instruct 与 Qwen-2.5-32B-Instruct。

结果 (论文表 1) 显示 BALANCEKV 在所有压缩方法和所有模型中始终取得最佳整体性能，证明了其在缓存压缩时保持模型质量的有效性。值得注意的是，在某些数据集 (如 TriviaQA) 上, BALANCEKV 的得分几乎能达到未压缩基线，表明它能保留高度任务相关的信息。

Needle-in-a-Haystack Benchmark

该具有挑战性的基准测试模型从长上下文 (“干草堆”) 中检索随机嵌入的特定句子 (“针”) 的能力。 BALANCEKV (及其一个确定性增强变体，该变体保留一小部分与查询反相关的键) 在检索准确率上接近完美 (约 0.99) 。在相同压缩比下，这显著超越了其他方法: SnapKV (0.83) 、PyramidKV (0.90) 、StreamingLLM (0.31) 和均匀采样 (0.90) 。论文中图 4 的详细热图可视化了 BALANCEKV 在不同上下文长度与针深度下的稳健性。

System Efficiency Metrics

尽管压缩方法不可避免地会带来一些开销，作者仍测量了预处理和解码阶段的墙钟时间。 BALANCEKV 带来了适度的预处理时间增加，并对解码速度的影响很小。在表现良好的多种方法中, BALANCEKV 达到了最低的预处理延迟，并在效率与准确性之间持续提供最佳折衷。这表明其基于差异理论的方法不仅在理论上可扩展，在端到端系统性能也带来了实际收益，从而成为现实部署中的有吸引力选择。

Why This Approach Intuitively Works

BALANCEKV 成功的原因源于三大关键成分的巧妙组合:

Softmax 的核技巧 (Kernel Trick) : 将内积的指数表示为更高维 (或无限维) 特征空间中的内积，是至关重要的。这把复杂的非线性 softmax 加权和转换为可由线性代数技术控制的形式。
在线向量平衡 (Online Vector Balancing) : Self-Balancing Walk 算法为划分集合提供了有原则的方法。当将其应用于提升后的特征向量时，能确保键值对的“平衡”在所有可能的查询方向上得到保持，从而避免了经验性启发式并提供了强的可证保证。
流式骨架 (Merge-and-Reduce + 分桶) : 像 merge-and-reduce 这样的标准流式算法设计模式允许在保持内存有界的同时递归应用平衡过程。加入按 value 范数分桶则有效处理了 value 向量幅度的不均匀性，确保不同尺度上的近似质量得以维持。

这些组合产生了一种既有理论支撑且能在实践中带来可观效率与准确性收益的方法。

Limitations and Practical Notes

尽管 BALANCEKV 带来了显著进步，但需要考虑其局限性与实际影响:

范数有界假设 : 理论界的保证依赖于键与查询的 \(\ell_2\) 范数有界 (至多为 \(r\)) 。在实践中，LLM 的嵌入通常会经历层归一化，这有助于满足该条件。然而复杂度界中的指数因子如 \(e^{O(r^2/\sqrt{d})}\) 表明算法参数必须谨慎地考虑这些范数大小。
常数项与每步开销 : 尽管渐近标度 (例如内存随 \(1/\varepsilon\) 缩放) 是有利的，但实际中的常数因子以及每步运行时间中的多项式/指数项可能相当可观。要使 BALANCEKV 达到生产级性能，需要高度优化的实现与工程工作 (例如 GPU 友好的并行归约、有效批处理等) 。
随机化输出 : SoftmaxBalance 是一个随机化算法，只能给出高概率的保证。对于某些生产系统，可能偏好确定性变体，或结合确定性保留某些“重要”token (如首尾 token 或重磅 token) 的策略，以保证行为的可预测性。

Takeaways and Future Directions

BALANCEKV 是一个引人注目的例子，展示了深厚的理论工具如何成功地被引入到实际机器学习系统问题中。将指数 softmax 项通过核提升转化为内积，从而用差异理论进行平衡的构想尤其富有洞见。

核心要点包括:

差异理论为在长上下文 Transformer 中压缩 KV 缓存提供了一种有原则且强大的新手段。
BALANCEKV 在流式设置下实现了可证明的 \(\varepsilon\)-近似，内存缩放优于朴素采样，且实验证明在给定压缩预算下其准确性更高。

这项工作为未来研究与开发开启了若干激动人心的方向:

工程优化 : 需要进一步努力以收紧常数并降低每步运行时间，使 BALANCEKV 更加适合生产环境。
混合方法 : 将 BALANCEKV 与量化、按头或按层的自适应预算，或与现有优先保留语义重要 token 的缓存启发式结合，可能带来更佳性能。
更广泛的适用性 : 将这些差异理论思想扩展到其它注意力变体 (如 cross-attention) ，或用于键值来自外部文档的检索增强生成场景，可能为 LLM 解锁新的能力。

如果你有兴趣深入研究，原始论文包含了 SoftmaxBalance 分析 (映射到无限维 \(\varphi\)) 的详细证明、MERGEANDREDUCE 的误差传播分析以及通过通信复杂性推导的下界证明。本文呈现的概念与关键可视化为理解这一创新性长上下文 LLM 效率方法提供了坚实基础。

Introduction#

Background: What We Need to Approximate#

High-Level Idea: Balance the Dataset So Either Half Approximates the Whole#

Discrepancy Theory and the Self-Balancing Walk#

SoftmaxBalance: Partitioning with Respect to Exponential Weights#

Making It Streaming: Merge-and-Reduce#

Handling Widely Varying Value Norms: BALANCEKV in Full#

How the Guarantees Add Up (Intuitive Sketch)#

What Can’t Be Avoided: A Lower Bound#

Experiments: Does It Work in Practice?#

Single-Layer Ablations (Small-Scale Check)#

End-to-End Long-Context Tasks#

Needle-in-a-Haystack Benchmark#

System Efficiency Metrics#

Why This Approach Intuitively Works#

Limitations and Practical Notes#

Takeaways and Future Directions#