多年来,大语言模型 (LLM) 一直依赖于一个基本理念:** 自回归**。如 GPT-4、LLaMA 和 Qwen 等模型都会逐词生成文本,从左到右进行——就像人类写句子的过程一样。这种方法推动了令人瞩目的进步,但也存在固有的局限。当模型只能看到过去时,它难以处理需要全局一致性、长期规划或复杂约束的任务。

试想一下,从左上角开始严格地解一个数独谜题,一格一格地填写,不允许回头修改之前的步骤。你几乎肯定会犯下无法挽回的错误。这正是自回归 (AR) 模型所面临的挑战。

但是,如果模型能够从整个序列的粗略草稿开始,并通过反复迭代进行优化,从一开始就看到完整的上下文呢?这个理念定义了扩散模型——这种范式已经彻底改变了图像生成,现在也即将重塑语言模型的构建方式。

在 2025 年的论文中,来自香港大学和华为诺亚方舟实验室的研究人员推出了 Dream 7B,这是一款拥有 70 亿参数的基于扩散的大语言模型。它在性能上弥合了与顶级自回归系统的差距,同时在推理、规划和灵活推断上展现出新的能力。Dream 7B 不仅仅是又一个 LLM;它证明了文本生成的未来也许不再需要逐词书写。

扩散模型与自回归模型的性能对比。与扩散模型 (LLaDA 8B) 和自回归模型 (Qwen2.5 7B, LLaMA3 8B) 的同类产品相比,Dream 7B 在推理和规划基准测试中取得了优异的成绩。

图 1: Dream 7B 在通用基准测试中取得了有竞争力的分数,并在数独和倒计时等规划任务中表现出色。

如图 1 所示,Dream 7B 在通用任务上与自回归模型相当,并在规划和推理等关键领域显著超越它们——这些正是整体上下文至关重要的领域。让我们深入了解它的工作原理。


背景: 自回归 vs. 扩散

自回归 (AR) 建模 —— 熟悉的路径

自回归模型遵循一个简单的原理: 序列的概率可以分解为每个词元在给定其前面所有词元的条件下的概率。

\[ p_{\theta}(\mathbf{x}) = p_{\theta}(\mathbf{x}^{1}) \prod_{n=2}^{N} p_{\theta}(\mathbf{x}^{n} \mid \mathbf{x}^{1:n-1}) \]

为了预测下一个词,模型会查看目前已生成的所有词。这种从左到右、逐词元生成的过程能够保证语言流畅,但也阻碍了模型在推理整句时利用未来词元。

扩散建模 —— 一个新的梦想

扩散模型颠覆了这一方式。它们不是按顺序生成文本,而是从一个含噪的序列开始,通过多次迭代过程去噪,逐步得到连贯的文本。

  1. 前向 (加噪) 过程: 从一个干净的序列开始,比如 “Dream is a text diffusion model.”,然后逐步将其中的词用 [MASK] 替换。经过足够多的步骤后,所有词都被掩盖。
  2. 反向 (去噪) 过程: 训练模型逐步重构干净句子,利用所有可用的上下文来预测每个被掩码的词元。

这种扩散公式建立在完整上下文的建模之上,而不仅仅关注左侧内容:

\[ p_{\theta}(\mathbf{x}) = \sum_{\mathbf{x}_{1:T} \sim q} p(\mathbf{x}_T) \prod_{t=1}^T p_{\theta}(\mathbf{x}_{t-1} | \mathbf{x}_{t}) \]

训练目标是一个加权的交叉熵损失函数,它更强调靠近原始干净数据的时间步:

\[ L(\theta) = -\mathbb{E}_{\mathbf{x}_0, t, \mathbf{x}_t} w(t) \sum_{n=1}^{N} \mathbf{1}_{[\mathbf{x}_t^n = \mathsf{MASK}]} \log p_\theta(\mathbf{x}_0^n | \mathbf{x}_t) \]

其中,\( w(t) \) 在模型重构损坏程度较低的序列时给予更高权重,以提升去噪的精度。

这种双向架构使得扩散模型能够利用全上下文预测,这对解决具有全局约束的任务 (如规划或数学推理) 至关重要。


Dream 7B 的方法: 两项核心创新

大规模训练扩散式语言模型的计算成本极高。Dream 7B 引入了两项关键创新,使训练更快且更高效。

1. 智能起点 —— 基于自回归模型的初始化

Dream 7B 并非从随机权重开始,而是使用强大的自回归模型 Qwen2.5 7B 的权重作为起点。这类似于在一个已有扎实基础的知识体系上学习新技能。

自回归模型通过位置 i 的隐藏状态预测位置 i+1 的词元,从而编码序列顺序。Dream 在扩散训练中采用一种“移位操作”来保留这种关系。模型不会破坏位置信息,而是继续以移位的方式使用隐藏状态,使扩散行为与已有的预训练架构保持一致。

Dream 中自回归建模与扩散建模的对比,突出了因果注意力 (AR) 与全注意力 (Diffusion) 的区别。Dream 在初始化过程中保留了 AR 的移位语义。

图 2: Dream 将扩散建模与自回归架构对齐。自回归模型中的因果 (黄色) 注意力在 Dream 中变为全 (蓝色) 注意力,同时保持了位置预测的对齐。

这种自回归初始化极大地加速了训练,并让扩散模型继承了成熟 LLM 的丰富语言理解能力。借助更强的自回归基础,未来的扩散模型可以不必从零重训就实现更高性能。

2. 细粒度噪声 —— 上下文自适应词元级重调度 (CART)

传统扩散模型对整段序列施加统一噪声,忽视了不同词元的难度差异。根据上下文,有些掩码词比其他词更易恢复。

Dream 引入 CART——上下文自适应词元级噪声重调度——它根据每个被掩码词元的上下文信息量动态调整其噪声水平。

Dream 的上下文自适应词元级噪声重调度机制示意图。每个词元根据其上下文信息量接收一个独特的噪声水平。

图 3: 上下文越丰富的词元被视为噪声越低。Dream 为每个词元重新估计噪声,提高了学习效率与稳定性。

训练目标变为:

\[ L(\theta) = -\mathbb{E}_{\mathbf{x}_0, t, \mathbf{x}_t} \sum_{n=1}^{N} \mathbf{1}_{[\mathbf{x}_t^n = \mathsf{MASK}]} w(t, \mathbf{x}_t, n) \log p_\theta(\mathbf{x}_0^n | \mathbf{x}_t) \]

其中

\[ w(t, \mathbf{x}_t, n) = \frac{1}{2} \sum_{i=1}^{N} \mathbf{1}_{[\mathbf{x}_t^i \neq \mathrm{MASK}]} \operatorname{Geo}(p, |n - i| - 1) \]

这种自适应机制使 Dream 优先学习信息量丰富的词位,从而实现更快的收敛以及对复杂上下文关系的更好理解。


实验: Dream 7B 的全面评估

作者在一系列涵盖通用语言理解、数学、编程、推理与规划的基准测试中评估了 Dream 7B。比较对象包括扩散模型 (LLaDA 8B) 和自回归模型 (Qwen2.5 7B、LLaMA3 8B) 。

对比表格展示了 Dream 7B 在各项基准测试中的结果。Dream 整体性能稳健,并在规划任务中取得显著优势。

图 4: Dream 7B 与 LLaDA 8B (扩散模型) 及领先的自回归模型的对比。Dream 在规划和推理基准上优势明显。

主要发现:

  1. 与自回归模型同级竞争: Dream 7B 在通用与推理基准上与 Qwen2.5 7B 表现相当,尽管训练数据量远少于后者 (0.6T vs. 18T) 。
  2. 卓越的规划能力: 在需要全局一致性的任务中——如倒计时、数独、旅行规划——Dream 表现突出,在数独任务中得分 81.0,而 Qwen2.5 仅得 21.0。
  3. 扩散模型的进步: Dream 超越了此前的扩散模型最优表现 (LLaDA 8B) ,验证了自回归初始化与 CART 的有效性。

指令微调版 Dream-Instruct

为了探索指令对齐与遵循能力,研究团队使用 180 万条提示-响应样本微调了 Dream,从而得到 Dream-Instruct

指令微调的 Dream-Instruct 与 LLaDA 8B、Qwen2.5 7B 和 LLaMA3 8B 的性能对比。

图 5: Dream-Instruct 展示了扩散模型能够被有效微调以遵循指令。

即使没有经过基于强化学习的后训练,Dream-Instruct 在语言、数学和代码等基准上依旧表现强劲——证明扩散模型可以自然地适用于对话与对齐任务。


评估自回归初始化的效果

为了量化自回归预训练的益处,研究人员比较了两个拥有 10 亿参数的 Dream 版本——一个从零开始训练,另一个由 LLaMA3.2-1B 权重初始化。

从零开始训练与使用自回归初始化的 Dream 之间的验证损失对比。

图 6: 自回归初始化在整个训练过程中始终保持更低的验证损失,体现其效率优势。

结果非常显著: 使用自回归初始化的模型在整个训练期间都维持了更低的损失值。这证明了重用自回归知识能加速扩散模型优化,降低计算成本,为规模化发展提供了切实可行的途径。


扩散式大语言模型的独特能力

除了基准表现外,Dream 7B 还展现了扩散模型独有的优势。

1. 出色的规划与推理能力

扩散模型能够对完整序列进行推理,而不是仅针对下一个待生成词元。这种全局上下文推理能力让其在数独或旅行规划等任务中表现出一致且全局合理的问题解决能力。

Dream 7B 在规划任务 (倒计时和数独) 中与其他大语言模型的性能对比。扩散模型能优雅地应对难度提升。

图 7: 随着任务难度增加,Dream 7B 依然保持强大规划准确率,并以显著优势超越自回归模型。

随着任务复杂度增加,Dream 7B 的优势愈发明显。它的性能下降更为平滑,而自回归模型则往往出现灾难性失败。

Qwen2.5 7B 和 Dream 7B 在旅行规划、倒计时和数独问题上的定性对比示例。Dream 保持了全局一致性。

图 8: 在复杂约束下,Dream 7B 能找到有效解,而自回归模型因序列生成方式而失败。

2. 灵活的质量–速度权衡

自回归模型以固定速度生成文本,而扩散模型可通过调整去噪步骤的数量,在推理中动态地用计算量换取生成质量。

Dream 7B 的质量–速度权衡曲线,展示准确率与推理速度随扩散步骤的变化,并与 Qwen2.5 7B 对比。

图 9: Dream 支持可调生成。在约 5–20 个去噪步骤时,Dream 在速度与准确率两方面均超越 Qwen2.5 7B。

这种灵活性让用户可自由选择——要更快回应还是更精细结果——无需重新训练,在推理阶段实现动态优化。

3. 任意顺序生成与文本填充

自回归模型受限于序列依赖,而扩散模型突破了这一限制,能够按任意顺序生成词元。这为多样应用打开了大门:

  • 文本填充 (Infilling) : 在给定开头与结尾的情况下填充缺失片段。
  • 文本补全 (Completion) : 自由扩展文本,类似自回归生成。
  • 可配置解码 (Configurable Decoding) : 调整生成顺序,从左到右的结构化生成到完全随机的综合生成。

这种灵活性使创意写作、文档修订以及交互式编辑成为可能——全部无需额外训练。


结论: 通向未来的新路径

Dream 7B 标志着大语言模型设计的转折点。通过结合实用技术——自回归初始化与上下文敏感噪声调度——与扩散机制的整体性,Dream 在性能上可与领先自回归模型媲美,同时在推理、规划与灵活性方面更胜一筹。

基于扩散的语言模型已不再是学术上的新奇概念。它们是多功能系统,能够动态地生成、填充并优化文本质量与速度,同时在整体上下文中进行全球性推理。

下一代语言模型或许不再从左到右逐词书写,而是通过梦想让文本逐步成形——在广阔的可能性画布上,迭代地完善意义。