大语言模型 (LLM) 在处理具有明确、可验证答案的任务方面已表现得异常出色。当你让模型解决一个数学问题或编写一段代码时,它通常能够通过一步步地“思考”来得出正确的解决方案。这种被称为深度推理的范式,是在推理阶段投入额外的计算资源,以解决复杂的逻辑挑战——这是我们在数学和编程等领域取得巨大进步的重要因素之一。

但当我们进入主观、模糊的创造性和开放式任务世界时,情况又会如何?当没有唯一的“正确”答案时,我们该如何教会模型去“推理”——怎样写出一个引人入胜的故事、一篇有说服力的文章或一首感人肺腑的诗?在创意领域,质量取决于人类判断: 原创性、情感共鸣和叙事连贯性。

症结在于: 目前用于培养推理能力的两种主流范式——强化学习 (RL)指令蒸馏——在这里都行不通:

  • 强化学习依赖明确、可验证的奖励。在国际象棋中,赢一局会得到 +1 的奖励。但对于讲故事而言,我们需要一个能够评估创造力的奖励模型,而这几乎和写出故事本身一样困难。
  • 指令蒸馏需要一个更强大的“教师”模型 (如 GPT-4) 生成示例推理过程和答案。这种方法在大规模应用时成本高昂,而且能力受制于教师本身。

这就是制约创意 AI 进展的瓶颈。我们需要一种方法,可以不依赖昂贵的教师模型或主观奖励函数,就能生成海量高质量的推理数据。

为此,研究人员提出了一种强大的新范式:** 逆向工程推理 (REverse-Engineered Reasoning,REER)** 。REER 并非通过试错来构建推理过程,而是采取逆向思维——从一个高质量的范例出发,追问:

“怎样的逻辑化、循序渐进的思维过程,才能得到这个结果?”

本文将详细解析 REER,探讨它如何赋能 DeepWriter-8B 模型,并剖析为何这条“第三条道路”可能重新定义创意 AI。


一张图表,对比了传统的“正向”推理方法 (如强化学习和蒸馏) 与逆向工程推理 (REER) 这种新的“反向”方法。
图 1: 传统方法试图“正向”构建深度推理,这对创造性任务而言极具挑战。REER 则翻转思路,从优秀的解决方案反向推导背后的思维过程。

创造性推理的难题

当我们要求一个 LLM 生成一个故事时,我们希望得到的不仅是语法正确的句子,而是:

  • 叙事规划
  • 角色与情节发展
  • 探索替代情节的能力
  • 在思路不理想时进行自我修正的能力

如下是我们期望的深度思考示例:

一个模型内心独白的示例,展示了它规划故事、考虑替代方案 (“嗯……或许可以这样”) ,以及自我修正 (“等等,这有点太直白了。”) 的过程。
图 2: 结构化、类人推理示例——规划、探索备选方案与自我修正。

实现这种推理很困难:

  • 强化学习: 需要奖励函数,游戏场景中容易定义,但在创造力任务中几乎不可能实现。
  • 指令蒸馏: 依赖昂贵的教师模型生成推理,高成本且创造力受限,扩展性有限。

REER 为我们提供了跳过这两个障碍的途径。


REER: 通过逆推发现推理过程

REER 的核心创新看似简单却颠覆性:
不再从零生成解决方案和推理,而是从一个已知的高质量解决方案出发——再合成可能导致该方案的推理过程。

REER 作为搜索问题

形式化表示:

  • 查询 \(x\): 例如,“写一个关于不情愿英雄的故事。”
  • 解决方案 \(y\): 来自可信来源的优质故事。
  • 轨迹 \(z\): 一个从 \(x\) 到 \(y\) 的循序渐进推理序列。

在创意任务中没有“标准正确答案”,那么何谓最优轨迹?
作者使用困惑度 (Perplexity, PPL) 作为代理指标: 困惑度低意味着模型认为文本合理、连贯且合乎预期。
好的轨迹 \(z\) 会让模型觉得 \(y\) 出现的概率最高。

公式为:

\[ z^* = \arg\min_{z\in\mathcal{Z}} \operatorname{PPL}(y|x,z) \]

这转化为一个搜索问题: 在没有人工奖励的情况下,找到能最小化 \(y\) 困惑度的推理过程 \(z^*\)。

迭代式局部搜索

由于可能的推理过程空间庞大,REER 采用迭代式局部搜索逐步优化推理:

一张四格图,展示了迭代式局部搜索算法: 1. 初始化,2. 节点扩展,3. 节点评估与选择,以及 4. 终止。
图 3: 搜索算法在困惑度的指导下,不断改善初始方案的各个部分。

  1. 初始化: 生成一个粗略、不完美的推理草稿 \(z^{(0)}\)。
  2. 节点扩展: 一次优化一个片段,生成候选改进——增加细节、反思或替代选项。
  3. 评估与选择: 测量候选推理对应 \(y\) 的困惑度,保留 PPL 最低的方案。
  4. 终止: 重复直至达到困惑度阈值或最大迭代次数。

由此生成详尽的 (查询, 推理, 解决方案) 三元组,为训练具备推理能力的模型提供了充足燃料。


创建 DeepWriting-20K 数据集

研究人员利用 REER 构建了 DeepWriting-20K:

  • 来源: Reddit 的 r/WritingPrompts,古腾堡计划的公版文学 (逆向得到提示词) ,以及公开的指令数据集。
  • 合成: 应用迭代搜索生成类人的推理过程,并注入“嗯,也许……”、“等等,那是……”、“让我想想……”等反思标记。
  • 指标: 图 4 显示优化后困惑度下降,同时推理链变长。

四张图表显示,经过迭代搜索后,困惑度 (PPL) 下降,同时 token 长度增加。
图 4: 迭代搜索降低了 PPL,提高了逻辑性,并扩展推理细节 (更长的轨迹) 。

筛除重复或低质轨迹后,数据集展现出丰富主题多样性 (图 5) :

两张饼图,展示了 DeepWriting-20K 数据集的主题分布。主图显示“艺术类”写作占比 48%,小图显示在“艺术类”中创意写作占主导。
图 5: 主题分布。近一半是艺术类写作——创意作品、散文、剧本——为培养创造性推理提供丰富语料。

为平衡专项与通用能力,DeepWriting-20K 与涵盖数学、代码、科学的公开数据集混合使用。


实验: 小模型能否媲美巨头?

DeepWriter-8B 基于 Qwen3-8B,在混合数据集上微调。评估重点包括:

  • LongBench-Write: 超长文 (>1万词) 连贯性
  • HelloBench: 真实世界开放式问答与创意生成
  • WritingBench: 六大专业/创意领域 (学术、金融、法律、文学艺术、教育、市场营销)

主要结果

模型基础模型LBHB-AHB-BWB-AWB-BWB-CWB-DWB-EWB-F
GPT-4o-83.183.787.674.4073.4274.3877.9175.8678.08
Claude 3.5-89.382.988.359.0557.6856.3259.3662.0067.70
Claude 3.7-97.883.993.278.2477.9376.5179.3779.2680.88
LongWriter-8BLlama3.1-8b76.580.182.657.9753.9249.0852.0852.9952.08
DeepWriter-8BQwen3-8b91.2882.6487.4872.2071.7670.5770.5773.6572.29

表 1: DeepWriter-8B 超越强力开源基线,并与顶级闭源模型不分伯仲。

要点:

  1. 开源最优: 在所有任务中全面领先 LongWriter-8B,尤其在 WritingBench 优势明显。
  2. 媲美巨头: 在创意 HB-B 任务中与 GPT-4o、Claude 3.5 持平;在专业 WritingBench 领域全面超越 Claude 3.5。
  3. 长文连贯性: LongBench-Write 中超过 GPT-4o 和 Claude 3.5。

消融研究

模型配置LBHB-AHB-BWB-AWB-BWB-CWB-DWB-EWB-F
完整版 DeepWriter-8B91.2882.6487.4872.2071.7670.5770.5773.6572.29
- 移除合成数据82.9370.9273.7363.4462.7862.8657.7266.3262.78
- 移除迭代搜索83.2081.0884.4866.7268.7967.3665.6669.5370.13
- 移除反思标记86.9782.2782.8071.6869.6470.4462.0469.9871.94

表 2: 移除不同组件的影响——合成数据最关键。

结论:

  • 合成数据: 去掉 REER 生成数据,性能大幅下降。
  • 精炼搜索: 移除基于 PPL 的迭代优化,性能显著下滑,验证了它的重要性。
  • 反思标记: 创造性灵活性下降,尤其在文学艺术领域。

定性分析: 更善思考

研究人员从五个深度思考维度评分,DeepWriter-8B 的整体剖面如下:

一张雷达图,比较五个模型推理谱系。DeepWriter-8B 的表现远胜开源基线,接近 GPT-4o。
图 6: DeepWriter-8B 推理能力强且均衡——大幅领先基线,接近 GPT-4o。

类人思维模式

在合成中引入“思考标记”极大改变了模型行为:

两张条形图,比较思考短语使用频率。注入思考模式后,模型短语更多样自然;反之则依赖公式化表达。
图 7: 注入思维模式后推理更具多样性与反思性;否则会陷入公式化重复。

注入后,模型推理充满自我反思与探索 (如“让我想想……”、“也许……”) ,增强了灵活性——对创意任务尤为关键。


结论与启示

让 LLM 在开放式、不可验证域中具备推理能力是重要前沿。RL 与蒸馏在此受挫,而 REER 提供可扩展的第三路径:

  • 从优质成果逆向推导
  • 困惑度衡量推理质量
  • 无需人工奖励或昂贵教师即可构建海量思维数据

REER 生成的 DeepWriting-20K 数据集,使 DeepWriter-8B 能与世界级闭源模型分庭抗礼,甚至在部分任务上超越它们。

这是一项突破: 证明了小型开源模型也能培养出创意任务所需的类人深度推理能力
发布 DeepWriting-20K,不仅让大众获得强大创造性推理的机会,也为规划、结构化思维及复杂领域生成的深入研究打开了大门。