逆向推理：让小模型学会像作家一样思考

大语言模型 (LLM) 在处理具有明确、可验证答案的任务方面已表现得异常出色。当你让模型解决一个数学问题或编写一段代码时，它通常能够通过一步步地“思考”来得出正确的解决方案。这种被称为深度推理的范式，是在推理阶段投入额外的计算资源，以解决复杂的逻辑挑战——这是我们在数学和编程等领域取得巨大进步的重要因素之一。

但当我们进入主观、模糊的创造性和开放式任务世界时，情况又会如何？当没有唯一的“正确”答案时，我们该如何教会模型去“推理”——怎样写出一个引人入胜的故事、一篇有说服力的文章或一首感人肺腑的诗？在创意领域，质量取决于人类判断: 原创性、情感共鸣和叙事连贯性。

症结在于: 目前用于培养推理能力的两种主流范式——强化学习 (RL) 和 指令蒸馏——在这里都行不通:

强化学习依赖明确、可验证的奖励。在国际象棋中，赢一局会得到 +1 的奖励。但对于讲故事而言，我们需要一个能够评估创造力的奖励模型，而这几乎和写出故事本身一样困难。
指令蒸馏需要一个更强大的“教师”模型 (如 GPT-4) 生成示例推理过程和答案。这种方法在大规模应用时成本高昂，而且能力受制于教师本身。

这就是制约创意 AI 进展的瓶颈。我们需要一种方法，可以不依赖昂贵的教师模型或主观奖励函数，就能生成海量高质量的推理数据。

为此，研究人员提出了一种强大的新范式:** 逆向工程推理 (REverse-Engineered Reasoning，REER)** 。REER 并非通过试错来构建推理过程，而是采取逆向思维——从一个高质量的范例出发，追问:

“怎样的逻辑化、循序渐进的思维过程，才能得到这个结果？”

本文将详细解析 REER，探讨它如何赋能 DeepWriter-8B 模型，并剖析为何这条“第三条道路”可能重新定义创意 AI。

一张图表，对比了传统的“正向”推理方法 (如强化学习和蒸馏) 与逆向工程推理 (REER) 这种新的“反向”方法。
图 1: 传统方法试图“正向”构建深度推理，这对创造性任务而言极具挑战。REER 则翻转思路，从优秀的解决方案反向推导背后的思维过程。

创造性推理的难题

当我们要求一个 LLM 生成一个故事时，我们希望得到的不仅是语法正确的句子，而是:

叙事规划
角色与情节发展
探索替代情节的能力
在思路不理想时进行自我修正的能力

如下是我们期望的深度思考示例:

一个模型内心独白的示例，展示了它规划故事、考虑替代方案 (“嗯……或许可以这样”) ，以及自我修正 (“等等，这有点太直白了。”) 的过程。
图 2: 结构化、类人推理示例——规划、探索备选方案与自我修正。

实现这种推理很困难:

强化学习: 需要奖励函数，游戏场景中容易定义，但在创造力任务中几乎不可能实现。
指令蒸馏: 依赖昂贵的教师模型生成推理，高成本且创造力受限，扩展性有限。

REER 为我们提供了跳过这两个障碍的途径。

REER: 通过逆推发现推理过程

REER 的核心创新看似简单却颠覆性:
不再从零生成解决方案和推理，而是从一个已知的高质量解决方案出发——再合成可能导致该方案的推理过程。

REER 作为搜索问题

形式化表示:

查询 \(x\): 例如，“写一个关于不情愿英雄的故事。”
解决方案 \(y\): 来自可信来源的优质故事。
轨迹 \(z\): 一个从 \(x\) 到 \(y\) 的循序渐进推理序列。

在创意任务中没有“标准正确答案”，那么何谓最优轨迹？
作者使用困惑度 (Perplexity, PPL) 作为代理指标: 困惑度低意味着模型认为文本合理、连贯且合乎预期。
好的轨迹 \(z\) 会让模型觉得 \(y\) 出现的概率最高。

公式为:

\[ z^* = \arg\min_{z\in\mathcal{Z}} \operatorname{PPL}(y|x,z) \]

这转化为一个搜索问题: 在没有人工奖励的情况下，找到能最小化 \(y\) 困惑度的推理过程 \(z^*\)。

迭代式局部搜索

由于可能的推理过程空间庞大，REER 采用迭代式局部搜索逐步优化推理:

一张四格图，展示了迭代式局部搜索算法: 1. 初始化，2. 节点扩展，3. 节点评估与选择，以及 4. 终止。
图 3: 搜索算法在困惑度的指导下，不断改善初始方案的各个部分。

初始化: 生成一个粗略、不完美的推理草稿 \(z^{(0)}\)。
节点扩展: 一次优化一个片段，生成候选改进——增加细节、反思或替代选项。
评估与选择: 测量候选推理对应 \(y\) 的困惑度，保留 PPL 最低的方案。
终止: 重复直至达到困惑度阈值或最大迭代次数。

由此生成详尽的 (查询, 推理, 解决方案) 三元组，为训练具备推理能力的模型提供了充足燃料。

创建 DeepWriting-20K 数据集

研究人员利用 REER 构建了 DeepWriting-20K:

来源: Reddit 的 r/WritingPrompts，古腾堡计划的公版文学 (逆向得到提示词) ，以及公开的指令数据集。
合成: 应用迭代搜索生成类人的推理过程，并注入“嗯，也许……”、“等等，那是……”、“让我想想……”等反思标记。
指标: 图 4 显示优化后困惑度下降，同时推理链变长。

四张图表显示，经过迭代搜索后，困惑度 (PPL) 下降，同时 token 长度增加。
图 4: 迭代搜索降低了 PPL，提高了逻辑性，并扩展推理细节 (更长的轨迹) 。

筛除重复或低质轨迹后，数据集展现出丰富主题多样性 (图 5) :

两张饼图，展示了 DeepWriting-20K 数据集的主题分布。主图显示“艺术类”写作占比 48%，小图显示在“艺术类”中创意写作占主导。
图 5: 主题分布。近一半是艺术类写作——创意作品、散文、剧本——为培养创造性推理提供丰富语料。

为平衡专项与通用能力，DeepWriting-20K 与涵盖数学、代码、科学的公开数据集混合使用。

实验: 小模型能否媲美巨头？

DeepWriter-8B 基于 Qwen3-8B，在混合数据集上微调。评估重点包括:

LongBench-Write: 超长文 (>1万词) 连贯性
HelloBench: 真实世界开放式问答与创意生成
WritingBench: 六大专业/创意领域 (学术、金融、法律、文学艺术、教育、市场营销)

主要结果

模型	基础模型	LB	HB-A	HB-B	WB-A	WB-B	WB-C	WB-D	WB-E	WB-F
GPT-4o	-	83.1	83.7	87.6	74.40	73.42	74.38	77.91	75.86	78.08
Claude 3.5	-	89.3	82.9	88.3	59.05	57.68	56.32	59.36	62.00	67.70
Claude 3.7	-	97.8	83.9	93.2	78.24	77.93	76.51	79.37	79.26	80.88
LongWriter-8B	Llama3.1-8b	76.5	80.1	82.6	57.97	53.92	49.08	52.08	52.99	52.08
DeepWriter-8B	Qwen3-8b	91.28	82.64	87.48	72.20	71.76	70.57	70.57	73.65	72.29

表 1: DeepWriter-8B 超越强力开源基线，并与顶级闭源模型不分伯仲。

要点:

开源最优: 在所有任务中全面领先 LongWriter-8B，尤其在 WritingBench 优势明显。
媲美巨头: 在创意 HB-B 任务中与 GPT-4o、Claude 3.5 持平；在专业 WritingBench 领域全面超越 Claude 3.5。
长文连贯性: LongBench-Write 中超过 GPT-4o 和 Claude 3.5。

消融研究

模型配置	LB	HB-A	HB-B	WB-A	WB-B	WB-C	WB-D	WB-E	WB-F
完整版 DeepWriter-8B	91.28	82.64	87.48	72.20	71.76	70.57	70.57	73.65	72.29
- 移除合成数据	82.93	70.92	73.73	63.44	62.78	62.86	57.72	66.32	62.78
- 移除迭代搜索	83.20	81.08	84.48	66.72	68.79	67.36	65.66	69.53	70.13
- 移除反思标记	86.97	82.27	82.80	71.68	69.64	70.44	62.04	69.98	71.94

表 2: 移除不同组件的影响——合成数据最关键。

结论:

合成数据: 去掉 REER 生成数据，性能大幅下降。
精炼搜索: 移除基于 PPL 的迭代优化，性能显著下滑，验证了它的重要性。
反思标记: 创造性灵活性下降，尤其在文学艺术领域。

定性分析: 更善思考

研究人员从五个深度思考维度评分，DeepWriter-8B 的整体剖面如下:

一张雷达图，比较五个模型推理谱系。DeepWriter-8B 的表现远胜开源基线，接近 GPT-4o。
图 6: DeepWriter-8B 推理能力强且均衡——大幅领先基线，接近 GPT-4o。

类人思维模式

在合成中引入“思考标记”极大改变了模型行为:

两张条形图，比较思考短语使用频率。注入思考模式后，模型短语更多样自然；反之则依赖公式化表达。
图 7: 注入思维模式后推理更具多样性与反思性；否则会陷入公式化重复。

注入后，模型推理充满自我反思与探索 (如“让我想想……”、“也许……”) ，增强了灵活性——对创意任务尤为关键。

结论与启示

让 LLM 在开放式、不可验证域中具备推理能力是重要前沿。RL 与蒸馏在此受挫，而 REER 提供可扩展的第三路径:

从优质成果逆向推导
以困惑度衡量推理质量
无需人工奖励或昂贵教师即可构建海量思维数据

REER 生成的 DeepWriting-20K 数据集，使 DeepWriter-8B 能与世界级闭源模型分庭抗礼，甚至在部分任务上超越它们。

这是一项突破: 证明了小型开源模型也能培养出创意任务所需的类人深度推理能力。
发布 DeepWriting-20K，不仅让大众获得强大创造性推理的机会，也为规划、结构化思维及复杂领域生成的深入研究打开了大门。

创造性推理的难题#

REER: 通过逆推发现推理过程#

REER 作为搜索问题#

迭代式局部搜索#

创建 DeepWriting-20K 数据集#

实验: 小模型能否媲美巨头？#

主要结果#

消融研究#

定性分析: 更善思考#

类人思维模式#

结论与启示#