大语言模型 (LLM) 在处理具有明确、可验证答案的任务方面已表现得异常出色。当你让模型解决一个数学问题或编写一段代码时,它通常能够通过一步步地“思考”来得出正确的解决方案。这种被称为深度推理的范式,是在推理阶段投入额外的计算资源,以解决复杂的逻辑挑战——这是我们在数学和编程等领域取得巨大进步的重要因素之一。
但当我们进入主观、模糊的创造性和开放式任务世界时,情况又会如何?当没有唯一的“正确”答案时,我们该如何教会模型去“推理”——怎样写出一个引人入胜的故事、一篇有说服力的文章或一首感人肺腑的诗?在创意领域,质量取决于人类判断: 原创性、情感共鸣和叙事连贯性。
症结在于: 目前用于培养推理能力的两种主流范式——强化学习 (RL) 和 指令蒸馏——在这里都行不通:
- 强化学习依赖明确、可验证的奖励。在国际象棋中,赢一局会得到 +1 的奖励。但对于讲故事而言,我们需要一个能够评估创造力的奖励模型,而这几乎和写出故事本身一样困难。
- 指令蒸馏需要一个更强大的“教师”模型 (如 GPT-4) 生成示例推理过程和答案。这种方法在大规模应用时成本高昂,而且能力受制于教师本身。
这就是制约创意 AI 进展的瓶颈。我们需要一种方法,可以不依赖昂贵的教师模型或主观奖励函数,就能生成海量高质量的推理数据。
为此,研究人员提出了一种强大的新范式:** 逆向工程推理 (REverse-Engineered Reasoning,REER)** 。REER 并非通过试错来构建推理过程,而是采取逆向思维——从一个高质量的范例出发,追问:
“怎样的逻辑化、循序渐进的思维过程,才能得到这个结果?”
本文将详细解析 REER,探讨它如何赋能 DeepWriter-8B 模型,并剖析为何这条“第三条道路”可能重新定义创意 AI。
图 1: 传统方法试图“正向”构建深度推理,这对创造性任务而言极具挑战。REER 则翻转思路,从优秀的解决方案反向推导背后的思维过程。
创造性推理的难题
当我们要求一个 LLM 生成一个故事时,我们希望得到的不仅是语法正确的句子,而是:
- 叙事规划
- 角色与情节发展
- 探索替代情节的能力
- 在思路不理想时进行自我修正的能力
如下是我们期望的深度思考示例:
图 2: 结构化、类人推理示例——规划、探索备选方案与自我修正。
实现这种推理很困难:
- 强化学习: 需要奖励函数,游戏场景中容易定义,但在创造力任务中几乎不可能实现。
- 指令蒸馏: 依赖昂贵的教师模型生成推理,高成本且创造力受限,扩展性有限。
REER 为我们提供了跳过这两个障碍的途径。
REER: 通过逆推发现推理过程
REER 的核心创新看似简单却颠覆性:
不再从零生成解决方案和推理,而是从一个已知的高质量解决方案出发——再合成可能导致该方案的推理过程。
REER 作为搜索问题
形式化表示:
- 查询 \(x\): 例如,“写一个关于不情愿英雄的故事。”
- 解决方案 \(y\): 来自可信来源的优质故事。
- 轨迹 \(z\): 一个从 \(x\) 到 \(y\) 的循序渐进推理序列。
在创意任务中没有“标准正确答案”,那么何谓最优轨迹?
作者使用困惑度 (Perplexity, PPL) 作为代理指标: 困惑度低意味着模型认为文本合理、连贯且合乎预期。
好的轨迹 \(z\) 会让模型觉得 \(y\) 出现的概率最高。
公式为:
\[ z^* = \arg\min_{z\in\mathcal{Z}} \operatorname{PPL}(y|x,z) \]这转化为一个搜索问题: 在没有人工奖励的情况下,找到能最小化 \(y\) 困惑度的推理过程 \(z^*\)。
迭代式局部搜索
由于可能的推理过程空间庞大,REER 采用迭代式局部搜索逐步优化推理:
图 3: 搜索算法在困惑度的指导下,不断改善初始方案的各个部分。
- 初始化: 生成一个粗略、不完美的推理草稿 \(z^{(0)}\)。
- 节点扩展: 一次优化一个片段,生成候选改进——增加细节、反思或替代选项。
- 评估与选择: 测量候选推理对应 \(y\) 的困惑度,保留 PPL 最低的方案。
- 终止: 重复直至达到困惑度阈值或最大迭代次数。
由此生成详尽的 (查询, 推理, 解决方案)
三元组,为训练具备推理能力的模型提供了充足燃料。
创建 DeepWriting-20K 数据集
研究人员利用 REER 构建了 DeepWriting-20K:
- 来源: Reddit 的 r/WritingPrompts,古腾堡计划的公版文学 (逆向得到提示词) ,以及公开的指令数据集。
- 合成: 应用迭代搜索生成类人的推理过程,并注入“嗯,也许……”、“等等,那是……”、“让我想想……”等反思标记。
- 指标: 图 4 显示优化后困惑度下降,同时推理链变长。
图 4: 迭代搜索降低了 PPL,提高了逻辑性,并扩展推理细节 (更长的轨迹) 。
筛除重复或低质轨迹后,数据集展现出丰富主题多样性 (图 5) :
图 5: 主题分布。近一半是艺术类写作——创意作品、散文、剧本——为培养创造性推理提供丰富语料。
为平衡专项与通用能力,DeepWriting-20K 与涵盖数学、代码、科学的公开数据集混合使用。
实验: 小模型能否媲美巨头?
DeepWriter-8B 基于 Qwen3-8B,在混合数据集上微调。评估重点包括:
- LongBench-Write: 超长文 (>1万词) 连贯性
- HelloBench: 真实世界开放式问答与创意生成
- WritingBench: 六大专业/创意领域 (学术、金融、法律、文学艺术、教育、市场营销)
主要结果
模型 | 基础模型 | LB | HB-A | HB-B | WB-A | WB-B | WB-C | WB-D | WB-E | WB-F |
---|---|---|---|---|---|---|---|---|---|---|
GPT-4o | - | 83.1 | 83.7 | 87.6 | 74.40 | 73.42 | 74.38 | 77.91 | 75.86 | 78.08 |
Claude 3.5 | - | 89.3 | 82.9 | 88.3 | 59.05 | 57.68 | 56.32 | 59.36 | 62.00 | 67.70 |
Claude 3.7 | - | 97.8 | 83.9 | 93.2 | 78.24 | 77.93 | 76.51 | 79.37 | 79.26 | 80.88 |
LongWriter-8B | Llama3.1-8b | 76.5 | 80.1 | 82.6 | 57.97 | 53.92 | 49.08 | 52.08 | 52.99 | 52.08 |
DeepWriter-8B | Qwen3-8b | 91.28 | 82.64 | 87.48 | 72.20 | 71.76 | 70.57 | 70.57 | 73.65 | 72.29 |
表 1: DeepWriter-8B 超越强力开源基线,并与顶级闭源模型不分伯仲。
要点:
- 开源最优: 在所有任务中全面领先 LongWriter-8B,尤其在 WritingBench 优势明显。
- 媲美巨头: 在创意 HB-B 任务中与 GPT-4o、Claude 3.5 持平;在专业 WritingBench 领域全面超越 Claude 3.5。
- 长文连贯性: LongBench-Write 中超过 GPT-4o 和 Claude 3.5。
消融研究
模型配置 | LB | HB-A | HB-B | WB-A | WB-B | WB-C | WB-D | WB-E | WB-F |
---|---|---|---|---|---|---|---|---|---|
完整版 DeepWriter-8B | 91.28 | 82.64 | 87.48 | 72.20 | 71.76 | 70.57 | 70.57 | 73.65 | 72.29 |
- 移除合成数据 | 82.93 | 70.92 | 73.73 | 63.44 | 62.78 | 62.86 | 57.72 | 66.32 | 62.78 |
- 移除迭代搜索 | 83.20 | 81.08 | 84.48 | 66.72 | 68.79 | 67.36 | 65.66 | 69.53 | 70.13 |
- 移除反思标记 | 86.97 | 82.27 | 82.80 | 71.68 | 69.64 | 70.44 | 62.04 | 69.98 | 71.94 |
表 2: 移除不同组件的影响——合成数据最关键。
结论:
- 合成数据: 去掉 REER 生成数据,性能大幅下降。
- 精炼搜索: 移除基于 PPL 的迭代优化,性能显著下滑,验证了它的重要性。
- 反思标记: 创造性灵活性下降,尤其在文学艺术领域。
定性分析: 更善思考
研究人员从五个深度思考维度评分,DeepWriter-8B 的整体剖面如下:
图 6: DeepWriter-8B 推理能力强且均衡——大幅领先基线,接近 GPT-4o。
类人思维模式
在合成中引入“思考标记”极大改变了模型行为:
图 7: 注入思维模式后推理更具多样性与反思性;否则会陷入公式化重复。
注入后,模型推理充满自我反思与探索 (如“让我想想……”、“也许……”) ,增强了灵活性——对创意任务尤为关键。
结论与启示
让 LLM 在开放式、不可验证域中具备推理能力是重要前沿。RL 与蒸馏在此受挫,而 REER 提供可扩展的第三路径:
- 从优质成果逆向推导
- 以困惑度衡量推理质量
- 无需人工奖励或昂贵教师即可构建海量思维数据
REER 生成的 DeepWriting-20K 数据集,使 DeepWriter-8B 能与世界级闭源模型分庭抗礼,甚至在部分任务上超越它们。
这是一项突破: 证明了小型开源模型也能培养出创意任务所需的类人深度推理能力。
发布 DeepWriting-20K,不仅让大众获得强大创造性推理的机会,也为规划、结构化思维及复杂领域生成的深入研究打开了大门。