](https://deep-paper.org/en/paper/2510.01123/images/cover.png)
超越思维链:并行思考与自我优化如何解锁更智能的 LLM
引言: 思考的高昂成本 多年以来,让大型语言模型 (LLM) 解决复杂推理问题的首选方法,就是让它们“开口思考”。通过提示它们生成一步一步的*思维链 *(Chain-of-Thought, CoT) ,我们鼓励模型分解复杂问题、探索不同方法,并在此过程中纠正自己的错误。不成文的规则很简单: 模型生成的“思考型 token”越多,最终答案就越好。 ...
引言: 思考的高昂成本 多年以来,让大型语言模型 (LLM) 解决复杂推理问题的首选方法,就是让它们“开口思考”。通过提示它们生成一步一步的*思维链 *(Chain-of-Thought, CoT) ,我们鼓励模型分解复杂问题、探索不同方法,并在此过程中纠正自己的错误。不成文的规则很简单: 模型生成的“思考型 token”越多,最终答案就越好。 ...
多年来,Transformer 一直是序列建模的主导架构——从语言、代码到长文档。其 softmax 自注意力机制赋予了它无与伦比的灵活性,可以访问任意过去的 token,但这种灵活性也伴随着代价: 在推理过程中,内存和计算量随序列长度线性增长。这使得处理超长上下文问题的成本极高,并促使我们重新审视一个更早的思路: 采用循环式层,维持一个固定大小的状态,并在新 token 到达时更新它。 ...
LaCT: 为什么对于测试时训练和长上下文AI,越大越好 处理和理解长序列信息的能力——无论是长篇文档、高分辨率图像集,还是长视频——是人工智能发展的关键前沿之一。Transformer彻底改变了神经网络处理序列数据的方式,但其核心的自注意力机制的计算复杂度随序列长度呈二次方增长,使其在处理长上下文时效率低下。这推动了一系列寻找更快且内存更高效架构的研究。 ...
大语言模型 (LLM) 在推理任务上取得了惊人的进展——解决数学问题、回答问题、编写代码——但它们的能力通常依赖于两种关键策略: 来自可验证反馈的强化学习 (RL) 和**工具使用 **(例如调用网络搜索或执行 Python 代码) 。结合这两种策略,就能构建出强大的“LLM 智能体”,能够进行交互式推理、检索事实并执行计算。 ...
引言: 看见与听见的挑战 想象一下在电视上观看一场篮球比赛。你看到球员们运球、投篮,但你听到的是解说员的声音、观众的呐喊,或许还有运动鞋轻微的摩擦声。对机器而言,理解这样的场景是极其复杂的。视觉线索 (篮球、欢呼的球迷) 和主要的音频线索 (语音、欢呼声) 并不总是完美匹配。当视觉和声音讲述略有不同的故事时,人工智能如何学会关注正确的信号? ...
当你解决一个像数独这样的复杂谜题,或玩一局像国际象棋这样的策略游戏时,你的思维过程是怎样的?你很可能不会通过一个完美、线性的步骤序列找到解决方案。相反,你会提出假设、测试想法、遇到死胡同、回溯,然后完善策略。这个试验、犯错、纠正的循环——认知科学家称之为 反思性推理 (reflective reasoning) ——是人类智慧的标志,也是我们解决难题的方式。 ...
超越模仿: 早期经验如何让智能体从自身错误中学习 人工智能长期以来的梦想是创造一个能通过在世界中行动来学习的智能体——它可以不断试验、失败并改进,而无需人类持续指导。基于大语言模型 (LLMs) 的语言智能体是向这个梦想迈出的重要一步: 它们可以浏览网站、调用 API、串联工具,甚至协助科学工作流。然而,它们的训练仍然被困在两个极端之间。 ...
引言: AI 的记忆难题 想象一下,你让一个 AI 总结一部千页的小说,或分析一个庞大的代码库。要成功完成任务,它需要惊人的记忆力——能够在第 50 章某个角色再次出现时,回忆起其在第 1 章的首次亮相;或者理解第 200 行定义的函数如何与几千行后的另一个函数相关联。这正是长序列建模的挑战,也是现代人工智能中最棘手的问题之一。 ...
视频生成正以惊人的速度发展。我们已经从模糊的短片发展到能通过简单文本提示创作出令人惊叹的高清视频。许多现代模型能够将单张静态图像动画化,这项任务被称为 图像到视频 (I2V) ,为静态内容注入了动感。但如果你想要 更多 的控制权呢?如果你不仅想定义视频的开端,还希望指定中间的关键时刻以及你心中设想的结局呢? ...
你是否曾尝试让 AI 图像生成器创作出与你脑海中构想完全一致的图像?也许你想捕捉一位小众画家的独特艺术风格、一种复古织物的粗糙质感,或是一张你钟爱的照片中那精准的黄金时刻光线。你输入了详尽的提示,但文字总是无法完美传达微妙的差别。你心想: “要是我能直接给它看我指的东西就好了。” ...
如果你一直关注人工智能领域,你一定见证了从文本生成到根据简单提示创作惊艳图像的巨大飞跃。而下一个前沿领域始终是视频。尽管将文本转化为短视频片段的模型越来越常见,但它们常常显得像只会一招的“独门小马”。 ...
为化学反应找到完美的“配方”是化学领域持久的挑战之一。对于任何给定的从反应物到产物的转化,都可能存在无数种溶剂、催化剂、温度和试剂的组合。选择最佳组合对于成功至关重要,但通常需要大量的人工反复试验和深厚的专家直觉。这一瓶颈减缓了药物发现和材料合成等关键领域的进展。 ...
引言: AI推理中缺失的一环 人类拥有一种非凡的认知技能,称为元认知,即“思考自己的思考”。这是我们评估自身知识、判断问题难度并相应规划解决方法的能力。我们能凭直觉判断一道数学题是需要深入分析还是快速计算,或者何时应该查找资料而不是费力回忆。这种自我意识使我们的推理既高效又有效。 ...
引言: 长上下文革命及其隐藏的瓶颈 我们正处在长上下文语言模型 (LCLMs) 的时代。像 Claude、Gemini 和 GPT-4.1 这样的前沿模型如今可以处理长达数十万甚至数百万词元的提示。这项能力带来了巨大的机会: 过去,我们需要检索并给模型阅读少量相关文档;而现在,我们可以设想“直接把所有资料都塞进提示中”。例如,要回答一个关于 500 页法律合同的问题?直接将整份文件放入提示即可。对许多人而言,这似乎解决了检索增强生成 (RAG) 长久存在的弱点——在 RAG 中,一个有缺陷的检索步骤可能让整个过程功亏一篑。 ...
大型语言模型 (LLM) 在复杂推理方面已经变得异常娴熟,成功解决了竞赛级数学问题、逻辑谜题和复杂的编码任务。这一进步的核心驱动力之一是带可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) ——一种训练方法,解决方案会被自动检查,正确输出获得奖励,错误输出则遭受惩罚,从而形成强大的学习反馈循环。 ...
创建一个真实世界空间的精细、可交互的 3D 模型,一直是计算机视觉领域的终极目标。想象一下,用手机为你的公寓拍摄一段视频,就能即刻拥有一个可以在 VR 中漫步的逼真数字孪生——或者一个机器人利用同一段视频来构建精确的导航地图。这就是**即时三维重建 **(on-the-fly 3D reconstruction) 的前景,这项技术对 AR/VR、机器人和“真实到模拟” (real-to-sim) 内容创作至关重要。 ...
图无处不在。从连接你我的社交网络,到驱动搜索引擎的知识库,再到定义药物的分子结构——这些由节点和边构成的网络是我们表示复杂信息的基本方式。 多年来,像 图神经网络 (GNN) 这样的专用模型一直是分析图的首选工具。它们功能强大,却通常需要深厚的专业知识才能针对具体任务进行设计和调优,离用户友好还差得远。 ...
大语言模型 (LLM) 已经改变了我们与技术交互的方式,但它们存在一个关键弱点: 记忆。虽然它们能够处理并生成类似人类的文本,但在处理超长信息序列 (例如,一整本书、一份冗长的法律文件,或一个复杂的代码库) 时能力有限。这是因为主流架构 Transformer 面临一个根本性的权衡: 它要么保持完美、无损的记忆,但随着上下文增长会变得极其缓慢且昂贵;要么使用压缩的、固定大小的记忆,速度快但不可避免地遗失重要细节。 ...
训练超大型深度学习模型——尤其是拥有数十亿参数的大型语言模型 (LLM)——是一项艰巨的任务。其中最大的瓶颈之一不仅是计算量,还有所需的海量内存。这部分内存的很大一部分并非由模型权重本身消耗,而是由优化器的状态——即为高效更新模型而需要跟踪的额外数据——占用的。 ...
量化不确定性是构建真正可信赖人工智能系统的最大障碍之一。一个模型要可靠,就必须能够识别它所不知道的东西。无论是自动驾驶汽车遇到异常障碍物,还是医疗 AI 在分析罕见病症时,我们都希望模型可以回答“我不确定”,而不是给出一个自信却错误的预测。 ...