](https://deep-paper.org/en/paper/2510.04871/images/cover.png)
少即是多:微型递归网络如何在复杂谜题上超越巨型 AI 模型
像 GPT-4 和 Gemini 这样的大型语言模型 (LLMs) 是计算领域的巨擘,能够编写代码、创作诗歌并回答各种各样的问题。但尽管它们功能强大,却有一个致命弱点: 复杂的多步推理谜题。像解决棘手的数独或破译 ARC-AGI 基准测试中的抽象模式这样的任务,即使是最先进的 LLM 也可能出错。它们自回归、逐个 token 的生成过程意味着一个错误就可能导致整个解答脱轨,并且没有简单的方法可以回溯和修正。 ...
像 GPT-4 和 Gemini 这样的大型语言模型 (LLMs) 是计算领域的巨擘,能够编写代码、创作诗歌并回答各种各样的问题。但尽管它们功能强大,却有一个致命弱点: 复杂的多步推理谜题。像解决棘手的数独或破译 ARC-AGI 基准测试中的抽象模式这样的任务,即使是最先进的 LLM 也可能出错。它们自回归、逐个 token 的生成过程意味着一个错误就可能导致整个解答脱轨,并且没有简单的方法可以回溯和修正。 ...
在计算机视觉领域,卷积神经网络 (CNN) 多年来一直是无可争议的王者。只要给 CNN 足够多的猫狗标注图片,它就能以超人的准确度将它们区分开来。这就是监督学习,它为现代 AI 应用从照片标记到医学影像提供了强大驱动力。 ...
在过去十年中,人工智能以能够从零生成逼真图像、音频和文本的深度生成模型令世界惊叹。我们见证了生成对抗网络 (GANs) 生成栩栩如生的人像,也看到了变分自编码器 (VAEs) 学习到丰富的潜在表示。但在 2020 年,一篇来自加州大学伯克利分校研究人员的论文 *Denoising Diffusion Probabilistic Models *(去噪扩散概率模型) 改变了这一领域的格局。 ...
大型语言模型 (LLM) 正在突破聊天机器人的限制。我们越来越多地看到它们为自主智能体提供支持,这些智能体可以与软件交互、玩游戏、浏览网页以完成复杂目标。但有个问题: 当这些智能体犯错时,它们如何学会不再重蹈覆辙? ...
强化学习 (RL) 已经让我们拥有了能够精通复杂视频游戏、控制模拟机器人,甚至抓取现实世界物体的智能体。然而,一个长期困扰该领域的问题是: RL 是出了名的数据饥渴。 ...
如果你能像完成一句话那样去解决一个复杂的强化学习问题,会怎么样?这正是 Decision Transformer 背后激进而强大的思想——一篇重塑了整个序列决策领域的论文。数十年来,强化学习 (RL) 一直由学习价值函数和策略梯度的算法主导,这些算法常常要应对时间信用分配、自举不稳定性以及折扣因子等复杂问题。但如果我们能绕开这一切呢? ...
过去十年向我们展示了大型数据集的惊人力量。从 ImageNet 引发计算机视觉革命,到海量文本语料库催生出 GPT 这样的模型,事实显而易见: 数据是现代机器学习的命脉。然而,最激动人心的领域之一——强化学习 (RL) ——在很大程度上一直被排除在这种数据驱动的范式之外。 ...
想象一下,我们正在训练一个机器人来做饭。在强化学习 (RL) 中,传统的方法是试错法。机器人可能会尝试捡起一个鸡蛋——有时成功,有时失手摔落弄得一团糟。经过数千次尝试,它最终学会了。但如果我们已经拥有一个人类厨师做饭的海量数据集呢?机器人能否仅仅通过观察就学会,而无需自己打碎任何一个鸡蛋? ...
2020 年 3 月,《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》这篇论文提出了一个看似简单却影响深远的想法,重塑了我们对 3D 场景表示的认知。仅凭一组带有位姿的二维照片,一个紧凑的神经网络便能学习出连续且视图一致的场景外观与几何模型,并能合成具有照片真实感的新视角图像。在接下来的五年里,NeRF 激发了大量后续研究: 更快的训练速度、更优的几何表现、更稳健的稀疏视图方法、生成式 3D 合成,以及面向城市场景、虚拟人 (human avatar) 与 SLAM 的应用系统。 ...
自动驾驶汽车要在我们这个混乱的世界中穿行,仅有 GPS 和规则是远远不够的——它必须能够看到并理解其周围环境的丰富三维细节。除了检测汽车和行人,它还应该能识别出它们所占据的空间、地形的轮廓、人行道的位置以及头顶的树冠。这就是三维语义占据预测 (3D Semantic Occupancy Prediction) 的核心: 构建一个完整的、带标签的三维环境地图。 ...
图 1: TRELLIS 根据文本或图像提示生成的多种格式的高质量 3D 资产。展示了其多功能的生成能力、通过 3D 高斯或辐射场实现的生动外观、通过网格实现的精细几何形状以及灵活的编辑功能。 ...
图 1: 即使在极端视角变化下,MASt3R 也能预测出密集的像素对应关系,从而实现精确的相机标定、姿态估计和三维重建。 ...
为游戏、虚拟现实和电影创作 3D 内容一直以来都是一个劳动密集型的过程,需要技艺精湛的艺术家投入大量时间进行细致的工作。 但如果你只需一张图片或一行文字,就能在几秒钟内生成一个细节丰富的 3D 模型,那会怎样呢?这正是生成式 AI 在 3D 领域的承诺——一个正在飞速发展并经历爆炸性增长的领域。 ...
从照片到三维模型: 一条更简单的路径 从一组普通照片创建精细的三维模型,一直被认为是计算机视觉领域的终极目标之一。几十年来,标准方法是一个复杂的多阶段流水线: 首先通过 运动恢复结构 (Structure-from-Motion, SfM) 估计相机参数和稀疏几何,然后通过 多视图立体匹配 (Multi-View Stereo, MVS) 生成稠密的表面模型。 ...
当你看一张汽车的照片时,你看到的不仅仅是像素构成的二维平面。你的大脑会利用一生积累的经验,瞬间构建出一个三维物体的心理模型。你可以毫不费力地想象出这辆车从侧面、背面或上方的样子,即使你以前从未见过这个特定型号。 ...
在计算机视觉领域,很少有算法能像YOLO (You Only Look Once) 那样产生如此重大而深远的影响。从帮助自动驾驶汽车感知周围世界,到为自动化结账系统提供支持,实时目标检测已成为现代人工智能的基石。而这场革命的核心就是YOLO——一个因其在速度和准确性之间取得惊人平衡而备受赞誉的模型家族。 ...
多模态大语言模型 (MLLM) 正在重塑我们与人工智能的交互方式。像 LLaVA 这样的模型能够观察一幅图像并就其内容展开对话——这结合了计算机视觉的“看”的能力与大语言模型 (LLM) 的推理能力。它们就像高性能跑车: 在赛道上表现惊人,但消耗的燃料——在这里指计算资源——速度也同样惊人。 ...
大型语言模型 (LLM) 的能力正变得越来越强大,尤其是一类被称为大型推理模型 (LRM) 的新型模型。这些模型不仅仅是直接给出答案——它们会在得出结论前,通过生成一步一步的思维链 (CoT) 来进行思考。这种反思性的推理能力让它们能够以卓越的成果解决数学、编程等领域的复杂问题。 ...
在人工智能的世界里,一场持续的军备竞赛正在上演。科技巨头们正在构建拥有数千亿甚至数万亿参数的、规模空前庞大的模型,不断拓展着可能性的边界。但这种对规模的无情追求是有代价的——确切意义上的高昂代价。这些庞然大物般的模型需要巨大的计算能力,使得它们的训练和部署成本极高,并且往往被锁定在专有 API 背后。 ...
Transformer 为我们带来了改变一切的大语言模型。它们功能强大,可进行大规模训练,并且在实践中极为高效。然而,它们在某种程度上仍然是一个谜: 密集的张量、批量归一化的堆栈和注意力矩阵是出色的工程抽象,但它们与人脑中大规模并行、局部交互的神经元和突触网络并不太相似。 ...