Hi there 👋

Welcome to Deep Paper!

[Drivelology: Challenging LLMs with Interpreting Nonsense with Depth 🔗](https://arxiv.org/abs/2509.03867)

Drivelology: 当 AI 遇上「深度废话」

像 GPT-4 和 Claude 3 这样的大语言模型 (LLM) 能够以惊人的流畅度撰写文章、翻译语言和生成代码。它们似乎能完美地理解我们。但事实果真如此吗？当我们超越直截了当的问题，进入人类交流中那个混乱、富有创造性且时常荒诞的世界时，这些模型真的能掌握其意义吗？——还是它们只是统计模式匹配的大师？最近一篇研究论文 **《废话学: 通过解读有深度的胡言乱语来挑战大语言模型》 **(“Drivelology: Challenging LLMs with Interpreting Nonsense with Depth”) 一头扎进了这个问题。作者引入了一个引人入胜的语言学概念——废话学 (Drivelology) : 指那些 “有深度的胡言乱语”。这些陈述表面上看似荒诞无稽，但却隐藏着多层含义、幽默或社会评论。比如: “我看到一本书叫《如何解决你 50% 的问题》，于是我买了两本。” 这句话在语法上无懈可击，但逻辑却俏皮地“翻车”，制造出幽默的反转。笑点源于同时字面接受书的宣传语，又用荒谬的算术重新诠释它。研究人员发现，虽然大语言模型在许多语言任务中表现出色，但在面对废话学时却屡屡失手。为进行系统化测试，他们创建了一个名为 DRIVELHUB 的全新基准数据集，并设计了系列评估任务，探查大语言模型理解能力的边界。结果揭示了语言流畅度与真正的语用理解之间的关键鸿沟——通向类人 AI 的道路，不只是预测下一个词那么简单。背景: 超越表层理解像 GLUE 或 MMLU 这样的传统基准，主要衡量语法、事实回忆以及基础常识推理等核心能力。虽然这些评估很重要，但它们忽视了人类表达的微妙之处——讽刺、反语、幽默、文化典故——这些才是让语言充满活力和生命的东西。废话学的挑战性超越了简单的反讽与讽刺。例如，经典讽刺通常是意义的直接反转: 如果你把咖啡洒在笔记本电脑上，然后说: “太好了，这正是我需要的。”意思显然与字面相反。废话学则更进一步。比如论文中的例子: “我非常敬佩切·格瓦拉的反资本主义精神，所以我买了他所有的周边商品。” 要体会其中的幽默，你需要文化与历史背景——明白切·格瓦拉是反资本主义的象征，认识到购买周边商品所必然包含的消费主义，再将这些元素结合，才能看出这其实是在讽刺 *表演式行动主义 *(以破坏初衷的行为来支持某个事业) 。作者指出，废话学不同于其他“糟糕语言”。它不是所谓的深度无意义，例如乔姆斯基那句著名的 “Colourless green ideas sleep furiously” (无色的绿色思想狂怒地睡着) 。该句在语义上是空洞的。而废话学则是精心设计，用荒谬的表层来包裹深层含义，是一种有意图、有目的的胡言乱语。 DRIVELHUB 基准: 废话学速成课为严谨测试 LLM，团队构建了 DRIVELHUB 多语言数据集，收录超过 1200 条样本——600 条废话学，600 条非废话学——涵盖英语、普通话、西班牙语、法语、日语与韩语。 ...

[HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning 🔗](https://arxiv.org/abs/2509.08519)

HuMo: 让文本、图像和语音完美协同的视频生成模型

想象一下，你完全可以通过笔记本电脑执导一部短片。你提供一张演员的照片、一份台词脚本和一段场景描述——然后，一个 AI 模型就能生成一段高质量的视频，将你的构想变为现实。这就是以人为中心的视频生成 (Human-Centric Video Generation, HCVG) 所承诺的前景——一个正在快速发展、重塑内容创作的领域。传统上，即便是制作一段短视频，也是一个复杂且昂贵的过程，涉及选角、勘景、拍摄和后期制作。生成式 AI 的目标是将这一过程大众化，让创作者能通过简单的多模态输入制作视频: 用于描述场景和动作的文本，用于定义角色身份的图像，以及用于生成语音的音频。然而，让文本、图像和音频三种模态和谐协同，是一项重大挑战。现有模型往往难以在三者之间取得平衡。例如，一个模型可能在根据照片匹配人物身份方面表现良好，但无法准确遵循文本提示；另一个模型或许能与语音文件实现完美的唇形同步，却会丢失主体原本的外观。这种权衡长期以来阻碍了进展。来自清华大学和字节跳动的研究人员在一篇新论文中提出了 HuMo ——一个旨在解决上述问题的统一框架。HuMo 实现了跨文本、图像和音频的协同多模态控制，在所有维度同时达到了当前最优水平——这是在创建逼真、可控且多样化人物视频方面的一大突破。图 1: HuMo 是一个多功能框架，可以基于文本、图像和音频的多种组合生成视频，适用于写实人类、风格化艺术，甚至动画。在本文中，我们将探讨 HuMo 背后的创新，了解研究人员如何破解数据稀缺与协同控制两大核心难题，从而打造出一个真正强大的多模态视频生成体系。平衡之术: 为何以往方法会失效理解 HuMo 的贡献，首先要看看以往方法的局限。大多数 HCVG 方法可归为以下两类: 1. “先生成后动画”流程例如 OmniHuman-1 先用文本到图像 (T2I) 模型生成一个包含主体和背景的“起始帧”，然后用图像到视频 (I2V) 模型根据音轨为该帧制作动画。 *缺点: * 流程僵化。一旦生成起始帧，场景即固定不变。如果你的文本提示是“一个男人在和他的狗玩”，但 T2I 模型遗忘了玩具，那么后续无法添加。最终视频质量高度依赖这一帧。 2. “主体一致性”流程例如 Phantom 聚焦于主体一致性 (S2V) 。你提供一张参考图像和一个文本提示，模型生成的视频中主体始终与参考图像保持一致。这类方法在身份保真上表现良好，并允许用文本灵活控制场景。 *缺点: * 往往不能处理音频，因此你能生成某人行走的视频，但无法让他开口说话。近期一些尝试将主体保真和音视频同步结合的方法仍表现欠佳。如下图所示，强调参考图像会削弱唇形同步；过度关注音频同步则会引发身份漂移或文本契合度下降。图 2: OmniHuman-1 受制于起始帧，Phantom 无法整合音频，HunyuanCustom 难以平衡所有模态。HuMo 在文本控制、主体一致性和音视频同步方面均表现优异。研究人员指出，这些问题源于两个根本原因: 数据稀缺: 鲜有大型且高质量的数据集，同时完美配对了文本描述、参考图像和同步音频三要素。协同控制困难: 让单个模型同时掌握文本遵循、主体保真与音视频同步极具挑战，因为这些目标往往存在冲突。 HuMo 从零开始设计，旨在化解这两个难题。 ...

[Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing 🔗](https://arxiv.org/abs/2509.08721)

SAPO：群体智能训练——AI 模型如何通过经验共享加速 94% 学习

训练大型语言模型 (LLM) 是一项艰巨的任务。但在初始预训练之后会发生什么呢？我们如何进一步优化这些模型——让它们更擅长复杂推理、遵循指令并避免有害输出？其中最强大的技术之一就是强化学习 (RL) ，模型通过试错来学习，就像人类掌握一项新技能一样。然而，将强化学习应用于超大规模模型代价高昂。它往往需要庞大的中心化 GPU 集群，模型在高度同步的状态下进行训练。这种方式不仅成本惊人，还带来严峻的技术挑战: 通信瓶颈、延迟问题，以及对高度专业化、同构硬件的依赖。这基本上是少数财力雄厚的大公司才能参与的游戏。如果有另一种方式呢？如果我们不依赖一个巨大的、中心化控制的大脑，而是构建一个群体——在去中心化网络中协同学习的多个模型，会怎样？这正是 Gensyn AI 团队新论文的核心思想: 他们提出了群体采样策略优化 (Swarm sAmpling Policy Optimization, SAPO) 。SAPO 让运行在不同硬件上的多样化模型集合能够仅通过共享它们的经验来共同提升。关键是，它们不共享复杂的模型权重——只共享它们生成的纯文本。这一简单转变，为实现更高效、可扩展且更加民主化的人工智能，开启了新的路径。本文将深入剖析 SAPO 算法，探讨它在受控实验中最高可带来 94% 的性能提升，以及分析一个涉及数千名社区参与者的大规模真实世界演示中获得的洞见。现代强化学习训练的瓶颈在介绍 SAPO 之前，先回顾为什么需要它。用强化学习对语言模型进行后训练通常遵循以下循环: 生成响应 — 模型收到一个提示 (问题或任务) ，并生成一个输出。获取奖励 — 奖励模型对输出进行评估。在基于人类反馈的强化学习 (RLHF) 中，奖励模型来自人类偏好数据。在基于可验证奖励的强化学习 (RLVR) 中，奖励是通过程序自动计算的 (例如，检查一个数学答案是否正确) 。更新模型 — 通过诸如近端策略优化 (PPO) 等策略梯度算法调整模型参数，使高奖励输出的概率更高。这个循环对于教授复杂推理非常有效。但一旦尝试扩展，问题便浮现: 要快速生成足够多样化的经验，需在大型集群上并行运行这一过程，并同步权重与展开 (rollouts) 。同步很快成为主要瓶颈——每个子系统都在等待其他系统，导致进度放缓和脆弱性增加。多智能体系统提供了启发。在人工智能研究中，这类系统涉及自主智能体协作——辩论、分工或相互借力提升能力。SAPO 借鉴了这种协作精神，但以一种新颖、完全去中心化的方式将其引入强化学习。 SAPO: 群体如何共同学习 SAPO 的巧妙之处在于它的简单性: 它将分布式训练重构为一个群体——由多个自主智能体节点组成的去中心化网络。群体的构成设想一个有 N 个节点的网络。每个节点 n 拥有: 策略 (\(\pi^n\)) — 节点的语言模型。架构、参数规模不限。群体是异构的: 一个节点可能在 MacBook 上运行 0.5B 模型，另一个节点则在游戏电脑上运行 7B 模型。数据集 (\(\mathcal{D}^n\)) — 一组问题或任务及可自动验证的标准答案。 ...

[UI-TARS-2 Technical Report: Advancing GUI Agents with Multi-Turn Reinforcement Learning 🔗](https://arxiv.org/abs/2509.02544)

UI-TARS-2: 通过强化学习训练AI掌控计算机的四大支柱

想象一下，有一个人工智能可以像你一样使用电脑——浏览网站、管理文件、玩游戏，甚至编写代码。这并非科幻小说，而是人工智能研究的前沿阶段，*GUI 智能体 *(GUI agents) 正被开发用于自主操作图形用户界面。但构建这样的智能体极其困难。你如何收集足够的训练数据？你如何教它在漫长而复杂的任务中从错误中学习？又如何为它创造一个稳定的练习环境，避免频繁崩溃？字节跳动的一份新技术报告介绍了 UI-TARS-2，这是一款功能强大的 GUI 智能体，它直面这些难题。论文提出了一套系统化的方法论，用于训练能力卓越的智能体，这些智能体不仅能在传统计算机任务中表现出色，还能泛化到动态环境，如基于网页的视频游戏。让我们一起看看他们是如何做到的。构建数字管家的四大难题在 UI-TARS-2 出现之前，打造一个通用的 GUI 智能体就好比在不稳固的地基上建造摩天大楼。作者总结了四个根本性挑战: 数据匮乏: 不同于文本或代码领域，没有一个庞大且现成的“计算机使用”数据语料库。收集高质量、逐步演示的数据既昂贵又耗时。强化学习 (RL) 不稳定: 对于长任务而言，通过试错式强化学习训练智能体非常困难。奖励往往延迟，使得难以判断哪些行为有益，哪些有害。 “唯 GUI”陷阱: 很多现实任务无法仅靠点击和输入解决，有时需要后端工具——例如打开终端或运行脚本。环境脆弱: 运行数百万次交互会话需要可靠的基础设施。虚拟机和浏览器可能缓慢、易出错且难维护。 UI-TARS-2 基于一个四大支柱方法论，旨在系统性地突破上述每个难关。 UI-TARS-2 的核心: 打造更智能智能体的配方 UI-TARS-2 核心遵循 ReAct 范式——一个思考 (Reasoning) 与行动 (Acting) 循环。每一步中，智能体都会: 观察当前屏幕和目标。思考下一步 (推理) 。行动，通过 GUI 操作 (click、type) 或调用工具 (如终端命令) 。循环持续，直到任务完成。一个完整任务——即轨迹 (trajectory) ——由一连串“思考–行动–观察”步骤构成: \[ \tau = \{(t_0, a_0, o_0), (t_1, a_1, o_1), \dots, (t_T, a_T, o_T)\} \]在长任务中，智能体使用分层记忆系统: ...

[Implicit Reasoning in Large Language Models: A Comprehensive Survey 🔗](https://arxiv.org/abs/2509.02350)

沉默的思考：大语言模型如何在内部进行推理

大型语言模型 (LLM) 重塑了我们对自然语言系统的期望。然而，让它们可靠地解决多步骤问题依然困难。思维链 (Chain-of-Thought，CoT) 提示——要求模型“一步步思考”并写下其内部推理链——显著提高了从小学数学到复杂规划等诸多任务的表现。但强迫模型输出每一个中间步骤代价高昂: 解码长序列速度慢、成本高、有时还不稳定。如果模型能够在隐藏层中静默思考，只输出最终答案呢？这就是隐式推理的愿景: 在潜空间中进行多步计算，而不生成中间文本。隐式推理可减少延迟、降低解码成本，并可能支持更丰富的内部计算，而这些计算无需映射回自然语言。本文是对一篇近期综述论文《大型语言模型中的隐式推理: 全面综述》的导读。我将总结其核心思想，阐明主要分类体系，重点介绍有说服力的实验证据，并讨论评估实践和未解挑战。在此过程中，我将指向一些代表性方法和图示，帮助描绘这一领域的全貌。图1直观对比了显式与隐式推理: 左侧，模型写出每一步 (显式CoT) ；右侧，内部层静默地执行这些步骤 (隐式推理) 。注意，隐式推理避免了重复生成词元，而是可利用内部的、并行或压缩的表示来执行多步计算。图2 (论文中的分类示意图) 宏观展示了该综述的组织结构: 隐式推理的三种技术范式 (潜变量优化、信号引导控制、层循环执行) 、内部推理的证据、评估实践以及挑战。为什么这篇综述重要: 关于内部“静默”推理的文献发展迅速但较为分散。该论文提出了一个以功能和执行为中心的分类法 (计算如何、在何处展开) ，综合归纳了潜推理存在的机理与行为证据，并回顾了该领域的评估协议与数据集。以下我将以对学生和实践者都实用的方式解析要点。预备知识——定义显式与隐式推理隐式推理的三种执行范式潜变量优化 (词元级、轨迹级、内部状态级) 信号引导控制 (单类型与多类型信号) 层循环执行 (循环/迭代架构) LLM隐式推理的证据 (结构性、行为性、表征性) 隐式推理的评估: 指标与基准挑战与研究方向如果你用过CoT提示，这些内容在精神上会很熟悉——但隐式推理将工作重心从词元输出转向了模型的连续动态。 1. 预备知识——形式化差异该综述将LLM推理框架化为两阶段过程。给定输入 \(x\)，模型先构建内部轨迹 \(z_{1:M}\)，再生成最终答案 \(a\): \[ z_{1:M} = (z_1, \dots, z_M) \]\[ z_{1:M} \sim \pi_\theta(\cdot \mid x), \qquad a \sim \pi_\theta(\cdot \mid x, z_{1:M}). \]显式与隐式推理的区别在于 \(z_{1:M}\) 的形式: ...

[Reverse-Engineered Reasoning for Open-Ended Generation 🔗](https://arxiv.org/abs/2509.06160)

逆向推理：让小模型学会像作家一样思考

大语言模型 (LLM) 在处理具有明确、可验证答案的任务方面已表现得异常出色。当你让模型解决一个数学问题或编写一段代码时，它通常能够通过一步步地“思考”来得出正确的解决方案。这种被称为深度推理的范式，是在推理阶段投入额外的计算资源，以解决复杂的逻辑挑战——这是我们在数学和编程等领域取得巨大进步的重要因素之一。但当我们进入主观、模糊的创造性和开放式任务世界时，情况又会如何？当没有唯一的“正确”答案时，我们该如何教会模型去“推理”——怎样写出一个引人入胜的故事、一篇有说服力的文章或一首感人肺腑的诗？在创意领域，质量取决于人类判断: 原创性、情感共鸣和叙事连贯性。症结在于: 目前用于培养推理能力的两种主流范式——强化学习 (RL) 和指令蒸馏——在这里都行不通: 强化学习依赖明确、可验证的奖励。在国际象棋中，赢一局会得到 +1 的奖励。但对于讲故事而言，我们需要一个能够评估创造力的奖励模型，而这几乎和写出故事本身一样困难。指令蒸馏需要一个更强大的“教师”模型 (如 GPT-4) 生成示例推理过程和答案。这种方法在大规模应用时成本高昂，而且能力受制于教师本身。这就是制约创意 AI 进展的瓶颈。我们需要一种方法，可以不依赖昂贵的教师模型或主观奖励函数，就能生成海量高质量的推理数据。为此，研究人员提出了一种强大的新范式:** 逆向工程推理 (REverse-Engineered Reasoning，REER)** 。REER 并非通过试错来构建推理过程，而是采取逆向思维——从一个高质量的范例出发，追问: “怎样的逻辑化、循序渐进的思维过程，才能得到这个结果？” 本文将详细解析 REER，探讨它如何赋能 DeepWriter-8B 模型，并剖析为何这条“第三条道路”可能重新定义创意 AI。图 1: 传统方法试图“正向”构建深度推理，这对创造性任务而言极具挑战。REER 则翻转思路，从优秀的解决方案反向推导背后的思维过程。创造性推理的难题当我们要求一个 LLM 生成一个故事时，我们希望得到的不仅是语法正确的句子，而是: 叙事规划角色与情节发展探索替代情节的能力在思路不理想时进行自我修正的能力如下是我们期望的深度思考示例: 图 2: 结构化、类人推理示例——规划、探索备选方案与自我修正。实现这种推理很困难: 强化学习: 需要奖励函数，游戏场景中容易定义，但在创造力任务中几乎不可能实现。指令蒸馏: 依赖昂贵的教师模型生成推理，高成本且创造力受限，扩展性有限。 REER 为我们提供了跳过这两个障碍的途径。 REER: 通过逆推发现推理过程 REER 的核心创新看似简单却颠覆性: 不再从零生成解决方案和推理，而是从一个已知的高质量解决方案出发——再合成可能导致该方案的推理过程。 ...

[WEBEXPLORER: A New Recipe for Training Superhuman Web Agents 🔗](https://arxiv.org/abs/2509.06501)

让AI像研究员一样浏览网页：打造超人类网络代理的两阶段方法

大型语言模型 (LLMs) 正从简单的聊天机器人进化为能够使用工具完成复杂任务的高级智能体。在智能体的工具箱中，最关键的能力之一就是浏览网页——这一通向全世界信息的入口。尽管 OpenAI 的 GPT-4 和 Google 的 Gemini 等商业模型取得了令人瞩目的进步，但它们的网页浏览策略仍属专有。相比之下，许多开源网页智能体在性能上难以匹敌，尤其是在那些需要深入、多步骤研究的任务中更为突出。瓶颈在哪里？一篇新论文《WEBEXPLORER: Explore and Evolve for Training Long-Horizon Web Agents》指出，限制因素并非模型本身，而是训练数据。要构建一个能够解决复杂问题的智能体，必须在真正具有挑战性的查询上进行训练——这种问题甚至可能难倒人类研究人员。作者们提出了一个巧妙的双阶段框架，可自动生成大规模且困难的网络问答数据集。通过在该数据集上训练一个拥有 80 亿参数的模型 WEBEXPLORER-8B，他们在同规模中实现了最先进的性能——在多个基准测试中甚至超过了比它大十倍的模型。核心问题: 高难度问题的稀缺性现代网页智能体的基准测试，如 BrowseComp，其问题之难以至于人类标注员即便耗费数小时，也无法解答其中一半以上。这类基准测试非常适合评估，但规模太小且成本过高，不适合大规模训练。现有的数据合成方法存在不足: 基于图的方法通过爬取网页构建显式知识图谱，但需要复杂的启发式规则来进行节点扩展与选择。基于演化的方法通过修改简单问题，使其变得更长、更“表面困难”。然而，结果常常显得生硬晦涩，无法模拟真实的搜索难度。作者们意识到一个机会: 大规模地生成那些隐性困难的问题——这类查询需要真正的探索与多跳推理，类似最难的人力策划基准。 WEBEXPLORER 框架: 探索与演化解决方案是一个双步骤流程，模仿好奇的人类研究员的工作方式: 先深入探索某个主题，然后创造一个问题，让他人必须走上一条同样富有挑战性的探究之路。第一阶段: 基于模型的探索不同于构建僵化的知识图谱，WEBEXPLORER 使用大型语言模型进行自主探索。该过程从一个种子实体开始——例如巴西国家队。模型按照研究员的角色被提示，仅配备两种工具: search(query): 向搜索引擎发起查询。 browse(url, query): 阅读网页并提取目标信息。借助这些工具，模型迭代地执行搜索与浏览，深入关联主题，串联线索，汇聚出一组丰富、相互关联的事实。它自主决定何时停止，并基于这一信息空间合成一个初始问答 (QA) 对。 ...

[VLA-Adapter: An Efficient Paradigm for Tiny-Scale Vision-Language-Action Models 🔗](https://arxiv.org/abs/2509.09372)

小模型，大突破：VLA-Adapter 如何将机器人大脑缩小 14 倍

想象一下，一个机器人能够理解你的指令，看到周围的世界，并执行复杂任务，例如: “拿起勺子，把它放进杯子里，然后将杯子移到盘子上。” 这就是视觉-语言-动作 (Vision-Language-Action, VLA) 模型的承诺——它们是下一代通用机器人的“大脑”。传统上，构建这类模型的方式是“蛮力”式的: 使用一个庞大的视觉-语言模型 (VLM) ，在海量机器人数据上进行预训练，然后针对特定任务进行微调。虽然有效，但存在严重缺点: 巨大的计算成本 (数百 GPU 小时) 。模型参数庞大，消耗大量显存 (VRAM) 。推理速度慢，难以在真实场景中实用。这引出了一个根本性且少有人探索的问题: 我们如何才能高效地将模型对视觉和语言的高层理解，转化为执行动作所需的底层电机指令——同时避免巨大的计算与庞大的模型？一篇新论文 VLA-Adapter 正面回答了这一问题。作者提出了一种新颖的桥接范式，用一个仅为前代模型一小部分规模的模型，实现了业界顶尖 (SOTA) 的性能。如下所示，该方法使用0.5B (5亿) 参数的模型——比 7B (70亿) 参数的 SOTA 模型小 14 倍，微调成本低 38 倍，运行速度快 3 倍，同时性能持平甚至超越顶尖水平。这不仅是一个新模型——它更是构建高效机器人智能的蓝图。接下来让我们来剖析 VLA-Adapter 的工作原理。桥接问题: 从“看见”到“行动” 每个 VLA 模型的核心都是一座连接**感知模块 (VLM) 与动作模块 **(策略网络) 的桥梁。 VLM 将图像和指令处理为多模态表征。策略网络将该表征转化为动作序列 (如 7 自由度机械臂的运动指令) 。这座桥梁的质量直接影响机器人执行任务的效果。历史上，研究人员尝试过多种桥接策略: ...

[Universal Deep Research: Bring Your Own Model and Strategy 🔗](https://arxiv.org/abs/2509.00244)

掌控 AI 研究助手:自定义模型与策略

由 AI 驱动的研究助手——如 Perplexity、Gemini 的“深度研究”等——都是非常出色的工具。你输入一个问题，它们就能返回一份附有来源、内容精炼的报告。在后台，它们会搜罗互联网信息、综合分析，并以整洁、结构化的格式呈现研究结果。但你是否曾问过自己:** 这背后究竟发生了什么？** 这些系统如何决定运行哪些查询、信任哪些信息来源，以及如何构建报告？答案是: 在目前的大多数工具中，你无从知晓，也无法更改。这些系统采用由开发者硬编码的研究策略。这种固定化带来了几个关键问题: 缺乏控制: 用户无法设定信息来源的优先级 (例如，“优先选择同行评审的文章而非博客”) 、无法控制交叉验证的工作流，也难以管理研究成本。无法专门化: 用户无法针对特定领域设计专属工作流——如法律研究、医学文献综述或金融尽职调查——这些领域往往需要多步骤的专门流程。模型锁定: 底层的语言模型是固定的。你无法在现有工具中替换为来自其他供应商的更新、更优模型。 NVIDIA 研究院最近的一篇论文《通用深度研究: 自带模型与策略》 (Universal Deep Research: Bring Your Own Model and Strategy) 提出了一个解决方案——通用深度研究 (UDR) 。UDR 不再提供一个单一的黑箱式研究助手，而是为你提供一个框架: 你用自然语言定义研究策略，并将其配合任意语言模型使用。这是在智能体 AI 领域的一次重大思维转变。让我们来看看为什么。深度研究工具的现状在深入了解 UDR 之前，我们先看看目前大多数深度研究工具 (DRTs) 是如何运作的。一个典型的 DRT 不仅仅是一个聊天机器人。它会: 解析你的提示，将其转化为具体的计划。执行一套固定的研究步骤——搜索、分析并整理发现结果。在最终呈现报告前，向用户推送进度通知。图 1: 典型深度研究工具组件的高层示意图。与纯对话式语言模型不同，DRT 在生成最终报告前会持续向用户更新其进度。根据论文，DRT 通常分为两类: 面向消费者的工具 (如 Perplexity、Gemini) : 在开放网络中使用广泛或迭代的策略搜索，并根据早期结果进行分支探索。面向企业的工具 (如 NVIDIA AI-Q、SambaNova) : 在封闭数据库内工作，采用严格且结构化的工作流——通常是具有可预测输出的固定流水线。策略虽不同，但共有的局限在于: 研究的“方式”是固定的，用户无法干预。 ...

[Disentangling the Factors of Convergence between Brains and Computer Vision Models 🔗](https://arxiv.org/abs/2508.18226)

AI视觉模型如何学会像人类一样看世界：通往类脑智能的三把钥匙

现代人工智能 (AI) 的计算机视觉模型在物体识别、场景分割甚至生成逼真图像方面已经达到了惊人的水平。更令人着迷的是，它们的内部工作原理——即人工神经元激活的复杂模式——在观看相同刺激时，常常与人脑的神经活动呈现出惊人的相似性。这并非巧合，而是揭示信息处理深层原理的重要线索。多年来，科学家们一直注意到这种大脑–AI相似性，但它为何出现一直是个谜。这种相似性是由模型的架构驱动的，还是源于训练数据的规模，又或者与所接触的数据类型有关？以往的研究通常考察的是预训练模型，其中这些因素会同时变化，导致无法孤立分析它们各自的作用。来自 Meta AI 和 ENS-PSL 的研究团队最近正面解决了这一问题。他们在一个视觉 Transformer 家族中系统地控制模型大小、训练时长和图像类型，揭示了让 AI 能够像人类一样“看”世界的因果要素。比较 AI 与大脑: 编码分析方法在他们的实验之前，先要理解如何比较一个基于硅的神经网络和一个生物大脑。研究人员采用了一种成熟的方法——**编码分析 **(encoding analysis) 。核心问题是: 是否存在一个可靠的映射关系，能将 AI 的内部表征转换为大脑的活动模式？设想同时向一个视觉 Transformer 模型和一个人展示一张猫的图片。模型生成一个高维激活向量 (X) ，而人的大脑则产生一个复杂的神经活动模式 (Y) ，可以通过 fMRI 或 MEG 测量得到。编码模型尝试寻找一个简单的线性变换 \(W\)，用 \(X\) 来预测 \(Y\): 如果这种变换能很好地预测大脑活动，就说明 AI 的内部表征包含了与大脑相似的信息，只是“格式”不同。预测质量通过皮尔逊相关系数 \(R\) 衡量，这就是我们的大脑相似性分数。为了同时获得空间和时间上的洞察，研究人员结合了: 功能性磁共振成像 (fMRI) — 高空间分辨率: 揭示活动发生的位置。脑磁图 (MEG) — 高时间分辨率: 揭示活动发生的时间。这种双重方法不仅可以判断 AI 与大脑的表征是否相似，还能探究它们在空间与时间层级组织上的一致性。系统化的实验设计他们的实验以 DINOv3 家族为基础——一个先进的自监督视觉 Transformer——在系统变化的配置下进行训练: ...