[rStar2-Agent: Agentic Reasoning Technical Report 🔗](https://arxiv.org/abs/2508.20722)

rStar2-Agent: 教会 AI 更聪明地思考,而非更冗长地推理

在追求更智能 AI 的过程中,我们常常将 思考 等同于生成更长、更详细的思维链。主流观点是: 如果一个模型“思考得更久”,它最终就会得出正确答案。这种方法促进了显著的进步,但它存在一个根本性的上限。 ...

2025-08 · 5 分钟 · 2262 字
[Visual Story-Writing: Writing by Manipulating Visual Representations of Stories 🔗](https://arxiv.org/abs/2410.07486)

可视化故事写作:通过操作交互式故事地图来编辑叙事

创意写作就像一场杂耍。作者必须管理由角色发展线、情节要点、地点和时间线构成的复杂网络。在所有这些相互关联的元素之间保持一致是一项艰巨的任务——尤其是在尝试新想法时。一个看似微小的改动,比如将角色移动到不同地点,就可能引发一连串的连锁修改,迫使作者逐一查找每个相关句子以维持叙事的连贯性。 ...

2024-10 · 6 分钟 · 2666 字
[Universal Deep Research: Bring Your Own Model and Strategy 🔗](https://arxiv.org/abs/2509.00244)

掌控 AI 研究助手:自定义模型与策略

由 AI 驱动的研究助手——如 Perplexity、Gemini 的“深度研究”等——都是非常出色的工具。你输入一个问题,它们就能返回一份附有来源、内容精炼的报告。在后台,它们会搜罗互联网信息、综合分析,并以整洁、结构化的格式呈现研究结果。 ...

2025-09 · 5 分钟 · 2354 字
[Disentangling the Factors of Convergence between Brains and Computer Vision Models 🔗](https://arxiv.org/abs/2508.18226)

AI视觉模型如何学会像人类一样看世界:通往类脑智能的三把钥匙

现代人工智能 (AI) 的计算机视觉模型在物体识别、场景分割甚至生成逼真图像方面已经达到了惊人的水平。更令人着迷的是,它们的内部工作原理——即人工神经元激活的复杂模式——在观看相同刺激时,常常与人脑的神经活动呈现出惊人的相似性。这并非巧合,而是揭示信息处理深层原理的重要线索。 ...

2025-08 · 5 分钟 · 2188 字
[Neural Turing Machines 🔗](https://arxiv.org/abs/1410.5401)

教神经网络像计算机一样思考:神经图灵机

几十年来,神经网络已被证明是卓越的模式识别机器。它们可以分类图像、翻译语言,甚至生成富有创意的文本。然而,它们在历史上一直难以处理一些对于计算机科学专业一年级新生来说都轻而易举的任务——比如复制一个数据序列、对列表进行排序或执行关联回忆。 ...

2014-10 · 5 分钟 · 2194 字
[Drivelology: Challenging LLMs with Interpreting Nonsense with Depth 🔗](https://arxiv.org/abs/2509.03867)

Drivelology: 当 AI 遇上「深度废话」

像 GPT-4 和 Claude 3 这样的大语言模型 (LLM) 能够以惊人的流畅度撰写文章、翻译语言和生成代码。它们似乎能完美地理解我们。 但事实果真如此吗? 当我们超越直截了当的问题,进入人类交流中那个混乱、富有创造性且时常荒诞的世界时,这些模型真的能掌握其意义吗?——还是它们只是统计模式匹配的大师? ...

2025-09 · 6 分钟 · 2728 字
[UI-TARS-2 Technical Report: Advancing GUI Agents with Multi-Turn Reinforcement Learning 🔗](https://arxiv.org/abs/2509.02544)

UI-TARS-2: 通过强化学习训练AI掌控计算机的四大支柱

想象一下,有一个人工智能可以像你一样使用电脑——浏览网站、管理文件、玩游戏,甚至编写代码。这并非科幻小说,而是人工智能研究的前沿阶段,*GUI 智能体 *(GUI agents) 正被开发用于自主操作图形用户界面。 ...

2025-09 · 5 分钟 · 2377 字

为什么AI会一本正经地胡说八道:语言模型幻觉背后的数学原理

你很可能见过这种情况: 你问一个大型语言模型 (LLM) 一个简单的事实性问题,它自信地给出了一个看似合理、细节详尽——但完全错误的答案。 这种行为被称为**幻觉 **(hallucination) ,是当今信任和依赖 AI 系统的最大障碍之一。这很像你在考试时问学生一道难题: 他们不是承认不知道,而是试图用一个看似精良但捏造的答案蒙混过关,以期获得部分分数。 ...

6 分钟 · 2769 字