Papers

[You Only Look Once: Unified, Real-Time Object Detection 🔗](https://arxiv.org/abs/1506.02640)

YOLO: 一眼识别世界的实时目标检测革命

当你瞥一眼图片时，你会立即识别出其中的物体。你可以区分狗和自行车，识别出多个人，并理解他们在场景中的位置。这种能力对人类来说轻而易举，但对计算机而言，却在历史上一直是一项巨大的挑战。这项被称为目标检测的任务是计算机视觉的基石，它解锁了从自动驾驶汽车到辅助技术和机器人等各种能力。 ...

从未见过画作的AI，如何学会艺术创作？

生成式 AI 的崛起可谓惊人而迅猛。像 Stable Diffusion、Midjourney 和 DALL·E 这样的模型，可以根据简单的文本提示生成令人叹为观止的图像，以前所未有的方式将艺术创作大众化。但这场革命背后也有争议: 这些强大的模型通常是在未经原创艺术家明确同意的情况下，使用从互联网上收集的海量数据集进行训练的。这种做法引发了关于版权、所有权以及创造本质的激烈辩论。 ...

[CoProSketch: Controllable and Progressive Sketch Generation with Diffusion Models 🔗](https://arxiv.org/abs/2504.08259)

CoProSketch: 终于有了可以编辑的AI草图生成器

线稿是视觉艺术的灵魂。在艺术家投入绘制一幅完整的渲染画作之前，他们会先画一幅线条稿——这是一张捕捉最终作品核心结构、布局和比例的蓝图。这个过程直观而高效，因为编辑线稿远比在一幅完成的彩色图像上进行像素级精细调整要容易得多。 ...

[LoRA: Low-Rank Adaptation of Large Language Models 🔗](https://arxiv.org/abs/2106.09685)

LoRA：用万分之一的参数，微调超大语言模型

自然语言处理 (NLP) 的世界已经被像 GPT-3 这样的大型预训练语言模型彻底改变。这些在海量互联网数据上训练出的庞大模型，开箱即用便能执行一系列惊人的任务。但要为特定应用——无论是客服聊天机器人、法律文档摘要器，还是代码生成器——释放它们的全部潜力，我们需要对它们进行调整。这个过程被称为**微调 **(fine-tuning) 。 ...

[Adam: A Method for Stochastic Optimization 🔗](https://arxiv.org/abs/1412.6980)

Adam优化器深度解析：现代深度学习的秘密武器

如果你曾经训练过深度学习模型，那么你几乎肯定遇到过 Adam 优化器。自 2014 年问世以来，它已成为训练神经网络最流行——且常常是默认——的优化算法之一。但 Adam 究竟是什么？它是如何工作的？为什么它如此高效？ ...

[HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning 🔗](https://arxiv.org/abs/2509.08519)

HuMo: 让文本、图像和语音完美协同的视频生成模型

想象一下，你完全可以通过笔记本电脑执导一部短片。你提供一张演员的照片、一份台词脚本和一段场景描述——然后，一个 AI 模型就能生成一段高质量的视频，将你的构想变为现实。这就是以人为中心的视频生成 (Human-Centric Video Generation, HCVG) 所承诺的前景——一个正在快速发展、重塑内容创作的领域。 ...

[VLA-Adapter: An Efficient Paradigm for Tiny-Scale Vision-Language-Action Models 🔗](https://arxiv.org/abs/2509.09372)

小模型，大突破：VLA-Adapter 如何将机器人大脑缩小 14 倍

想象一下，一个机器人能够理解你的指令，看到周围的世界，并执行复杂任务，例如: “拿起勺子，把它放进杯子里，然后将杯子移到盘子上。” 这就是视觉-语言-动作 (Vision-Language-Action, VLA) 模型的承诺——它们是下一代通用机器人的“大脑”。 ...

[Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing 🔗](https://arxiv.org/abs/2509.08721)

SAPO：群体智能训练——AI 模型如何通过经验共享加速 94% 学习

训练大型语言模型 (LLM) 是一项艰巨的任务。但在初始预训练之后会发生什么呢？我们如何进一步优化这些模型——让它们更擅长复杂推理、遵循指令并避免有害输出？其中最强大的技术之一就是强化学习 (RL) ，模型通过试错来学习，就像人类掌握一项新技能一样。 ...

原子级舞蹈：合金元素如何掌控钢铁最强相变

从汽车底盘到摩天大楼的骨架，钢铁是现代世界中默默无闻的英雄。但并非所有钢铁都生而平等。对更强、更具延展性材料的追求，推动了先进高强度钢 (Advanced High-Strength Steels, AHSSs) 的发展。其卓越性能的秘密，通常在于一种微观层面、闪电般快速的重排过程，即马氏体相变 (Martensitic Transformation, MT)。 ...

AlphaFold：AI如何破解生物学50年的蛋白质折叠难题

50 多年来，科学家们一直在攻克生物学中最宏大的挑战之一:** 蛋白质折叠问题**。蛋白质是生命的微观“劳动力”，从消化食物到抵御病毒几乎无所不包。它们的功能由其精妙复杂的三维结构所决定。 ...

寻找完美分类边界的算法：支持向量机详解

在机器学习的世界里，分类是一项基本任务。从识别垃圾邮件到根据医学影像诊断疾病，我们一直在设法教会计算机如何区分不同的类别。几十年来，研究人员为此开发了一系列算法——从简单的线性模型到多层神经网络。 ...

让神经网络学会学习的算法：反向传播的1986年突破

在人工智能的历史中，有少数几个关键思想如同催化剂般，彻底改变了整个领域，并开辟了全新的可能性。1986 年，David Rumelhart、Geoffrey Hinton 和 Ronald Williams 发表的论文《通过反向传播误差学习表征》 (Learning Representations by Back-Propagating Errors) ，正是这样一项突破。 ...

ReLU如何改变深度学习：从max(0,x)说起

在深度学习的历史长河中，有些论文标志着一个转折点——一个看似简单的想法，却开启了性能和认知的新高度。由 Xavier Glorot、Antoine Bordes 和 Yoshua Bengio 于 2011 年发表的《Deep Sparse Rectifier Neural Networks》正是这样一篇工作。在此之前，训练深度神经网络是出了名的困难过程，往往需要复杂、多阶段的无监督预训练才能获得良好的效果。 ...

[WEBEXPLORER: A New Recipe for Training Superhuman Web Agents 🔗](https://arxiv.org/abs/2509.06501)

让AI像研究员一样浏览网页：打造超人类网络代理的两阶段方法

大型语言模型 (LLMs) 正从简单的聊天机器人进化为能够使用工具完成复杂任务的高级智能体。在智能体的工具箱中，最关键的能力之一就是浏览网页——这一通向全世界信息的入口。 ...

[Reverse-Engineered Reasoning for Open-Ended Generation 🔗](https://arxiv.org/abs/2509.06160)

逆向推理：让小模型学会像作家一样思考

大语言模型 (LLM) 在处理具有明确、可验证答案的任务方面已表现得异常出色。当你让模型解决一个数学问题或编写一段代码时，它通常能够通过一步步地“思考”来得出正确的解决方案。这种被称为深度推理的范式，是在推理阶段投入额外的计算资源，以解决复杂的逻辑挑战——这是我们在数学和编程等领域取得巨大进步的重要因素之一。 ...

[Implicit Reasoning in Large Language Models: A Comprehensive Survey 🔗](https://arxiv.org/abs/2509.02350)

沉默的思考：大语言模型如何在内部进行推理

大型语言模型 (LLM) 重塑了我们对自然语言系统的期望。然而，让它们可靠地解决多步骤问题依然困难。思维链 (Chain-of-Thought，CoT) 提示——要求模型“一步步思考”并写下其内部推理链——显著提高了从小学数学到复杂规划等诸多任务的表现。但强迫模型输出每一个中间步骤代价高昂: 解码长序列速度慢、成本高、有时还不稳定。 ...

[Adaptive LLM Routing under Budget Constraints 🔗](https://arxiv.org/abs/2508.21141)

PILOT：既会学习又省钱的智能大模型路由

大型语言模型 (LLM) 的世界面临一个经典的权衡:** 性能与成本**。一方面，有像 GPT-4 这样最先进的模型，它们在复杂推理、高级编程和细致对话方面表现出色。另一方面，也有一些更小、开源的模型，运行成本低得多，但在应对高要求任务时往往表现不佳。 ...

[On the Theoretical Limitations of Embedding-Based Retrieval 🔗](https://arxiv.org/abs/2508.21038)

搜索的数学极限：为什么完美的AI也无法检索一切

向量嵌入已经彻底改变了信息检索领域。从驱动 Google 搜索到在亚马逊上精准推荐商品，密集向量表示已成为现代搜索系统的核心。我们不断要求它们处理越来越复杂的任务——遵循复杂指令、多模态搜索、代码推理——并一直假设，只要模型更大、数据更好，单个嵌入向量最终就能表示任何查询，并按照任何相关性标准检索文档。 ...

[rStar2-Agent: Agentic Reasoning Technical Report 🔗](https://arxiv.org/abs/2508.20722)

rStar2-Agent: 教会 AI 更聪明地思考，而非更冗长地推理

在追求更智能 AI 的过程中，我们常常将思考等同于生成更长、更详细的思维链。主流观点是: 如果一个模型“思考得更久”，它最终就会得出正确答案。这种方法促进了显著的进步，但它存在一个根本性的上限。 ...

[Visual Story-Writing: Writing by Manipulating Visual Representations of Stories 🔗](https://arxiv.org/abs/2410.07486)

可视化故事写作：通过操作交互式故事地图来编辑叙事

创意写作就像一场杂耍。作者必须管理由角色发展线、情节要点、地点和时间线构成的复杂网络。在所有这些相互关联的元素之间保持一致是一项艰巨的任务——尤其是在尝试新想法时。一个看似微小的改动，比如将角色移动到不同地点，就可能引发一连串的连锁修改，迫使作者逐一查找每个相关句子以维持叙事的连贯性。 ...