ICML 2025

[AutoAdvExBench: Benchmarking autonomous exploitation of adversarial example defenses 🔗](https://arxiv.org/abs/2503.01811)

现实差距：LLM 真的能攻破现实世界中的 AI 防御吗？

我们正生活在“AI 智能体 (AI Agent) ”的时代。我们已经超越了只会写诗的简单聊天机器人；现在，我们评估大语言模型 (LLM) 的能力主要看它们是否具备推理、规划以及与软件环境交互的能力。像 SWE-Bench 这样的基准测试旨在测试 AI 是否能修复 GitHub issue，而其他测试则考察它们能否浏览网页或解决夺旗赛 (CTF) 安全挑战。 ...

[In-context denoising with one-layer transformers: connections between attention and associative memory retrieval 🔗](https://arxiv.org/abs/2502.05164)

Transformer 作为贝叶斯去噪器：注意力机制如何模拟联想记忆

Transformer 架构无疑彻底改变了深度学习。从 GPT-4 这样的大语言模型 (LLM) 到视觉模型，“Attention is All You Need” (注意力即一切) 的范式无处不在。然而，尽管它们取得了巨大的成功，我们在理解它们为何如此有效方面仍在努力追赶。一个专为机器翻译设计的机制，是如何变成通用的上下文学习器的？ ...

[Statistical Query Hardness of Multiclass Linear Classification with Random Classification Noise 🔗](https://arxiv.org/abs/2502.11413)

为什么带噪声标签的多类分类出人意料地难

在机器学习理论的世界里，二分类和三类及以上分类之间往往存在着明显的差异。虽然我们在各个领域都能看到这种情况，但最近一篇题为 “Statistical Query Hardness of Multiclass Linear Classification with Random Classification Noise” (随机分类噪声下多类线性分类的统计查询困难性) 的论文，凸显了在从噪声数据中学习时，两者在复杂度上的巨大鸿沟。 ...

[SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs 🔗](https://arxiv.org/abs/2406.19593)

扩展多模态 RAG：合成数据如何解决视觉语言模型中的知识缺口

引言想象一下，向 AI 展示一张某种稀有鸟类停在树枝上的照片，然后问: “这种鸟的迁徙路线是什么？” 像 GPT-4V 或 LLaVA 这样的标准多模态大语言模型 (MLLM) 可能会正确识别出这只鸟。然而，如果关于其具体迁徙的细节在预训练数据中并不常见，模型可能会产生“幻觉”——自信地编造一条并不存在的迁徙路线。这是 AI 中一个长期存在的可靠性问题: 模型擅长“看”，但它们并不总是“知道”所看到的一切。 ...

[Hierarchical Refinement: Optimal Transport to Infinity and Beyond 🔗](https://arxiv.org/abs/2503.03025)

突破扩展性瓶颈：Hierarchical Refinement 如何实现百万级数据的最优传输

引言在机器学习的世界里，对齐 (Alignment) 就是一切。无论你是在训练一个将噪声映射为图像的生成模型，还是对齐不同时间点的单细胞基因组数据，亦或是进行不同领域间的翻译，你本质上都在问同一个问题: 将质量从分布 A 移动到分布 B 的最佳方式是什么？ ...

[Generative Social Choice: The Next Generation 🔗](https://arxiv.org/abs/2505.22939)

AI 治国？如何利用大语言模型扩展社会选择

引言在传统的民主进程中，选项菜单通常是固定的。你把票投给候选人 A 或候选人 B；你在政策 X 或政策 Y 之间做出选择。但是，如果目标不仅仅是从预定义的列表中进行选择，而是要将成千上万人的复杂、非结构化的观点综合成一组连贯且具有代表性的陈述，那该怎么办？ ...

[COLLABLLM: From Passive Responders to Active Collaborators 🔗](https://arxiv.org/abs/2502.00640)

别再被动了：COLLABLLM 如何教 AI 真正学会协作

引言我们都有过这种经历。你向大语言模型 (LLM) 提了一个模糊的问题，它立刻吐出一个通用的、自信的答案。它不要求澄清，也不检查是否理解了你的潜在目标。它只是……做出了回应。然后，你不得不花十分钟不断地提示、往复、纠正它的假设，直到最终得到你想要的结果。 ...

[Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions 🔗](https://arxiv.org/abs/2502.06768)

通往更智能模型的一条艰难道路：为何掩码扩散模型在逻辑谜题上能击败自回归模型

如果你曾经使用过 ChatGPT 或任何现代大型语言模型 (LLM) ，你就已经与自回归模型 (Autoregressive Model, ARM) 有过交互。这些模型以一种非常特定的方式生成文本: 从左到右，逐个 token (词元) 生成。它们非常成功，但也非常僵化。它们必须完全根据之前的内容来决定接下来的内容。 ...

[EMBODIEDBENCH: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents 🔗](https://arxiv.org/abs/2502.09560)

EmbodiedBench：多模态大语言模型真能控制机器人吗？

引言我们正目睹多模态大语言模型 (MLLM) 的黄金时代。像 GPT-4o、Gemini 和 Claude 这样的模型可以分析复杂的图像、撰写诗歌，甚至编写完整的应用程序。自然地，下一个前沿领域就是具身智能 (Embodied AI) ——将这些“大脑”放入机器人 (或模拟机器人) 中，让它们在物理世界中导航并操作物体。 ...

[Theoretical Limitations of Ensembles in the Age of Overparameterization 🔗](https://arxiv.org/abs/2410.16201)

集成幻觉：为何深度集成可能只是伪装的大模型

集成幻觉: 为何深度集成可能只是伪装的大模型在机器学习的经典时代，“集成 (ensembling) ”是最接近免费午餐的东西。如果你训练单个决策树，它可能会过拟合。但如果你训练一百棵树并对它们的预测取平均值 (随机森林) ，你会得到一个鲁棒且高精度的模型。直觉很简单: 不同的模型会犯不同的错误，所以将它们平均起来可以抵消噪声。 ...

[Near-Optimal Decision Trees in a SPLIT Second 🔗](https://arxiv.org/abs/2502.15988)

两全其美：SPLIT 如何以贪婪算法的速度实现最优决策树

引言在机器学习领域, 可解释性 (理解模型为什么做出预测) 与性能 (预测有多准确) 之间往往存在着痛苦的权衡。决策树是可解释性的典型代表。它们模仿人类的推理过程: “如果 X 为真，检查 Y；如果 Y 为假，预测 Z。” ...

[Neural Discovery in Mathematics: Do Machines Dream of Colored Planes? 🔗](https://openreview.net/pdf?id=7Tp9zjP9At)

当神经网络描绘无限：用 AI 解决组合几何问题

数学通常被视为一门讲究严密逻辑和绝对证明的学科。一个陈述要么为真，要么为假；一个定理要么已证，要么未证。然而，达成证明的过程往往是混乱的，依赖于直觉、可视化和试错。 ...

[Polynomial-Delay MAG Listing with Novel Locally Complete Orientation Rules 🔗](https://openreview.net/pdf?id=70voOlSPos)

解锁因果秘密：如何高效列举含有隐变量的图

解锁因果秘密: 如何高效列举含有隐变量的图在人工智能和因果推断的世界里，我们要处理的往往是不完整的图景。我们可以观测到数据——比如病人的症状或国家的经济指标——但我们很少能看到驱动这些观测结果的完整机制。几乎总会有“隐变量” (latent variables) 存在，即那些影响我们所见但未被记录的隐藏因素。 ...

[rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking 🔗](https://arxiv.org/abs/2501.04519)

小型 AI 模型如何在数学领域击败 GPT-4：rStar-Math 革命

简介长期以来，人工智能领域的普遍看法很简单: 越大越好。如果你想让模型解决复杂的微积分或高中奥林匹克数学题，你需要数千亿个参数、海量的计算资源，以及像 GPT-4 或 Claude 3.5 这样的模型。小型语言模型 (Small Language Models, SLMs) ，通常在 10 亿到 80 亿参数范围内，被认为是处理基础任务的高效助手，但无法进行深度的多步推理。 ...

[Omnibench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities 🔗](https://openreview.net/pdf?id=4tFSKOY2mT)

超越线性任务：OmniBench 如何揭示虚拟智能体的真实局限

引言我们正见证着多模态大语言模型 (MLLM) 的黄金时代。从 GPT-4o 到 Claude 3.5，这些模型不再仅仅是文本处理器；它们正在进化为“虚拟智能体 (Virtual Agents) ”，能够看懂屏幕、点击按钮并浏览网页。我们的梦想是拥有一个能够处理复杂工作流的数字助手——比如“从邮件下载销售报告，在 Excel 中可视化数据，然后通过 Slack 将图表发送给经理。” ...

[Prices, Bids, Values: One ML-Powered Combinatorial Auction to Rule Them All 🔗](https://arxiv.org/abs/2411.09355)

两全其美：混合机器学习拍卖如何解决效率与认知负担的权衡

有效分配资源是经济学中的基本问题之一。当资源很简单时 (比如公司的股份) ，标准市场运作良好。但是，当物品各不相同但其价值相互关联时，会发生什么？ ...

[SpeechSSM: Long-Form Speech Generation with State-Space Models 🔗](https://arxiv.org/abs/2412.18603)

打破沉默：SpeechSSM 如何掌握长篇音频生成

引言想象一下，让 AI 给你讲个睡前故事——不是朗读你提供的文本，而是用人类的声音凭空构思出一个全新的故事，甚至包含停顿、叹息和语调变化。现在，想象一下让它持续讲二十分钟。 ...

[Statistical Collusion by Collectives on Learning Platforms 🔗](https://arxiv.org/abs/2502.04879)

人多力量大：集体如何从统计学上保证对 AI 平台的影响力

人多力量大: 集体如何从统计学上保证对 AI 平台的影响力在现代数字生态系统中，用户与平台之间的关系通常被视为单行道: 平台提取数据、训练算法并主导结果。但是，当用户联合起来时会发生什么呢？ ...

[Not All Explanations for Deep Learning Phenomena Are Equally Valuable 🔗](https://openreview.net/pdf?id=cw7MYyDL33)

停止解谜——为什么深度学习需要实用主义而非特设假设

在人工智能快速发展的世界里，研究人员钟爱未解之谜。过去几年中，神经网络中一些违背统计学和学习理论基本定律的奇异行为深深吸引了整个社区。比如模型在严重过拟合之后反而变得更聪明？测试误差先下降，再上升，然后再次下降？这些现象——即所谓的 Grokking (顿悟) 、双重下降 (Double Descent) 和彩票假设 (Lottery Ticket Hypothesis) ——已经催生了成千上万篇试图解释它们的论文。 ...

[Algorithm Development in Neural Networks: Insights from the Streaming Parity Task 🔗](https://arxiv.org/abs/2507.09897)

从记忆到算法：RNN 如何学会无限泛化

引言深度学习中最深奥的谜团之一就是泛化现象。我们通常通过“插值”的视角来理解泛化: 如果神经网络看到足够多的训练样本 (图表上的点) ，它就能学会一条连接这些点的平滑曲线，从而能够预测位于训练样本之间的点的数值。 ...