ICML 2025

[Emergence in Non-Neural Models: Grokking Modular Arithmetic via Average Gradient Outer Product 🔗](https://openreview.net/pdf?id=36hVB7DEB0)

解密“顿悟”现象：这不仅仅是神经网络的专利

在现代人工智能领域，很少有现象像“Grokking” (通常译为“顿悟”) 那样令人困惑。想象一下训练一个神经网络来解决一道难题。在很长一段时间里——比如数千个训练步数内——模型似乎完美地死记硬背了训练数据，但在任何新的、未见过的测试数据上却一败涂地。它的测试准确率顽固地停留在 0%。然后，突然之间，通常是在你可能已经放弃并停止训练很久之后，测试准确率火箭般蹿升，从 0% 瞬间跳到 100%。模型突然“顿悟”了底层的逻辑。 ...

[Normalizing Flows are Capable Generative Models 🔗](https://arxiv.org/abs/2412.06329)

流模型的回归：TARFLOW 如何让归一化流模型不仅能与扩散模型媲美

如果你一直关注过去几年的生成式 AI 领域，目前的局势似乎很明朗: 扩散模型 (Diffusion Models) (如 Stable Diffusion 或 DALL-E) 和自回归模型 (Autoregressive Models) (如 GPT-4) 是赢家。它们能生成最高质量的图像和文本，主导了各大排行榜。 ...

[Going Deeper into Locally Differentially Private Graph Neural Networks 🔗](https://openreview.net/pdf?id=2aKHuXdr7Q)

UPGNET：如何从隐私噪声中拯救图学习

引言图神经网络 (GNNs) 彻底改变了我们处理数据的方式。从预测蛋白质结构到在社交媒体上推荐新朋友，GNN 在利用数据点之间的连接方面表现出色。但这里存在一个显而易见却常被忽视的巨大障碍: 隐私。 ...

[The Value of Prediction in Identifying the Worst-Off 🔗](https://arxiv.org/abs/2501.19334)

超越准确率——何时我们该停止改进算法，转而扩大准入范围？

在数据科学和公共政策领域，普遍存在一种假设: 更好的模型会带来更好的结果。我们花费无数时间调整超参数、收集更多特征，并不懈追求 AUC 或 \(R^2\) 那 0.01 的提升。这种逻辑听起来很有道理——如果我们能更准确地预测谁面临贫困、失业或辍学的风险，我们就能更有效地进行定向帮扶。 ...

[Beyond Self-Repellent Kernels: History-Driven Target Towards Efficient Nonlinear MCMC on General Graphs 🔗](https://arxiv.org/abs/2505.18300)

重绘地图：历史驱动目标如何彻底变革图采样

想象一下，你是一名探险家，被投放到一座迷宫般的巨大城市中——比如一个拥有数百万用户的社交网络，或者互联网的庞大拓扑结构。你肩负着一项使命: 你需要估算人口的平均收入，或者找到一个隐藏的机器人 (bot) 社区。你无法一次看清整张地图；你只能看到你所在的街道以及通往邻居的十字路口。 ...

[Improving the Scaling Laws of Synthetic Data with Deliberate Practice 🔗](https://arxiv.org/abs/2502.15588)

刻意练习：如何打破合成数据的扩展上限

引言: 学习的艺术想象一下你正在学习弹吉他。你从扫几个基本的和弦开始——G、C 和 D。一周后，你已经掌握了它们。现在，如果你想成为一名演奏大师，你应该怎么做？你应该在接下来的一年里一遍又一遍地弹奏这三个和弦吗？还是应该刻意寻找高难度的指法、复杂的爵士音阶，以及那些强迫你的手指以不舒服的方式伸展的乐曲？ ...

[ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference 🔗](https://arxiv.org/abs/2410.21465)

扩展长上下文 LLM：ShadowKV 如何突破内存墙

近年来，大型语言模型 (LLM) 的能力呈爆炸式增长，特别是在上下文长度方面。我们已经从仅能记住一个段落的模型，发展到像 Llama-3-1M 和 Gemini-1.5 这样能够一次性消化整本小说、代码库或法律档案的巨兽。 ...

[Independence Tests for Language Models 🔗](https://arxiv.org/abs/2502.12292)

模型取证：如何判断 LLM 是否被窃取、剪枝或微调

在大型语言模型 (LLM) 飞速发展的宇宙中，模型的来源 (provenance) 已成为一个棘手的问题。随着每周有成千上万的模型涌现于 Hugging Face，一个关键问题随之而来: 这个模型究竟从何而来? ...

[Score-of-Mixture Training: One-Step Generative Model Training Made Simple via Score Estimation of Mixture Distributions 🔗](https://arxiv.org/abs/2502.09609)

打破速度极限：混合分数训练（Score-of-Mixture Training）如何实现单步图像生成

引言在快速发展的生成式 AI 领域，我们经常被迫在速度、质量和训练稳定性之间做出选择。多年来，生成对抗网络 (GANs) 提供了快如闪电的单步生成能力，但饱受训练不稳定性 (即著名的“模式崩溃”) 的困扰。随后，扩散模型 (Diffusion Models) 的出现彻底改变了这一领域，带来了稳定的训练过程和惊人的图像质量，但代价巨大: 采样速度缓慢，需要数十甚至数百个迭代步骤来对单张图像进行去噪。 ...

[From Mechanistic Interpretability to Mechanistic Biology: Training, Evaluating, and Interpreting Sparse Autoencoders on Protein Language Models 🔗](https://openreview.net/pdf?id=zdOGBRQEbz)

解码生物学黑盒：稀疏自编码器如何揭示蛋白质模型到底学到了什么

人工智能与生物学的交叉领域在过去十年中产生了一些最引人注目的科学突破。像 AlphaFold 这样的工具已经解决了蛋白质结构预测问题，而蛋白质语言模型 (pLMs) 现在能够以惊人的准确率生成新蛋白质或预测其功能。 ...

[On the Tension between Byzantine Robustness and No-Attack Accuracy in Distributed Learning 🔗](https://openreview.net/pdf?id=zU4VCPHYRC)

偏执的代价：为何全员诚实却导致鲁棒分布式学习失效

在机器学习的世界里，规模越大往往越好。训练庞大的模型需要海量的数据和算力，这导致了分布式学习 (Distributed Learning) 的广泛采用。我们将工作拆分给成百上千个工作节点 (如 GPU、移动设备等) ，然后由一个中央服务器聚合它们的结果来更新全局模型。 ...

[Lightweight Protocols for Distributed Private Quantile Estimation 🔗](https://arxiv.org/abs/2502.02990)

众里寻“中”千百度——自适应算法如何解决隐私保护下的分位数估计问题

在大数据时代，我们面临着一个悖论。一方面，我们需要聚合来自数百万用户设备——智能手机、可穿戴设备和物联网传感器——的信息，以了解群体趋势。另一方面，这些数据通常极具私密性。无论是薪资信息、健康指标，还是屏幕使用时间，用户 (以及法律) 都要求隐私保护。 ...

[Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development 🔗](https://arxiv.org/abs/2407.11784)

打破孤岛：Data-Juicer Sandbox 如何彻底变革多模态 AI 训练

引言在人工智能快速发展的格局中，多模态大模型 (Multimodal Large Models, MLLMs) ——即能够同时处理和生成文本、图像及视频的 AI——已占据舞台中心。从 GPT-4 到 Sora，这些模型正在不断拓展创造力和功能的边界。然而，在这令人印象深刻的能力背后，潜藏着一个持久的工程瓶颈: 数据与模型开发的“先有鸡还是先有蛋”的问题。 ...

[P(all-atom) Is Unlocking New Path For Protein Design 🔗](https://openreview.net/pdf?id=yXRixu0ONY)

超越主链：Pallatom 如何开启全原子蛋白质设计

蛋白质设计长期以来一直被描述为“逆蛋白质折叠问题”。如果说折叠是大自然将氨基酸序列转化为 3D 结构的方式，那么设计就是我们要寻找能够折叠成特定、期望形状的序列的尝试。 ...

[Novelty Detection in Reinforcement Learning with World Models 🔗](https://arxiv.org/abs/2310.08731)

当世界发生巨变：无需阈值的强化学习新奇性检测

想象一下，你训练了一个机器人在迷宫中导航。它在数百万次的模拟步骤中学会了“红色瓷砖意味着熔岩”和“绿色瓷砖意味着目标”。它表现得完美无缺。然后，你将它部署到现实世界中。突然，光线发生了变化，或者一扇原本总是开着的门现在锁上了，又或者地面变得湿滑。 ...

[Relational Invariant Learning for Robust Solvation Free Energy Prediction 🔗](https://openreview.net/pdf?id=xVBfdltHST)

走出实验室：利用 AI 预测未知溶剂中的分子行为

走出实验室: 利用 AI 预测未知溶剂中的分子行为在药物发现和材料科学领域，环境决定一切。一个在水中表现完美的分子，在乙醇或丙酮中可能会表现出完全不同的行为。这种现象被称为溶剂化 (solvation) , 它是化学和制药过程如何运作的核心。 ...

[FlashTP: Fused, Sparsity-Aware Tensor Product for Machine Learning Interatomic Potentials 🔗](https://openreview.net/pdf?id=wiQe95BPaB)

突破瓶颈：FlashTP 如何加速等变分子动力学模拟

模拟原子世界是计算科学的圣杯之一。从发现新的电池材料到设计新型药物，分子动力学 (Molecular Dynamics, MD) 模拟让我们能够观察原子随时间推移的运动。历史上，科学家们不得不在两个极端之间做出选择: 量子力学方法 (高度精确但极其缓慢) 或经典力场 (快速但往往不准确) 。 ...

[Nonparametric Teaching for Graph Property Learners 🔗](https://arxiv.org/abs/2505.14170)

更快的 GCN 训练：“教师”如何将图学习速度提升 40%

引言在机器学习的世界里，数据通常是整洁且呈表格形式的。但在现实世界中——尤其是在生物学、化学和社会科学领域——数据是杂乱且相互关联的。它们以图 (Graph) 的形式存在: 分子是由键连接的原子；社交网络是由友谊连接的人群。 ...

[Learning to (Learn at Test Time): RNNs with Expressive Hidden States 🔗](https://arxiv.org/abs/2407.04620)

边读边学的模型：详解测试时训练（TTT）层

在大型语言模型 (LLM) 的世界里，两种架构范式之间一直存在着激烈的拉锯战: Transformer 和循环神经网络 (RNN) 。由自注意力机制 (Self-Attention) 驱动的 Transformer 是目前的卫冕冠军。它们极其擅长处理长上下文，因为它们显式地记住了所见过的每一个 Token (存储在键值缓存 Key-Value cache 中) 。然而，这种记忆能力伴随着二次方成本 (\(O(T^2)\)) 。随着序列变长，所需的计算量呈爆炸式增长。 ...

[Beyond the Permutation Symmetry of Transformers: The Role of Rotation for Model Fusion 🔗](https://arxiv.org/abs/2502.00264)

平滑损失地形：旋转对称性如何开启更好的 Transformer 模型融合

深度学习有一个迷人且稍微反直觉的特性: 如果你在相同的数据上训练两个相同的神经网络架构，它们将学会同样出色地完成任务，但它们的内部权重看起来会完全不同。 ...