ICML 2025

[When Every Millisecond Counts: Real-Time Anomaly Detection via the Multimodal Asynchronous Hybrid Network 🔗](https://arxiv.org/abs/2506.17457)

毫秒必争：融合事件流与RGB实现高速自动驾驶安全

引言: 自动驾驶安全中的速度需求想象一下，你正开车行驶在郊区的街道上。阳光明媚，音乐流淌，你感到非常放松。突然，从一辆停着的卡车后面，一个孩子追着球跑到了路中间。你的大脑瞬间处理了这一视觉信息——你的脚猛踩刹车，车子在离孩子仅仅几英寸的地方尖叫着停下。有惊无险与酿成悲剧之间的差别，往往就在那几分之一秒。 ...

[Rethink GraphODE Generalization within Coupled Dynamical System 🔗](https://openreview.net/pdf?id=nVD7KoU09V)

教 AI 学物理：利用 GREAT 框架解耦静态与动态世界

引言想象一下，试图预测一个复杂系统的运动，比如一组由弹簧连接的钟摆，或者在一个盒子中四处弹跳的带电粒子。在物理学和工程学中，这些被称为耦合动力系统 (Coupled Dynamical Systems) 。为了对它们进行建模，我们不能仅仅孤立地观察一个物体；我们必须考虑到每个组件如何随时间与其他所有组件相互作用。 ...

[STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization 🔗](https://arxiv.org/abs/2506.03863)

打破码本坍缩：STAR 如何通过几何旋转教会机器人多样化技能

打破码本坍缩: STAR 如何通过几何旋转教会机器人多样化技能想象一下教机器人做饭。你不会告诉机器人打鸡蛋时肌肉运动所需的每一毫秒的细节。相反，你会以“技能”为单位来思考: 抓取鸡蛋、敲击平底锅边缘、掰开蛋壳。 ...

[Learning Dynamics under Environmental Constraints via Measurement-Induced Bundle Structures 🔗](https://arxiv.org/abs/2505.19521)

当几何遇上不确定性：安全机器人学习的新框架

想象一下，你试图在黑暗中穿过一个拥挤的房间。你看不清楚；也许你手里只有一个光线微弱且闪烁不定的手电筒。你大致知道你的双腿是如何运作的 (你的动力学) ，但你对家具位置的感知 (环境) 是嘈杂且不确定的。如果你假设自己确切知道所有东西的位置，你很可能会踢到脚趾。如果你因恐惧而过度瘫痪，你可能根本无法移动。 ...

[Invariant Deep Uplift Modeling for Incentive Assignment in Online Marketing via Probability of Necessity and Sufficiency 🔗](https://openreview.net/pdf?id=mruyFvKDKq)

超越相关性——不变深度增益模型（IDUM）如何解决在线营销中的分布外危机

引言想象一下，你经营着一个大型在线平台——也许是一个短视频应用或电商巨头。你有一笔预算用于分发优惠券或高清视频流权限，以保持用户的参与度。你的营销团队面临的核心问题很简单: “如果我们给用户 X 发放优惠券，他们是否会购买那些原本不会买的东西？” ...

[Continual Reinforcement Learning by Planning with Online World Models 🔗](https://arxiv.org/abs/2507.09177)

如何构建永不遗忘的机器人：基于在线世界模型的规划

想象一下，你正在教机器人煮咖啡。经过几周的训练，它终于掌握了磨豆和注水的艺术。接下来，你教它如何把碗盘装进洗碗机。它学得很快，但当你让它再次煮咖啡时，它却茫然地盯着咖啡机。它的“煮咖啡”神经元已经被“装洗碗机”的神经元完全覆盖了。 ...

[Towards Practical Defect-Focused Automated Code Review 🔗](https://arxiv.org/abs/2505.17928)

从吹毛求疵到关键 Bug：如何构建实用的自动化代码审查工具

代码审查是软件质量的守门员。在一个完美的世界里，每一行代码在合并之前，都会有一位高级工程师仔细检查，捕捉细微的逻辑错误、安全漏洞和潜在的性能瓶颈。 ...

[Fishers for Free? Approximating the Fisher Information Matrix by Recycling the Squared Gradient Accumulator 🔗](https://openreview.net/pdf?id=m3zrHhiCCj)

免费的 Fisher 信息：回收优化器状态来估算参数重要性

在深度学习的世界里，我们要么视参数为实现目的的手段。我们训练它们，保存它们，然后运行推理。但并非所有参数都是生而平等的。神经网络中的某些权重是至关重要的“承重柱”；而另一些则像是装饰性的修边，即使移除或修改也不会导致结构坍塌。 ...

[Feature learning from non-Gaussian inputs: the case of Independent Component Analysis in high dimensions 🔗](https://arxiv.org/abs/2503.23896)

为何深度网络会习得 Gabor 滤波器：解析 ICA、高维空间与样本复杂度

你是否想过，为什么几乎每一个卷积神经网络 (CNN) 的第一层看起来都一样？无论你是在训练网络对狗进行分类、识别汽车，还是检测肿瘤，第一层的滤波器几乎总是收敛到特定的模式: 定向的边缘和被称为 Gabor 滤波器的振荡纹理。 ...

[Better to Teach than to Give: Domain Generalized Semantic Segmentation via Agent Queries with Diffusion Model Guidance 🔗](https://openreview.net/pdf?id=jvP1wbD0xh)

QueryDiff：利用扩散引导教导分割模型学会泛化

引言: 授人以渔 vs. 授人以鱼在深度学习的世界里，有一句古老的谚语出奇地贴切: “授人以鱼，不如授人以渔。” 在计算机视觉领域，特别是域泛化语义分割 (Domain Generalized Semantic Segmentation, DGSS) 中，“授人以鱼”类似于数据增强或生成合成数据。如果你想让你的自动驾驶汽车模型 (在晴朗天气的模拟器中训练) 能够识别雨天的街道，标准的做法是生成数千张雨天图像并将其喂给模型。虽然这在一定程度上有效，但它的计算成本很高，并且受限于你能生成的数据的多样性。 ...

[Procurement Auctions via Approximately Optimal Submodular Optimization 🔗](https://arxiv.org/abs/2411.13513)

为次模采购设计诚实拍卖

在算法博弈论和大规模物流领域，一个根本性的问题长期存在: 当你需要从多人手中购买服务，而这些人可能会谎报价格时，你该如何确保获得最高的“性价比”？ ...

[scSSL-Bench: Benchmarking Self-Supervised Learning for Single-Cell Data 🔗](https://arxiv.org/abs/2506.10031)

破解细胞密码：深入探讨单细胞基因组学的自监督学习

破解细胞密码: 深入探讨单细胞基因组学的自监督学习想象一下，试图通过一张覆盖整个大都会区的卫星照片来了解一座复杂的城市。你能看到整体布局、高速公路和建筑密度，但却看不到让这座城市运转的每一个个体。很长一段时间以来，基因组学就处于这种状态。“批量测序 (Bulk sequencing) ”为我们提供了数百万个细胞混合后的平均视图——就像一杯生物“冰沙”。 ...

[On Learning Parallel Pancakes with Mostly Uniform Weights 🔗](https://arxiv.org/abs/2504.15251)

揭开平行煎饼的层叠：学习主要是均匀的高斯混合模型的复杂性

引言在高维统计学和机器学习的世界里，很少有问题像学习高斯混合模型 (Gaussian Mixture Models, GMMs) 那样经典而又棘手。我们几乎在所有领域都使用它们——从天体物理学到市场营销——来模拟由不同子群组成的群体。 ...

[Geometric Hyena Network for Large-scale Equivariant Learning 🔗](https://arxiv.org/abs/2505.22560)

超越自注意力机制：利用 Geometric Hyena 扩展几何深度学习

在面向科学领域的深度学习世界里，结构决定一切。无论是蛋白质的折叠、RNA 链的扭曲，还是粒子系统的动力学，原子的几何排列决定了其功能。为了有效地模拟这些系统，神经网络必须理解两件事: 全局上下文 (分子的远端部分如何相互作用) 和等变性 (物理定律不会仅仅因为你旋转了分子而改变) 。 ...

[Elucidating the Design Space of Multimodal Protein Language Models 🔗](https://arxiv.org/abs/2504.11454)

构建更佳的蛋白质模型：如何修复多模态 AI 中的“结构鸿沟”

构建更佳的蛋白质模型: 如何修复多模态 AI 中的“结构鸿沟” 蛋白质是生命的分子机器。为了理解生物学——并设计新药——我们需要理解蛋白质的两种不同“语言”: 它们的序列 (氨基酸串) 和它们的结构 (它们如何折叠成 3D 形状) 。 ...

[BAXBENCH: Can LLMs Generate Correct and Secure Backends? 🔗](https://openreview.net/pdf?id=il3KRr4H9u)

为什么 AI 还不能构建你的后端：深入解析 BAXBENCH

软件开发领域正处于一场由大型语言模型 (LLM) 驱动的革命之中。GitHub Copilot 和 ChatGPT 等工具已经展示了令人惊叹的能力: 它们可以自动补全函数、编写单元测试，甚至解决复杂的算法谜题。这让人很容易相信，我们要么即将迎来全自动化的软件工程时代，AI 可以接收高层需求并生成可直接部署的应用程序。 ...

[Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios 🔗](https://arxiv.org/abs/2505.21387)

清除噪声：AIRMVC 如何彻底变革多视图聚类

引言在大数据时代，我们很少仅仅依赖单一信息源来理解世界。试想一辆自动驾驶汽车: 它不仅仅是通过摄像头观察，还会通过声纳监听、用激光雷达 (LiDAR) 测量距离，并核对 GPS 坐标。这种多样化数据源的聚合正是多视图聚类 (Multi-View Clustering, MVC) 的基础。通过融合来自不同“视图” (例如音频、视频、文本) 的信息，机器学习模型可以达到单一视图无法比拟的理解水平。 ...

[Primal-Dual Neural Algorithmic Reasoning 🔗](https://arxiv.org/abs/2505.24067)

神经网络能解决 NP 难问题吗？原始-对偶方法

经典算法与深度学习的交汇是计算机科学中最令人着迷的前沿领域之一。一方面，我们拥有经典算法——严谨、可解释且保证有效，但往往僵化，无法处理原始、混乱的现实世界数据。另一方面，我们拥有神经网络——灵活、适应性强且能够处理复杂的输入，但往往不透明，且容易“产生幻觉”臆造不正确的答案。 ...

[Do Multiple Instance Learning Models Transfer? 🔗](https://openreview.net/pdf?id=hfLqdquVt3)

为什么你应该停止从头训练 MIL 模型——迁移学习在病理学中的威力

在深度学习的世界里，尤其是在计算机视觉和自然语言处理 (NLP) 领域，从头开始训练几乎是“大忌”。当你可以微调 BERT 或 GPT 时，你不会在空白状态下训练语言模型；当你可以使用 ImageNet 的权重时，你也不会在像素级别上训练图像分类器。这种被称为迁移学习的概念，正是推动现代 AI 发展的引擎。 ...

[On the Benefits of Active Data Collection in Operator Learning 🔗](https://arxiv.org/abs/2410.19725)

为何随机采样还不够：主动学习在求解 PDE 中的威力

为何随机采样还不够: 主动学习在求解 PDE 中的威力如果你涉足过科学计算或物理机器学习领域，你一定熟悉这样的流程: 你有一个描述物理系统的偏微分方程 (PDE) ，比如热传导方程或纳维-斯托克斯方程。传统上，求解这些方程需要耗费大量计算资源的数值求解器。 ...