ICML 2025

[MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models 🔗](https://arxiv.org/abs/2501.00316)

迷失在翻译中：为何基础模型在现实世界地图应用中举步维艰

想象一下你身处一个陌生的城市。你打开地图应用，寻找一家正在营业、步行 10 分钟以内且评分在 4.0 以上的咖啡店。你还需要在一张布满图标和街道名称的地图上找到它的位置。对于人类来说，这是一项标准的导航任务，涉及视觉扫描、空间推理和阅读理解。 ...

[The Jailbreak Tax: How Useful are Your Jailbreak Outputs? 🔗](https://openreview.net/pdf?id=hRQyqtcjVv)

越狱税：为何突破 AI 安全护栏可能会破坏 AI 自身能力

大型语言模型 (LLM) 安全领域常被描述为一场高风险的猫鼠游戏。一方面，开发者构建护栏来对齐模型，防止其生成制造炸弹说明或仇恨言论等有害内容。另一方面，“红队人员”和对手则开发“越狱 (Jailbreaks) ”手段——旨在绕过这些防御措施的巧妙提示词。 ...

[ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation 🔗](https://arxiv.org/abs/2502.13581)

超越 ID：ActionPiece 如何为生成式推荐引入上下文

引言在推荐系统领域，我们正见证一场范式转变。该领域正从传统的基于分类的方法——即从巨大的固定池中选择最佳物品——转向生成式推荐 (Generative Recommendation, GR) 。受 GPT 等大语言模型 (LLM) 成功的启发，GR 模型将用户行为视为一种语言。它们对用户动作进行“分词 (Tokenize)”，并训练模型以自回归的方式预测序列中的下一个 Token。 ...

[Functional Alignment Can Mislead: Examining Model Stitching 🔗](https://openreview.net/pdf?id=glLqTK9En3)

仅仅因为它适配：为什么神经网络对齐并不意味着你以为的那样

引言现代人工智能的一大未解之谜是“黑盒”问题。我们知道深度神经网络行之有效——通常效果惊人——但我们要并不总是知道它们如何表征所处理的数据。模型将一只鸟分类为鸟，是因为它看到了翅膀，听到了歌声，还是因为它检测到了背景中的某种特定纹理？ ...

[Stronger Neyman Regret Guarantees for Adaptive Experimental Design 🔗](https://arxiv.org/abs/2502.17427)

超越 A/B 测试——自适应算法如何革新实验设计

想象一下，你正在为一种新药进行临床试验，或者在一个高流量的电子商务网站上测试一项新功能。在传统的“A/B 测试”世界中，你可能会抛硬币决定: 50% 的人接受治疗，50% 的人作为对照。你将此过程运行一个月，收集数据，然后分析结果。 ...

[Feature Learning beyond the Lazy-Rich Dichotomy: Insights from Representational Geometry 🔗](https://arxiv.org/abs/2503.18114)

透视思维：利用流形几何解锁神经网络动力学

透视思维: 利用流形几何解锁神经网络动力学神经网络究竟是如何学习的？如果你观察原始数据——数十亿个突触权重的变化——你看到的是一场浮点数调整的混沌风暴。如果你观察损失曲线，你看到的是一条向下的线。但这二者都无法告诉你网络如何构建信息。 ...

[Learning with Exact Invariances in Polynomial Time 🔗](https://arxiv.org/abs/2502.19758)

打破对称性障碍——如何在多项式时间内学习精确不变性

在自然科学和物理学中，对称性即一切。无论你是在分析分子的能量、流体的动力学，还是晶体的结构，自然界的基本定律通常在某些变换下保持不变——比如旋转、反射或平移。 ...

[Masked Autoencoders Are Effective Tokenizers for Diffusion Models 🔗](https://arxiv.org/abs/2502.03444)

超越 VAE：掩码机制如何让自动编码器成为扩散模型的高效 Tokenizer

如果你一直在关注生成式 AI 的爆发，那你一定对潜在扩散模型 (Latent Diffusion Models, LDMs) 并不陌生，它是 Stable Diffusion 等重量级模型背后的架构。LDMs 的秘诀在于效率: 它们不在像素空间逐个像素地生成图像，而是在压缩的“潜在空间 (latent space) ”中进行操作。 ...

[Discovering Symbolic Cognitive Models from Human and Animal Behavior 🔗](https://openreview.net/pdf?id=dhRXGWJ027)

LLM 能成为认知科学家吗？利用 CogFunSearch 探索大脑的学习机制

在神经科学和心理学的世界里, 预测与理解之间始终存在着一种张力。如果你只想单纯预测人类或动物接下来会做什么，你可以在他们的行为数据上训练一个庞大的循环神经网络 (RNN) 。RNN 可能会达到很高的准确率，但它就像一个“黑盒”。它给你答案，却不会告诉你大脑如何解决问题。它无法提供科学理论。 ...

[TABFLEX: Scaling Tabular Learning to Millions with Linear Attention 🔗](https://arxiv.org/abs/2506.05584)

打破表格数据壁垒：TABFLEX 如何将 Transformer 扩展至百万级行数

引言如果你上过机器学习的入门课程，你可能知道表格数据的一条黄金法则: 梯度提升决策树 (GBDT) 为王。虽然深度学习彻底改变了图像 (CNN、ViT) 和文本 (LLM) 领域，但表格数据——构成商业和医疗数据库绝大多数的行和列——仍然是 XGBoost、LightGBM 和 CatBoost 的坚固堡垒。 ...

[Investigating Non-Transitivity in LLM-as-a-Judge 🔗](https://arxiv.org/abs/2502.14074)

石头、剪刀、LLM？为什么 AI 裁判会困惑以及如何修复它

石头、剪刀、LLM？为什么 AI 裁判会困惑以及如何修复它如果你曾经尝试过给创意写作文章打分，你就会知道这有多主观。文章 A 比文章 B 好吗？也许吧。但是如果你把文章 B 和文章 C 比较，然后再把 C 和 A 比较，你可能会发现自己陷入了一个逻辑循环，每一篇文章似乎都在某些特定方面比上一篇更好。这就是非传递性 (non-transitivity) 的问题，事实证明，人工智能也深受其害。 ...

[Efficient and Separate Authentication Image Steganography Network 🔗](https://openreview.net/pdf?id=cKaUC1PeJA)

加把锁：分离式认证如何彻底变革图像隐写术

想象一下，你想给同事发送一份机密蓝图。你不想使用标准的加密方式，因为一个名为 top_secret_plans.enc 的文件对任何拦截者来说都太显眼了。相反，你决定将蓝图隐藏在一张无害的猫的照片里。这就是隐写术 (Steganography) : 一种在眼皮底下隐藏信息的艺术。 ...

[No Soundness in the Real World: On the Challenges of the Verification of Deployed Neural Networks 🔗](https://arxiv.org/abs/2506.01054)

为什么你的“已验证”神经网络可能仍不安全：浮点部署的现实

引言想象这样一个未来: 安全关键型系统——如自动驾驶汽车或医疗诊断工具——由神经网络控制。在这些网络获准上路或进入医院之前，它们要经过一个严格的过程，称为形式化验证 (formal verification) 。这一过程会生成数学证明，保证即使攻击者试图欺骗网络，网络也能表现正确。 ...

[Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations 🔗](https://arxiv.org/abs/2412.14803)

预测未来能教会机器人行动吗？深入解析视频预测策略 (VPP)

预测未来能教会机器人行动吗？深入解析视频预测策略 (VPP) 在构建能够处理从叠衣服到组装电子产品等各种任务的通用机器人的征途中，视觉至关重要。对于机器人与世界互动而言，它必须能看到这个世界。然而，我们教机器人“看”的方式在很大程度上一直是静态的。我们通常给它们输入单张图像，实际上是要求它们基于冻结在时间中的快照做出复杂的决策。 ...

[Non-stationary Diffusion For Probabilistic Time Series Forecasting 🔗](https://arxiv.org/abs/2505.04278)

为何你的时间序列模型无法捕捉不确定性（以及非平稳扩散模型如何解决这一问题）

引言在时间序列预测的世界里——无论是预测股价、医院入院率还是电力需求——知道将会发生什么仅仅是战斗的一半。另一半，往往也是更关键的一半，是知道我们对这一预测有多大把握。 ...

[SPARSE-PIVOT: Dynamic correlation clustering for node insertions 🔗](https://arxiv.org/abs/2507.01830)

驯服动态图：SPARSE-PIVOT 如何高效地即时聚类数据

想象一下，你正在经营一家大型在线商店。每分钟都有新商品加入你的库存。你的目标是根据相似度对这些商品进行分组——将所有的“复古皮夹克”归为一个簇，将“无线游戏鼠标”归为另一个簇。 ...

[Provable Benefits of Unsupervised Pre-training and Transfer Learning via Single-Index Models 🔗](https://arxiv.org/abs/2502.16849)

从随机猜测到线性成功：预训练的数学原理

在深度学习的现代时期，我们通常认为“先预训练再微调”的范式是理所当然的。我们在海量的无标签文本上训练一个巨大的模型 (如 BERT 或 GPT) ，然后在特定任务上使用少量标签数据对其进行微调。从经验上看，我们知道这效果奇佳。它不仅稳定了训练过程，还大幅减少了所需的标签数据量。 ...

[Leveraging Diffusion Model as Pseudo-Anomalous Graph Generator for Graph-Level Anomaly Detection 🔗](https://openreview.net/pdf?id=Zm2M92TZyO)

制造“反派”：AGDiff 如何利用扩散模型生成异常以提升检测能力

引言: 寻找不存在之物的悖论想象一下，你是一名保安，任务是抓捕商店扒手。然而，你这辈子从未见过扒手，你只观察过诚实的顾客。这就是图级异常检测 (Graph-Level Anomaly Detection, GLAD) 面临的根本问题。 ...

[Counterfactual Graphical Models: Constraints and Inference 🔗](https://openreview.net/pdf?id=Z1qZoHa6ql)

掌握多元宇宙：因果AI中反事实推理的新框架

人类推理能力的基石在于我们能够想象从未存在过的世界。当我们回顾一个决定时，我们会问: “如果我当时接受了在伦敦的那份工作会怎样？”或者“如果我们早一周开始治疗，病人还能活下来吗？” ...

[PASS: Private Attributes Protection with Stochastic Data Substitution 🔗](https://arxiv.org/abs/2506.07308)

大隐隐于市：随机数据替换如何保护 AI 隐私

引言: AI 时代的隐私困境想象一下你正在使用语音助手。为了理解你的指令，系统需要分析你说话的内容。然而，你的语音录音包含的不仅仅是你说的词句；它还包含你的性别、口音、大致年龄，甚至可能包含你的身份信息。 ...