ICML 2025

[Great Models Think Alike and this Undermines AI Oversight 🔗](https://arxiv.org/abs/2502.04313)

当顶尖模型所见略同：为何 AI 监督需要多样性

引言我们正见证一个机器学习模型飞速进步的时代。通过扩大训练数据和计算规模，能够通过律师资格考试、编写代码并解决复杂逻辑难题的大型语言模型 (LLM) 得以诞生。但随着这些模型接近甚至超越人类能力，我们面临一个瓶颈: 评估。 ...

[Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner 🔗](https://arxiv.org/abs/2506.01301)

扩展社会智能：弱模型如何教会强大的巨人拥有心智理论

扩展社会智能: 弱模型如何教会强大的巨人拥有心智理论想象一下你正在观看一段无声视频: 一个人走进厨房，打开冰箱，往里看了一眼，关上冰箱，叹了口气，然后走到一个橱柜前。虽然没有听到任何语言，你立刻推断出了一种复杂的心理状态: 他饿了，想找某种特定的东西 (也许是一个苹果) ，但这东西不在冰箱里，现在他认为它可能在橱柜里。 ...

[Doubly Robust Conformalized Survival Analysis with Right-Censored Data 🔗](https://arxiv.org/abs/2412.09729)

如何在不知道结局的情况下预测生存时间

预测未来很难。准确预测关键事件——比如机器零件故障，或者更重要的临床试验中病人的生存时间——何时发生则更为困难。在高风险领域如医疗保健中，简单的“最佳猜测”是不够的。医生和病人需要了解该猜测的不确定性。他们需要一个保证: “我们有 90% 的把握确信病人至少能存活 \(X\) 个月。” ...

[Training Deep Learning Models with Norm-Constrained LMOs 🔗](https://arxiv.org/abs/2502.07529)

超越 Adam：利用几何感知优化训练神经网络 (SCION)

引言如果你曾经训练过深度学习模型，那你很可能使用过 Adam 或 AdamW。这些自适应优化器是现代 AI 的引擎，驱动着从简单的分类器到大规模大语言模型 (LLM) 的一切。它们的工作原理是“运行时 (on-the-fly) ”适应损失函数的几何形状，根据训练过程中遇到的梯度来调整步长。 ...

[Generalized Random Forests using Fixed-Point Trees 🔗](https://arxiv.org/abs/2306.11908)

突破因果推断的速度极限：不动点树（Fixed-Point Trees）简介

引言在现代机器学习的世界里，我们已经超越了仅仅预测“平均值”的时代。无论是个性化医疗、计算广告还是公共政策，最有价值的洞察往往隐藏在异质性 (heterogeneity) 之中——即理解某种效应如何在不同的人群亚组中变化。 ...

[Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting 🔗](https://arxiv.org/abs/2502.02797)

顺势而为：通过优先关注简单样本解决灾难性遗忘问题

在当今的人工智能领域，我们很少从零开始训练模型。相反，我们站在巨人的肩膀上: 我们采用一个庞大的预训练模型 (如 Llama、Gemma 或 ResNet) ，并在特定数据集上对其进行“微调”，以执行特定任务，例如医疗诊断或数学推理。 ...

[SAFE: Finding Sparse and Flat Minima to Improve Pruning 🔗](https://arxiv.org/abs/2506.06866)

我们能全都要吗？利用 SAFE 让神经网络既稀疏又智能

引言在现代深度学习时代，我们正见证着一场“规模之战”。一方面，模型的规模呈指数级增长——拥有数十亿参数的大型语言模型 (LLM) 已成为常态。另一方面，部署这些模型所需的资源却是有限的。我们希望在手机、笔记本电脑和边缘设备上运行这些智能系统，但这些设备根本无法承受大规模密集网络的内存和计算负载。 ...

[Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective 🔗](https://arxiv.org/abs/2412.12276)

解码魔法：大语言模型如何构建上下文学习的“任务向量”

引言大语言模型 (LLM) 最迷人的能力之一就是上下文学习 (In-Context Learning, ICL) 。你只需给模型几个示例——比如“苹果 -> 红色，香蕉 -> 黄色”——突然之间，无需任何权重更新或重新训练，它就能理解模式并预测出“酸橙 -> 绿色”。对我们来说，这感觉很直观。但对机器学习研究人员来说，这在数学上令人困惑。一组静态的权重是如何即时适应新任务的？ ...

[Taming Knowledge Conflicts in Language Models 🔗](https://arxiv.org/abs/2503.10996)

JUICE：解决大语言模型中记忆与上下文的拉锯战

引言想象一下，你正在使用一个大语言模型 (LLM) 执行检索增强生成 (RAG) 任务。你给模型提供了一份特定的文档，上面写着“法国的首都是北京”，这可能是一个假设场景或虚构故事的一部分。然后你问模型: “法国的首都是哪里？” ...