[Great Models Think Alike and this Undermines AI Oversight 🔗](https://arxiv.org/abs/2502.04313)

当顶尖模型所见略同:为何 AI 监督需要多样性

引言 我们正见证一个机器学习模型飞速进步的时代。通过扩大训练数据和计算规模,能够通过律师资格考试、编写代码并解决复杂逻辑难题的大型语言模型 (LLM) 得以诞生。但随着这些模型接近甚至超越人类能力,我们面临一个瓶颈: 评估 。 ...

2025-02 · 7 分钟 · 3248 字
[Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner 🔗](https://arxiv.org/abs/2506.01301)

扩展社会智能:弱模型如何教会强大的巨人拥有心智理论

扩展社会智能: 弱模型如何教会强大的巨人拥有心智理论 想象一下你正在观看一段无声视频: 一个人走进厨房,打开冰箱,往里看了一眼,关上冰箱,叹了口气,然后走到一个橱柜前。虽然没有听到任何语言,你立刻推断出了一种复杂的心理状态: 他饿了,想找某种特定的东西 (也许是一个苹果) ,但这东西不在冰箱里,现在他认为它可能在橱柜里。 ...

2025-06 · 7 分钟 · 3300 字
[Doubly Robust Conformalized Survival Analysis with Right-Censored Data 🔗](https://arxiv.org/abs/2412.09729)

如何在不知道结局的情况下预测生存时间

预测未来很难。准确预测关键事件——比如机器零件故障,或者更重要的临床试验中病人的生存时间——何时发生则更为困难。在高风险领域如医疗保健中,简单的“最佳猜测”是不够的。医生和病人需要了解该猜测的不确定性。他们需要一个保证: “我们有 90% 的把握确信病人至少能存活 \(X\) 个月。” ...

2024-12 · 7 分钟 · 3223 字
[Training Deep Learning Models with Norm-Constrained LMOs 🔗](https://arxiv.org/abs/2502.07529)

超越 Adam:利用几何感知优化训练神经网络 (SCION)

引言 如果你曾经训练过深度学习模型,那你很可能使用过 Adam 或 AdamW。这些自适应优化器是现代 AI 的引擎,驱动着从简单的分类器到大规模大语言模型 (LLM) 的一切。它们的工作原理是“运行时 (on-the-fly) ”适应损失函数的几何形状,根据训练过程中遇到的梯度来调整步长。 ...

2025-02 · 7 分钟 · 3239 字
[Generalized Random Forests using Fixed-Point Trees 🔗](https://arxiv.org/abs/2306.11908)

突破因果推断的速度极限:不动点树(Fixed-Point Trees)简介

引言 在现代机器学习的世界里,我们已经超越了仅仅预测“平均值”的时代。无论是个性化医疗、计算广告还是公共政策,最有价值的洞察往往隐藏在异质性 (heterogeneity) 之中——即理解某种效应如何在不同的人群亚组中变化。 ...

2023-06 · 7 分钟 · 3286 字
[Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting 🔗](https://arxiv.org/abs/2502.02797)

顺势而为:通过优先关注简单样本解决灾难性遗忘问题

在当今的人工智能领域,我们很少从零开始训练模型。相反,我们站在巨人的肩膀上: 我们采用一个庞大的预训练模型 (如 Llama、Gemma 或 ResNet) ,并在特定数据集上对其进行“微调”,以执行特定任务,例如医疗诊断或数学推理。 ...

2025-02 · 8 分钟 · 3579 字
[SAFE: Finding Sparse and Flat Minima to Improve Pruning 🔗](https://arxiv.org/abs/2506.06866)

我们能全都要吗?利用 SAFE 让神经网络既稀疏又智能

引言 在现代深度学习时代,我们正见证着一场“规模之战”。一方面,模型的规模呈指数级增长——拥有数十亿参数的大型语言模型 (LLM) 已成为常态。另一方面,部署这些模型所需的资源却是有限的。我们希望在手机、笔记本电脑和边缘设备上运行这些智能系统,但这些设备根本无法承受大规模密集网络的内存和计算负载。 ...

2025-06 · 8 分钟 · 3813 字
[Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective 🔗](https://arxiv.org/abs/2412.12276)

解码魔法:大语言模型如何构建上下文学习的“任务向量”

引言 大语言模型 (LLM) 最迷人的能力之一就是上下文学习 (In-Context Learning, ICL) 。 你只需给模型几个示例——比如“苹果 -> 红色,香蕉 -> 黄色”——突然之间,无需任何权重更新或重新训练,它就能理解模式并预测出“酸橙 -> 绿色”。对我们来说,这感觉很直观。但对机器学习研究人员来说,这在数学上令人困惑。一组静态的权重是如何即时适应新任务的? ...

2024-12 · 7 分钟 · 3211 字
[Taming Knowledge Conflicts in Language Models 🔗](https://arxiv.org/abs/2503.10996)

JUICE:解决大语言模型中记忆与上下文的拉锯战

引言 想象一下,你正在使用一个大语言模型 (LLM) 执行检索增强生成 (RAG) 任务。你给模型提供了一份特定的文档,上面写着“法国的首都是北京”,这可能是一个假设场景或虚构故事的一部分。然后你问模型: “法国的首都是哪里?” ...

2025-03 · 9 分钟 · 4259 字