[Suitability Filter: A Statistical Framework for Classifier Evaluation in Real-World Deployment Settings 🔗](https://arxiv.org/abs/2505.22356)

你的模型准备好面对现实世界了吗?深入了解适用性过滤器

引言 我们生活在一个机器学习模型正以惊人的速度从研究实验室走向现实世界的时代。我们训练模型来诊断疾病、批准贷款和驾驶汽车。在训练实验室的可控环境中,我们使用带标签的测试集来衡量成功。我们确切地知道模型的准确率是多少,因为我们拥有标准答案 (基本事实标签) 。 ...

2025-05 · 8 分钟 · 3976 字
[Training a Generally Curious Agent 🔗](https://arxiv.org/abs/2502.17543)

如何训练你的 LLM 充满好奇心:深入解析 PAPRIKA 框架

引言 我们通常认为大型语言模型 (LLM) 是巨大的静态知识宝库——会说话的百科全书。当你提出一个问题,它们会根据训练过的海量数据集预测下一个可能的 token。但当我们从构建聊天机器人转向构建智能体 (agents) ——即能够独立实现目标的系统时,这种被动特性就成了瓶颈。 ...

2025-02 · 8 分钟 · 3673 字
[One-Step Generalization Ratio Guided Optimization for Domain Generalization 🔗](https://openreview.net/pdf?id=Tv2JDGw920)

解锁鲁棒的 AI:GENIE 如何为泛化而非仅仅为收敛进行优化

引言 想象一下,你正在训练一个 AI 来识别“牛”。你给它喂了数千张牛在郁郁葱葱的绿色牧场中的照片。它达到了 99% 的准确率。然后,你给它看一张牛站在沙滩上的照片。模型自信地预测为“沙子”,或者完全未能识别出动物。 ...

8 分钟 · 3929 字
[LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models 🔗](https://arxiv.org/abs/2504.10415)

超越死记硬背:大语言模型真的能发现新的物理定律吗?

引言: 发现的错觉 想象一下你是一位物理学教授。你让一名学生写下爱因斯坦的质能方程。学生立即写出了 \(E=mc^2\)。这令人印象深刻吗?并不尽然——他们只是记住了这一串著名的字符。现在,想象一下你给同一个学生一张关于弹簧振动的原始实验数据表,并要求他们从头推导出控制定律,且不告诉他们观察的是什么物理现象。如果他们能推导出正确的微分方程,那就不再是死记硬背了;那是发现 。 ...

2025-04 · 9 分钟 · 4330 字
[Learning Smooth and Expressive Interatomic Potentials for Physical Property Prediction 🔗](https://arxiv.org/abs/2502.12147)

AI 中的物理学:为何仅凭测试精度不足以进行材料模拟

AI 中的物理学: 为何仅凭测试精度不足以进行材料模拟 在计算化学和材料科学领域,我们正见证着一场革命。几十年来,密度泛函理论 (Density Functional Theory, DFT) 一直是模拟原子相互作用的黄金标准。它为发现新药物、设计更好的电池以及理解半导体的热学性质提供了量子力学基础。但 DFT 有一个主要瓶颈: 它的速度极其缓慢。其计算成本随着系统中电子数量的增加呈立方级增长 (\(O(n^3)\)) ,这意味着模拟大型系统或长时间尺度通常是不可能的。 ...

2025-02 · 8 分钟 · 3895 字
[Blink of an eye: a simple theory for feature localization in generative models 🔗](https://arxiv.org/abs/2502.00921)

眨眼之间:生成式 AI 关键窗口的统一理论

引言 你是否曾观察过大型语言模型 (LLM) 生成回复的过程,并注意到其行为发生过突然且令人费解的转变?前一刻它还在解决代码问题,下一刻——眨眼之间——它就开始产生幻觉或搜索无关的图片。 ...

2025-02 · 7 分钟 · 3265 字
[How Do Large Language Monkeys Get Their Power (Laws)? 🔗](https://openreview.net/pdf?id=QqVZ28qems)

LLM 扩展的数学悖论:指数级成功如何创造出幂律

LLM 扩展的数学悖论: 指数级成功如何创造出幂律 在人工智能飞速发展的世界里,“扩展 (Scaling) ”是一个神奇的词汇。我们通常讨论的扩展是指训练阶段——增加模型的参数量或投入更多的数据。但最近,一个新的前沿领域开启了: 推理时计算扩展 (Inference-time compute scaling) 。 ...

7 分钟 · 3473 字
[An Online Adaptive Sampling Algorithm for Stochastic Difference-of-convex Optimization with Time-varying Distributions 🔗](https://openreview.net/pdf?id=QmIzUuspWo)

驯服混乱:分布偏移下的优化自适应采样

在机器学习和运筹学的世界里,教科书式的问题通常假设数据来自单一的、静态的分布。你训练模型,数据表现得很“听话”,然后你找到了最优解。 但现实世界很少如此配合。金融市场波动,用户偏好漂移,传感器网络经历环境变化。在这些场景中,生成数据的潜在概率分布会随时间发生变化。这就是时变分布 (time-varying distributions) 的领域。 ...

7 分钟 · 3224 字
[A Generalization Result for Convergence in Learning-to-optimize 🔗](https://arxiv.org/abs/2410.07704)

信任黑盒:为学习型优化器证明收敛性

想象一下你有一辆赛车。你可以自己调试引擎 (手动优化) ,也可以训练一个 AI 来为你调试 (学习优化) 。AI 版本通常要快得多,当你还在调整化油器时,它可能已经冲过了终点线。 ...

2024-10 · 6 分钟 · 2898 字
[Conformal Prediction as Bayesian Quadrature 🔗](https://arxiv.org/abs/2502.13228)

弥合差距——贝叶斯正交如何改进一致性预测

机器学习模型正越来越多地部署在高风险环境中——从诊断疾病到驾驶自动驾驶汽车。在这些场景中,仅有“准确性”是不够的,我们需要安全性。我们需要确信模型不会犯灾难性的错误。 ...

2025-02 · 8 分钟 · 3757 字
[Auditing f-Differential Privacy in One Run 🔗](https://arxiv.org/abs/2410.22235)

利用 f-差分隐私缩小隐私审计的差距

在机器学习快速发展的格局中,差分隐私 (Differential Privacy, DP) 已成为在敏感数据上训练模型的黄金标准。理论上,DP 保证了数据集中任何个人的贡献都不会显著影响模型的输出。然而,理论与实践之间往往存在巨大的鸿沟。实现中的错误、浮点误差或宽松的理论分析都可能导致模型的隐私性低于预期。 ...

2024-10 · 7 分钟 · 3187 字
[ADASPLASH: Adaptive Sparse Flash Attention 🔗](https://arxiv.org/abs/2502.12082)

我们能让注意力机制既稀疏又快速吗?深入解读 ADASPLASH

引言: 长上下文注意力的悖论 Transformer 架构彻底改变了自然语言处理领域,但它隐藏着一个众所周知的秘密: 在大规模应用时效率极其低下。罪魁祸首就是自注意力机制 (Self-Attention) 。在标准形式下,序列中的每一个 token 都要关注其他所有的 token。如果你将输入文档的长度加倍,计算成本不仅仅是加倍——而是变为原来的四倍。这就是臭名昭著的 \(O(n^2)\) 复杂度。 ...

2025-02 · 7 分钟 · 3449 字
[The dark side of the forces: assessing non-conservative force models for atomistic machine learning 🔗](https://arxiv.org/abs/2412.11569)

原力的黑暗面:为什么能量守恒在 AI 化学中至关重要

引言 在计算化学的革命中,机器学习 (ML) 已成为新的光剑。它斩断了密度泛函理论 (DFT) 和量子力学所带来的沉重计算成本,使研究人员能够以极快的速度模拟比以往更大、时间更长的系统。其前提很简单: 训练一个神经网络来预测原子如何相互作用,你就可以模拟从药物发现到电池材料的所有内容。 ...

2024-12 · 5 分钟 · 2476 字
[MGD3: Mode-Guided Dataset Distillation using Diffusion Models 🔗](https://openreview.net/pdf?id=NIe74CY9lk)

以小博大:MGD³ 如何在无需微调的情况下进行数据集蒸馏

以小博大: MGD³ 如何在无需微调的情况下进行数据集蒸馏 在深度学习的现代纪元,人们主要信奉“越大越好”。我们构建巨大的模型,并为其提供更庞大的数据集。然而,当涉及到计算资源和存储时,这种轨迹便触碰到了瓶颈。并非每位研究人员或学生都能使用 H100 GPU 集群。这种瓶颈催生了一个迷人的研究领域: 数据集蒸馏 (Dataset Distillation) 。 ...

8 分钟 · 3577 字
[Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning 🔗](https://arxiv.org/abs/2502.07560)

停止漂移:如何修复持续学习中的灾难性遗忘

想象一下你在学习弹钢琴。你花了几个月的时间精通了古典音乐。然后,你决定学习爵士乐。当你沉浸在爵士和弦和即兴创作中时,你突然意识到自己很难回忆起曾经弹得完美的古典乐曲了。 ...

2025-02 · 7 分钟 · 3044 字
[A Unified Framework for Entropy Search and Expected Improvement in Bayesian Optimization 🔗](https://arxiv.org/abs/2501.18756)

统一贝叶斯优化:为何期望提升(EI)实际上是伪装的熵搜索

引言 在机器学习领域,我们经常需要优化“黑盒”函数——这些函数计算成本高昂,没有已知的梯度,本质上就像一个神秘的盒子: 输入 \(x\),得到一个带有噪声的输出 \(y\)。这就是 贝叶斯优化 (Bayesian Optimization, BO) 的领域。 ...

2025-01 · 7 分钟 · 3488 字
[Sundial: A Family of Highly Capable Time Series Foundation Models 🔗](https://arxiv.org/abs/2502.00816)

解读 Sundial:生成式流匹配(Generative Flow Matching)如何彻底改变时间序列预测

时间序列预测是人类试图解决的最古老的数学问题之一。从古代文明预测作物周期到现代算法在微秒间进行股票交易,目标始终如一: 利用过去来预测未来。然而,时间序列数据本质上是非确定性 (non-deterministic) 的。无论你有多少历史数据,未来永远不会是一个单一的、固定的点——它是一个可能性的分布。 ...

2025-02 · 8 分钟 · 3546 字
[Expected Variational Inequalities 🔗](https://arxiv.org/abs/2502.18605)

逃离难解陷阱:期望变分不等式如何彻底改变均衡计算

在计算机科学、经济学和工程学的世界里,我们往往痴迷于寻找一种平衡状态。无论是预测拥堵城市的交通流量、金融期权定价,还是在复杂的多人博弈中寻找纳什均衡,首选的数学工具往往是 变分不等式 (Variational Inequality, VI) 。 ...

2025-02 · 7 分钟 · 3341 字
[Learning dynamics in linear recurrent neural networks 🔗](https://openreview.net/pdf?id=KGOcrIWYnx)

解锁时间——线性 RNN 如何真正学习时序任务

循环神经网络 (RNN) 是时序计算的主力军。从现代机器学习中 Mamba 等状态空间模型的复兴,到神经科学中认知动力学的建模,RNN 无处不在。我们知道它们确实有效——它们能够捕捉随时间变化的依赖关系,整合信息,并对动态系统进行建模。但在我们的理解中存在一个明显的空白: 我们要并不真正了解它们是如何学习的。 ...

8 分钟 · 3537 字
[Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks 🔗](https://arxiv.org/abs/2507.02119)

神经网络训练中隐藏的普适性与超坍缩之谜

如果你曾经训练过大型神经网络,你会知道这个过程感觉有点像炼金术。你混合数据集、架构和优化器,盯着损失曲线 (希望) 它下降。我们已经开发出了“缩放定律” (Scaling Laws) ——这是根据模型大小和计算预算预测模型最终性能的经验幂律。但模型达到目标的路径——即训练动力学——在很大程度上仍然是一个混乱且不可预测的黑盒。 ...

2025-07 · 6 分钟 · 2907 字