](https://deep-paper.org/en/paper/2505.22356/images/cover.png)
你的模型准备好面对现实世界了吗?深入了解适用性过滤器
引言 我们生活在一个机器学习模型正以惊人的速度从研究实验室走向现实世界的时代。我们训练模型来诊断疾病、批准贷款和驾驶汽车。在训练实验室的可控环境中,我们使用带标签的测试集来衡量成功。我们确切地知道模型的准确率是多少,因为我们拥有标准答案 (基本事实标签) 。 ...
](https://deep-paper.org/en/paper/2505.22356/images/cover.png)
引言 我们生活在一个机器学习模型正以惊人的速度从研究实验室走向现实世界的时代。我们训练模型来诊断疾病、批准贷款和驾驶汽车。在训练实验室的可控环境中,我们使用带标签的测试集来衡量成功。我们确切地知道模型的准确率是多少,因为我们拥有标准答案 (基本事实标签) 。 ...
](https://deep-paper.org/en/paper/2502.17543/images/cover.png)
引言 我们通常认为大型语言模型 (LLM) 是巨大的静态知识宝库——会说话的百科全书。当你提出一个问题,它们会根据训练过的海量数据集预测下一个可能的 token。但当我们从构建聊天机器人转向构建智能体 (agents) ——即能够独立实现目标的系统时,这种被动特性就成了瓶颈。 ...
](https://deep-paper.org/en/paper/10381_one_step_generalization_-1838/images/cover.png)
引言 想象一下,你正在训练一个 AI 来识别“牛”。你给它喂了数千张牛在郁郁葱葱的绿色牧场中的照片。它达到了 99% 的准确率。然后,你给它看一张牛站在沙滩上的照片。模型自信地预测为“沙子”,或者完全未能识别出动物。 ...
](https://deep-paper.org/en/paper/2504.10415/images/cover.png)
引言: 发现的错觉 想象一下你是一位物理学教授。你让一名学生写下爱因斯坦的质能方程。学生立即写出了 \(E=mc^2\)。这令人印象深刻吗?并不尽然——他们只是记住了这一串著名的字符。现在,想象一下你给同一个学生一张关于弹簧振动的原始实验数据表,并要求他们从头推导出控制定律,且不告诉他们观察的是什么物理现象。如果他们能推导出正确的微分方程,那就不再是死记硬背了;那是发现 。 ...
](https://deep-paper.org/en/paper/2502.12147/images/cover.png)
AI 中的物理学: 为何仅凭测试精度不足以进行材料模拟 在计算化学和材料科学领域,我们正见证着一场革命。几十年来,密度泛函理论 (Density Functional Theory, DFT) 一直是模拟原子相互作用的黄金标准。它为发现新药物、设计更好的电池以及理解半导体的热学性质提供了量子力学基础。但 DFT 有一个主要瓶颈: 它的速度极其缓慢。其计算成本随着系统中电子数量的增加呈立方级增长 (\(O(n^3)\)) ,这意味着模拟大型系统或长时间尺度通常是不可能的。 ...
](https://deep-paper.org/en/paper/2502.00921/images/cover.png)
引言 你是否曾观察过大型语言模型 (LLM) 生成回复的过程,并注意到其行为发生过突然且令人费解的转变?前一刻它还在解决代码问题,下一刻——眨眼之间——它就开始产生幻觉或搜索无关的图片。 ...
](https://deep-paper.org/en/paper/12080_how_do_large_language_mo-1833/images/cover.png)
LLM 扩展的数学悖论: 指数级成功如何创造出幂律 在人工智能飞速发展的世界里,“扩展 (Scaling) ”是一个神奇的词汇。我们通常讨论的扩展是指训练阶段——增加模型的参数量或投入更多的数据。但最近,一个新的前沿领域开启了: 推理时计算扩展 (Inference-time compute scaling) 。 ...
](https://deep-paper.org/en/paper/5080_an_online_adaptive_sampli-1832/images/cover.png)
在机器学习和运筹学的世界里,教科书式的问题通常假设数据来自单一的、静态的分布。你训练模型,数据表现得很“听话”,然后你找到了最优解。 但现实世界很少如此配合。金融市场波动,用户偏好漂移,传感器网络经历环境变化。在这些场景中,生成数据的潜在概率分布会随时间发生变化。这就是时变分布 (time-varying distributions) 的领域。 ...
](https://deep-paper.org/en/paper/2410.07704/images/cover.png)
想象一下你有一辆赛车。你可以自己调试引擎 (手动优化) ,也可以训练一个 AI 来为你调试 (学习优化) 。AI 版本通常要快得多,当你还在调整化油器时,它可能已经冲过了终点线。 ...
](https://deep-paper.org/en/paper/2502.13228/images/cover.png)
机器学习模型正越来越多地部署在高风险环境中——从诊断疾病到驾驶自动驾驶汽车。在这些场景中,仅有“准确性”是不够的,我们需要安全性。我们需要确信模型不会犯灾难性的错误。 ...
](https://deep-paper.org/en/paper/2410.22235/images/cover.png)
在机器学习快速发展的格局中,差分隐私 (Differential Privacy, DP) 已成为在敏感数据上训练模型的黄金标准。理论上,DP 保证了数据集中任何个人的贡献都不会显著影响模型的输出。然而,理论与实践之间往往存在巨大的鸿沟。实现中的错误、浮点误差或宽松的理论分析都可能导致模型的隐私性低于预期。 ...
](https://deep-paper.org/en/paper/2502.12082/images/cover.png)
引言: 长上下文注意力的悖论 Transformer 架构彻底改变了自然语言处理领域,但它隐藏着一个众所周知的秘密: 在大规模应用时效率极其低下。罪魁祸首就是自注意力机制 (Self-Attention) 。在标准形式下,序列中的每一个 token 都要关注其他所有的 token。如果你将输入文档的长度加倍,计算成本不仅仅是加倍——而是变为原来的四倍。这就是臭名昭著的 \(O(n^2)\) 复杂度。 ...
](https://deep-paper.org/en/paper/2412.11569/images/cover.png)
引言 在计算化学的革命中,机器学习 (ML) 已成为新的光剑。它斩断了密度泛函理论 (DFT) 和量子力学所带来的沉重计算成本,使研究人员能够以极快的速度模拟比以往更大、时间更长的系统。其前提很简单: 训练一个神经网络来预测原子如何相互作用,你就可以模拟从药物发现到电池材料的所有内容。 ...
](https://deep-paper.org/en/paper/7693_mgd_3_mode_guided_dataset-1826/images/cover.png)
以小博大: MGD³ 如何在无需微调的情况下进行数据集蒸馏 在深度学习的现代纪元,人们主要信奉“越大越好”。我们构建巨大的模型,并为其提供更庞大的数据集。然而,当涉及到计算资源和存储时,这种轨迹便触碰到了瓶颈。并非每位研究人员或学生都能使用 H100 GPU 集群。这种瓶颈催生了一个迷人的研究领域: 数据集蒸馏 (Dataset Distillation) 。 ...
](https://deep-paper.org/en/paper/2502.07560/images/cover.png)
想象一下你在学习弹钢琴。你花了几个月的时间精通了古典音乐。然后,你决定学习爵士乐。当你沉浸在爵士和弦和即兴创作中时,你突然意识到自己很难回忆起曾经弹得完美的古典乐曲了。 ...
](https://deep-paper.org/en/paper/2501.18756/images/cover.png)
引言 在机器学习领域,我们经常需要优化“黑盒”函数——这些函数计算成本高昂,没有已知的梯度,本质上就像一个神秘的盒子: 输入 \(x\),得到一个带有噪声的输出 \(y\)。这就是 贝叶斯优化 (Bayesian Optimization, BO) 的领域。 ...
](https://deep-paper.org/en/paper/2502.00816/images/cover.png)
时间序列预测是人类试图解决的最古老的数学问题之一。从古代文明预测作物周期到现代算法在微秒间进行股票交易,目标始终如一: 利用过去来预测未来。然而,时间序列数据本质上是非确定性 (non-deterministic) 的。无论你有多少历史数据,未来永远不会是一个单一的、固定的点——它是一个可能性的分布。 ...
](https://deep-paper.org/en/paper/2502.18605/images/cover.png)
在计算机科学、经济学和工程学的世界里,我们往往痴迷于寻找一种平衡状态。无论是预测拥堵城市的交通流量、金融期权定价,还是在复杂的多人博弈中寻找纳什均衡,首选的数学工具往往是 变分不等式 (Variational Inequality, VI) 。 ...
](https://deep-paper.org/en/paper/11083_learning_dynamics_in_lin-1818/images/cover.png)
循环神经网络 (RNN) 是时序计算的主力军。从现代机器学习中 Mamba 等状态空间模型的复兴,到神经科学中认知动力学的建模,RNN 无处不在。我们知道它们确实有效——它们能够捕捉随时间变化的依赖关系,整合信息,并对动态系统进行建模。但在我们的理解中存在一个明显的空白: 我们要并不真正了解它们是如何学习的。 ...
](https://deep-paper.org/en/paper/2507.02119/images/cover.png)
如果你曾经训练过大型神经网络,你会知道这个过程感觉有点像炼金术。你混合数据集、架构和优化器,盯着损失曲线 (希望) 它下降。我们已经开发出了“缩放定律” (Scaling Laws) ——这是根据模型大小和计算预算预测模型最终性能的经验幂律。但模型达到目标的路径——即训练动力学——在很大程度上仍然是一个混乱且不可预测的黑盒。 ...