Papers

[Shortcut Learning in In-Context Learning: A Survey 🔗](https://arxiv.org/abs/2411.02018)

超越提示：揭示大型语言模型中的捷径学习

大型语言模型 (LLM) ，如 GPT-3、LLaMA、Qwen2 和 GLM，已经彻底改变了人类与技术的交互方式。在它们的众多能力中，情境学习 (In-Context Learning, ICL) 尤为引人注目——它使模型仅通过在提示中观察少量示例就能学习执行新任务，无需再训练。这几乎像魔法一样。但如果这种“魔法”有时隐藏着一个巧妙的幻觉呢？ ...

[The Mystery of In-Context Learning: A Comprehensive Survey on Interpretation and Analysis 🔗](https://arxiv.org/abs/2311.00237)

破解黑盒：深入探究大语言模型如何即时学习

如果你曾用过 ChatGPT、Llama 或任何其他现代大语言模型 (LLM) ，你一定体验过一种神奇的力量。你只需要给它展示几个任务示例——比如将短句从英语翻译成法语，或将电影评论分类为正面或负面——它就能立刻领会。无需任何重新训练或微调，它便能对新输入执行同样的任务。 ...

[CLUST3: INFORMATION INVARIANT TEST-TIME TRAINING 🔗](https://arxiv.org/abs/2310.12345)

ClusT3：利用信息不变聚类适应未知环境

你训练了一个顶尖的图像分类器。它在测试集上达到了 95% 的准确率，你准备好部署它了。然后，它遇到了真实世界——模糊的照片、雾气弥漫的清晨、歪斜的拍摄角度——性能骤然下降。你的模型在实验室里表现出色，却在现实环境中显得脆弱。 ...

[A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts 🔗](https://arxiv.org/abs/2303.15361)

当你的模型遇到真实世界——深入解析测试时自适应

当你的模型遇到真实世界——深入解析测试时自适应想象一下，你训练了一个在实验室中表现完美的顶尖视觉模型，然后将其部署到现实环境中，却发现随着光照、传感器或环境的变化，其准确率急剧下降。这种脆弱的表现——源于训练数据与测试数据之间的分布偏移——促使研究者提出疑问: 模型能否在使用过程中学习？ ...

[A Survey on the Intersections of Meta-Learning, Online Learning, and Continual Learning 🔗](https://arxiv.org/abs/2311.05241)

解开纠缠之网：元学习、在线学习与持续学习指南

如果你在深度学习领域待过一段时间，你一定熟悉那套标准的成功秘诀: 收集一个庞大的静态数据集，将其彻底打乱，然后使用小批量随机梯度下降 (SGD) 训练一个神经网络数小时或数天。这种离线、独立同分布 (i.i.d.) 的方法推动了从图像识别到语言翻译等一系列令人瞩目的突破。 ...

解码大脑的GPS：相似性如何塑造我们的心理地图

从鸟类跨越大陆的迁徙到伦敦出租车司机穿梭于两万六千条街道，在世界中找到方向的能力是自然界最非凡的壮举之一。在哺乳动物的空间导航核心中，存在一组位于海马体的特殊神经元，被称为位置细胞。这些神经元就像一个内建的“您在此处”标记，只在动物处于环境中的特定位置时才会放电。 ...

[Enhancing Chess Reinforcement Learning with Graph Representation 🔗](https://arxiv.org/abs/2410.23753)

AlphaGateau：利用图表示，更快、更智能地训练国际象棋引擎

2017年，人工智能界为 AlphaZero 的横空出世而惊艳。这款由 DeepMind 开发的单一算法，仅凭规则从零开始自学，在围棋、将棋和国际象棋上都达到了超人类的水平。这是一项里程碑式的成就，展示了深度强化学习 (RL) 的强大威力。然而，在这场胜利的背后，却存在一个显著的局限: AlphaZero 及类似模型资源密集且结构僵化。 ...

[Improved Regret for Bandit Convex Optimization with Delayed Feedback 🔗](https://arxiv.org/abs/2402.09152)

耐心的力量：分块更新如何解决延迟老虎机反馈问题

想象一下，你正在进行一个在线广告活动。每当用户访问网站时，你都必须决定展示哪一则广告。你的目标是最大化点击量，但你面临两个主要挑战。首先，你无法预先知道用户会喜欢哪则广告——只有在广告展示之后，才能知道他们是否点击。这被称为老虎机反馈 (bandit feedback) : 你只获得关于自己所采取行动的信息，而对其他可能的行动一无所知。其次，反馈可能会延迟。用户可能不会立即点击，而确认点击的报告可能需要几分钟、几小时，甚至几天才能送达。 ...

[Fair Wasserstein Coresets 🔗](https://arxiv.org/abs/2311.05436)

提炼公平性：公平 Wasserstein 核集如何应对大数据中的偏见问题

引言: 大数据的双刃剑我们生活在一个数据泛滥的时代。从社交媒体信息流到科学传感器，我们生成和收集信息的速度远远超出了我们的处理能力。对机器学习从业者而言，这种数据的丰富既是福音，也是诅咒。大型数据集能够支撑高精度的模型，但也会产生计算瓶颈——模型训练变得缓慢、昂贵，甚至有时不可行。 ...

超越前馈：用循环多层感知机教神经网络学会记忆

引言: 为未知系统建模想象一下，你正试图为一个复杂的化学反应器或电网创建一个完美的数字孪生。这些系统由无数相互作用的物理过程支配——其中许多过程要么过于复杂，要么我们对其理解不足，以至于无法用简洁的数学方程式完整描述。当从第一性原理出发构建模型变得不可能时，工程师们会转向一种强大的替代方案:** 系统辨识**。 ...

[LSTM: A Search Space Odyssey 🔗](https://arxiv.org/abs/1503.04069)

终极LSTM对决：深入探索《搜索空间奥德赛》

如果你曾涉足序列数据的深度学习领域，你一定遇到过长短期记忆网络——即大家熟知的 LSTM。自问世以来，LSTM 已成为从语音识别、语言翻译到手写分析和音乐生成等任务的中坚力量。它以能够捕捉数据中的长程依赖而闻名——这种能力是其更简单的前辈简单循环网络 (SRN) 经常所欠缺的。 ...

解锁持续学习：LSTM 如何学会遗忘

循环神经网络 (RNN) 是序列建模的主力军。从预测句子中的下一个单词到预测股票价格，它们维持内部状态 (即“记忆”) 的能力，使其格外适合处理上下文至关重要的任务。然而，传统的 RNN 记忆力出了名的短暂。当面对长序列时，它们容易陷入一种被称为梯度消失的问题——过去事件的影响在训练过程中会快速衰减。 ...

[A Theoretically Grounded Application of Dropout in Recurrent Neural Networks 🔗](https://arxiv.org/abs/1512.05287)

为什么你的 RNN 会过拟合——以及如何用贝叶斯 Dropout 解决它

循环神经网络 (RNN) 是现代序列建模的主力军。从语言翻译、驱动聊天机器人到分析视频流，它们处理随时间展开的信息的能力已经彻底改变了机器学习。然而，尽管 RNN 功能强大，但它有一个众所周知的弱点: 容易出现过拟合，尤其是在数据有限时。 ...

[Recurrent Neural Network Regularization 🔗](https://arxiv.org/abs/1409.2329)

让 Dropout 在 RNN 上奏效的简单技巧

循环神经网络 (RNNs) 是序列建模的主力。从预测句子中的下一个词，到语音转录和语言翻译，它们按序处理信息的能力已经改变了无数现代应用。但和所有深度神经网络一样，它们也有一个致命弱点:** 过拟合**。 ...

光合作用中的“断线”：揭开 D2 分支失活之谜

光合作用是地球上最重要的生物过程。它就像我们星球的天然太阳能电池板，将阳光转化为化学能，为几乎所有生物体提供能量。这一过程的核心是一种被称为光系统 II (PSII) 的分子机器——它负责分解水并释放氧气。 ...

当神经网络自我演化：开放式演化的新模型

在演化研究中——无论是生物演化还是计算演化——我们都使用模型来理解变异和选择如何创造出复杂系统。但大多数计算模型都有一个关键局限: 演化规则由程序员预先设定。建模者决定突变发生的频率、允许的变化类型以及它们的分布方式。这就像通过只观察自己种下的树木来研究一片森林。 ...

[Train-Attention: Meta-Learning Where to Focus in Continual Knowledge Learning 🔗](https://arxiv.org/abs/2407.16920)

Train-Attention：教会大语言模型在持续学习中关注关键信息

大语言模型 (LLM) 是令人惊叹的知识系统，但它们有一个长期存在的缺陷: 世界在不断变化，而它们的内部知识却常常停滞不前。当我们试图教给它们新的事实——比如新当选的领导人或新的科学发现——它们常常会遭受灾难性遗忘，即学习新信息会导致已有知识的丢失。这就像往一个满杯子里倒水——新水会把原来的水挤出去。 ...

[Iterative Amortized Inference: Unifying In-Context Learning and Learned Optimizers 🔗](https://arxiv.org/abs/2510.11471)

学会学习，一次一批：深入解析迭代式摊销推断

想象一下，你是一位天体物理学家，任务是为不同行星上的物体运动建模。你可以为每颗行星——地球、火星、木星——分别建立一个模拟器。但这太浪费了。物理定律是普适的；只有一个参数，即引力常数，会因行星而异。一个更聪明的策略是建立一个通用模型，并通过从少量样本中估计每颗行星的引力来使其适应。 ...

[LONGHORN: STATE SPACE MODELS ARE AMORTIZED ONLINE LEARNERS 🔗](https://arxiv.org/abs/2407.14207)

Longhorn：将状态空间模型重新构想为在线学习器

多年来，Transformer 一直是序列建模领域无可争议的王者，为从 GPT 等大型语言模型到科学与多模态 AI 的各种突破提供了动力。然而，即使是王者也有弱点——Transformer 在效率上存在挑战。其计算成本随序列长度呈二次方增长，这意味着处理一本书的成本远高于处理一个句子。随着研究人员不断推动模型去理解整段代码、长期对话，甚至持续的感官数据流，这一局限已成为严重的瓶颈。 ...

[Meta-Reinforcement Learning with Self-Modifying Networks 🔗](https://arxiv.org/abs/2202.02363)

学习如何学习：自修改网络如何解锁真正的人工智能适应性

深度强化学习 (RL) 取得了令人瞩目的成果——人工智能系统已经掌握了电子游戏、能在模拟世界中导航，甚至能够媲美人类专家。然而，这些成功故事背后隐藏着一个关键弱点:** 过度专业化**。大多数强化学习智能体仅能在其训练环境的狭窄范围内表现出色。一旦改变规则、上下文或目标，它们的性能便迅速崩塌。它们没有学会如何学习。 ...