[Shortcut Learning in In-Context Learning: A Survey 🔗](https://arxiv.org/abs/2411.02018)

超越提示:揭示大型语言模型中的捷径学习

大型语言模型 (LLM) ,如 GPT-3、LLaMA、Qwen2 和 GLM,已经彻底改变了人类与技术的交互方式。在它们的众多能力中,情境学习 (In-Context Learning, ICL) 尤为引人注目——它使模型仅通过在提示中观察少量示例就能学习执行新任务,无需再训练。这几乎像魔法一样。但如果这种“魔法”有时隐藏着一个巧妙的幻觉呢? ...

2024-11 · 7 分钟 · 3364 字
[The Mystery of In-Context Learning: A Comprehensive Survey on Interpretation and Analysis 🔗](https://arxiv.org/abs/2311.00237)

破解黑盒:深入探究大语言模型如何即时学习

如果你曾用过 ChatGPT、Llama 或任何其他现代大语言模型 (LLM) ,你一定体验过一种神奇的力量。你只需要给它展示几个任务示例——比如将短句从英语翻译成法语,或将电影评论分类为正面或负面——它就能立刻领会。无需任何重新训练或微调,它便能对新输入执行同样的任务。 ...

2023-11 · 7 分钟 · 3384 字
[CLUST3: INFORMATION INVARIANT TEST-TIME TRAINING 🔗](https://arxiv.org/abs/2310.12345)

ClusT3:利用信息不变聚类适应未知环境

你训练了一个顶尖的图像分类器。它在测试集上达到了 95% 的准确率,你准备好部署它了。然后,它遇到了 真实世界——模糊的照片、雾气弥漫的清晨、歪斜的拍摄角度——性能骤然下降。你的模型在实验室里表现出色,却在现实环境中显得脆弱。 ...

2023-10 · 7 分钟 · 3252 字
[A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts 🔗](https://arxiv.org/abs/2303.15361)

当你的模型遇到真实世界——深入解析测试时自适应

当你的模型遇到真实世界——深入解析测试时自适应 想象一下,你训练了一个在实验室中表现完美的顶尖视觉模型,然后将其部署到现实环境中,却发现随着光照、传感器或环境的变化,其准确率急剧下降。这种脆弱的表现——源于训练数据与测试数据之间的分布偏移——促使研究者提出疑问: 模型能否在使用过程中学习? ...

2023-03 · 10 分钟 · 4937 字
[A Survey on the Intersections of Meta-Learning, Online Learning, and Continual Learning 🔗](https://arxiv.org/abs/2311.05241)

解开纠缠之网:元学习、在线学习与持续学习指南

如果你在深度学习领域待过一段时间,你一定熟悉那套标准的成功秘诀: 收集一个庞大的静态数据集,将其彻底打乱,然后使用小批量随机梯度下降 (SGD) 训练一个神经网络数小时或数天。这种离线、独立同分布 (i.i.d.) 的方法推动了从图像识别到语言翻译等一系列令人瞩目的突破。 ...

2023-11 · 9 分钟 · 4057 字

解码大脑的GPS:相似性如何塑造我们的心理地图

从鸟类跨越大陆的迁徙到伦敦出租车司机穿梭于两万六千条街道,在世界中找到方向的能力是自然界最非凡的壮举之一。在哺乳动物的空间导航核心中,存在一组位于海马体的特殊神经元,被称为位置细胞。这些神经元就像一个内建的“您在此处”标记,只在动物处于环境中的特定位置时才会放电。 ...

6 分钟 · 2598 字
[Enhancing Chess Reinforcement Learning with Graph Representation 🔗](https://arxiv.org/abs/2410.23753)

AlphaGateau:利用图表示,更快、更智能地训练国际象棋引擎

2017年,人工智能界为 AlphaZero 的横空出世而惊艳。这款由 DeepMind 开发的单一算法,仅凭规则从零开始自学,在围棋、将棋和国际象棋上都达到了超人类的水平。这是一项里程碑式的成就,展示了深度强化学习 (RL) 的强大威力。然而,在这场胜利的背后,却存在一个显著的局限: AlphaZero 及类似模型资源密集且结构僵化。 ...

2024-10 · 7 分钟 · 3241 字
[Improved Regret for Bandit Convex Optimization with Delayed Feedback 🔗](https://arxiv.org/abs/2402.09152)

耐心的力量:分块更新如何解决延迟老虎机反馈问题

想象一下,你正在进行一个在线广告活动。每当用户访问网站时,你都必须决定展示哪一则广告。你的目标是最大化点击量,但你面临两个主要挑战。首先,你无法预先知道用户会喜欢哪则广告——只有在广告展示之后,才能知道他们是否点击。这被称为老虎机反馈 (bandit feedback) : 你只获得关于自己所采取行动的信息,而对其他可能的行动一无所知。其次,反馈可能会延迟。用户可能不会立即点击,而确认点击的报告可能需要几分钟、几小时,甚至几天才能送达。 ...

2024-02 · 6 分钟 · 3004 字
[Fair Wasserstein Coresets 🔗](https://arxiv.org/abs/2311.05436)

提炼公平性:公平 Wasserstein 核集如何应对大数据中的偏见问题

引言: 大数据的双刃剑 我们生活在一个数据泛滥的时代。从社交媒体信息流到科学传感器,我们生成和收集信息的速度远远超出了我们的处理能力。对机器学习从业者而言,这种数据的丰富既是福音,也是诅咒。大型数据集能够支撑高精度的模型,但也会产生计算瓶颈——模型训练变得缓慢、昂贵,甚至有时不可行。 ...

2023-11 · 8 分钟 · 3719 字

超越前馈:用循环多层感知机教神经网络学会记忆

引言: 为未知系统建模 想象一下,你正试图为一个复杂的化学反应器或电网创建一个完美的数字孪生。这些系统由无数相互作用的物理过程支配——其中许多过程要么过于复杂,要么我们对其理解不足,以至于无法用简洁的数学方程式完整描述。当从第一性原理出发构建模型变得不可能时,工程师们会转向一种强大的替代方案:** 系统辨识**。 ...

5 分钟 · 2462 字
[LSTM: A Search Space Odyssey 🔗](https://arxiv.org/abs/1503.04069)

终极LSTM对决:深入探索《搜索空间奥德赛》

如果你曾涉足序列数据的深度学习领域,你一定遇到过长短期记忆网络——即大家熟知的 LSTM。自问世以来,LSTM 已成为从语音识别、语言翻译到手写分析和音乐生成等任务的中坚力量。它以能够捕捉数据中的长程依赖而闻名——这种能力是其更简单的前辈 简单循环网络 (SRN) 经常所欠缺的。 ...

2015-03 · 6 分钟 · 2928 字

解锁持续学习:LSTM 如何学会遗忘

循环神经网络 (RNN) 是序列建模的主力军。从预测句子中的下一个单词到预测股票价格,它们维持内部状态 (即“记忆”) 的能力,使其格外适合处理上下文至关重要的任务。然而,传统的 RNN 记忆力出了名的短暂。当面对长序列时,它们容易陷入一种被称为梯度消失的问题——过去事件的影响在训练过程中会快速衰减。 ...

7 分钟 · 3170 字
[A Theoretically Grounded Application of Dropout in Recurrent Neural Networks 🔗](https://arxiv.org/abs/1512.05287)

为什么你的 RNN 会过拟合——以及如何用贝叶斯 Dropout 解决它

循环神经网络 (RNN) 是现代序列建模的主力军。从语言翻译、驱动聊天机器人到分析视频流,它们处理随时间展开的信息的能力已经彻底改变了机器学习。然而,尽管 RNN 功能强大,但它有一个众所周知的弱点: 容易出现过拟合,尤其是在数据有限时。 ...

2015-12 · 7 分钟 · 3037 字
[Recurrent Neural Network Regularization 🔗](https://arxiv.org/abs/1409.2329)

让 Dropout 在 RNN 上奏效的简单技巧

循环神经网络 (RNNs) 是序列建模的主力。从预测句子中的下一个词,到语音转录和语言翻译,它们按序处理信息的能力已经改变了无数现代应用。但和所有深度神经网络一样,它们也有一个致命弱点:** 过拟合**。 ...

2014-09 · 6 分钟 · 2807 字

光合作用中的“断线”:揭开 D2 分支失活之谜

光合作用是地球上最重要的生物过程。它就像我们星球的天然太阳能电池板,将阳光转化为化学能,为几乎所有生物体提供能量。这一过程的核心是一种被称为 光系统 II (PSII) 的分子机器——它负责分解水并释放氧气。 ...

6 分钟 · 2769 字

当神经网络自我演化:开放式演化的新模型

在演化研究中——无论是生物演化还是计算演化——我们都使用模型来理解变异和选择如何创造出复杂系统。但大多数计算模型都有一个关键局限: 演化规则由程序员预先设定。建模者决定突变发生的频率、允许的变化类型以及它们的分布方式。这就像通过只观察自己种下的树木来研究一片森林。 ...

7 分钟 · 3149 字
[Train-Attention: Meta-Learning Where to Focus in Continual Knowledge Learning 🔗](https://arxiv.org/abs/2407.16920)

Train-Attention:教会大语言模型在持续学习中关注关键信息

大语言模型 (LLM) 是令人惊叹的知识系统,但它们有一个长期存在的缺陷: 世界在不断变化,而它们的内部知识却常常停滞不前。当我们试图教给它们新的事实——比如新当选的领导人或新的科学发现——它们常常会遭受灾难性遗忘,即学习新信息会导致已有知识的丢失。这就像往一个满杯子里倒水——新水会把原来的水挤出去。 ...

2024-07 · 3 分钟 · 1237 字
[Iterative Amortized Inference: Unifying In-Context Learning and Learned Optimizers 🔗](https://arxiv.org/abs/2510.11471)

学会学习,一次一批:深入解析迭代式摊销推断

想象一下,你是一位天体物理学家,任务是为不同行星上的物体运动建模。你可以为每颗行星——地球、火星、木星——分别建立一个模拟器。但这太浪费了。物理定律是普适的;只有一个参数,即引力常数,会因行星而异。一个更聪明的策略是建立一个通用模型,并通过从少量样本中估计每颗行星的引力来使其适应。 ...

2025-10 · 6 分钟 · 2823 字
[LONGHORN: STATE SPACE MODELS ARE AMORTIZED ONLINE LEARNERS 🔗](https://arxiv.org/abs/2407.14207)

Longhorn:将状态空间模型重新构想为在线学习器

多年来,Transformer 一直是序列建模领域无可争议的王者,为从 GPT 等大型语言模型到科学与多模态 AI 的各种突破提供了动力。然而,即使是王者也有弱点——Transformer 在效率上存在挑战。其计算成本随序列长度呈二次方增长,这意味着处理一本书的成本远高于处理一个句子。随着研究人员不断推动模型去理解整段代码、长期对话,甚至持续的感官数据流,这一局限已成为严重的瓶颈。 ...

2024-07 · 7 分钟 · 3213 字
[Meta-Reinforcement Learning with Self-Modifying Networks 🔗](https://arxiv.org/abs/2202.02363)

学习如何学习:自修改网络如何解锁真正的人工智能适应性

深度强化学习 (RL) 取得了令人瞩目的成果——人工智能系统已经掌握了电子游戏、能在模拟世界中导航,甚至能够媲美人类专家。然而,这些成功故事背后隐藏着一个关键弱点:** 过度专业化**。大多数强化学习智能体仅能在其训练环境的狭窄范围内表现出色。一旦改变规则、上下文或目标,它们的性能便迅速崩塌。它们没有学会如何学习。 ...

2022-02 · 8 分钟 · 3650 字