](https://deep-paper.org/en/paper/2411.02018/images/cover.png)
超越提示:揭示大型语言模型中的捷径学习
大型语言模型 (LLM) ,如 GPT-3、LLaMA、Qwen2 和 GLM,已经彻底改变了人类与技术的交互方式。在它们的众多能力中,情境学习 (In-Context Learning, ICL) 尤为引人注目——它使模型仅通过在提示中观察少量示例就能学习执行新任务,无需再训练。这几乎像魔法一样。但如果这种“魔法”有时隐藏着一个巧妙的幻觉呢? ...
大型语言模型 (LLM) ,如 GPT-3、LLaMA、Qwen2 和 GLM,已经彻底改变了人类与技术的交互方式。在它们的众多能力中,情境学习 (In-Context Learning, ICL) 尤为引人注目——它使模型仅通过在提示中观察少量示例就能学习执行新任务,无需再训练。这几乎像魔法一样。但如果这种“魔法”有时隐藏着一个巧妙的幻觉呢? ...
如果你曾用过 ChatGPT、Llama 或任何其他现代大语言模型 (LLM) ,你一定体验过一种神奇的力量。你只需要给它展示几个任务示例——比如将短句从英语翻译成法语,或将电影评论分类为正面或负面——它就能立刻领会。无需任何重新训练或微调,它便能对新输入执行同样的任务。 ...
你训练了一个顶尖的图像分类器。它在测试集上达到了 95% 的准确率,你准备好部署它了。然后,它遇到了 真实世界——模糊的照片、雾气弥漫的清晨、歪斜的拍摄角度——性能骤然下降。你的模型在实验室里表现出色,却在现实环境中显得脆弱。 ...
当你的模型遇到真实世界——深入解析测试时自适应 想象一下,你训练了一个在实验室中表现完美的顶尖视觉模型,然后将其部署到现实环境中,却发现随着光照、传感器或环境的变化,其准确率急剧下降。这种脆弱的表现——源于训练数据与测试数据之间的分布偏移——促使研究者提出疑问: 模型能否在使用过程中学习? ...
如果你在深度学习领域待过一段时间,你一定熟悉那套标准的成功秘诀: 收集一个庞大的静态数据集,将其彻底打乱,然后使用小批量随机梯度下降 (SGD) 训练一个神经网络数小时或数天。这种离线、独立同分布 (i.i.d.) 的方法推动了从图像识别到语言翻译等一系列令人瞩目的突破。 ...
从鸟类跨越大陆的迁徙到伦敦出租车司机穿梭于两万六千条街道,在世界中找到方向的能力是自然界最非凡的壮举之一。在哺乳动物的空间导航核心中,存在一组位于海马体的特殊神经元,被称为位置细胞。这些神经元就像一个内建的“您在此处”标记,只在动物处于环境中的特定位置时才会放电。 ...
2017年,人工智能界为 AlphaZero 的横空出世而惊艳。这款由 DeepMind 开发的单一算法,仅凭规则从零开始自学,在围棋、将棋和国际象棋上都达到了超人类的水平。这是一项里程碑式的成就,展示了深度强化学习 (RL) 的强大威力。然而,在这场胜利的背后,却存在一个显著的局限: AlphaZero 及类似模型资源密集且结构僵化。 ...
想象一下,你正在进行一个在线广告活动。每当用户访问网站时,你都必须决定展示哪一则广告。你的目标是最大化点击量,但你面临两个主要挑战。首先,你无法预先知道用户会喜欢哪则广告——只有在广告展示之后,才能知道他们是否点击。这被称为老虎机反馈 (bandit feedback) : 你只获得关于自己所采取行动的信息,而对其他可能的行动一无所知。其次,反馈可能会延迟。用户可能不会立即点击,而确认点击的报告可能需要几分钟、几小时,甚至几天才能送达。 ...
引言: 大数据的双刃剑 我们生活在一个数据泛滥的时代。从社交媒体信息流到科学传感器,我们生成和收集信息的速度远远超出了我们的处理能力。对机器学习从业者而言,这种数据的丰富既是福音,也是诅咒。大型数据集能够支撑高精度的模型,但也会产生计算瓶颈——模型训练变得缓慢、昂贵,甚至有时不可行。 ...
引言: 为未知系统建模 想象一下,你正试图为一个复杂的化学反应器或电网创建一个完美的数字孪生。这些系统由无数相互作用的物理过程支配——其中许多过程要么过于复杂,要么我们对其理解不足,以至于无法用简洁的数学方程式完整描述。当从第一性原理出发构建模型变得不可能时,工程师们会转向一种强大的替代方案:** 系统辨识**。 ...
如果你曾涉足序列数据的深度学习领域,你一定遇到过长短期记忆网络——即大家熟知的 LSTM。自问世以来,LSTM 已成为从语音识别、语言翻译到手写分析和音乐生成等任务的中坚力量。它以能够捕捉数据中的长程依赖而闻名——这种能力是其更简单的前辈 简单循环网络 (SRN) 经常所欠缺的。 ...
循环神经网络 (RNN) 是序列建模的主力军。从预测句子中的下一个单词到预测股票价格,它们维持内部状态 (即“记忆”) 的能力,使其格外适合处理上下文至关重要的任务。然而,传统的 RNN 记忆力出了名的短暂。当面对长序列时,它们容易陷入一种被称为梯度消失的问题——过去事件的影响在训练过程中会快速衰减。 ...
循环神经网络 (RNN) 是现代序列建模的主力军。从语言翻译、驱动聊天机器人到分析视频流,它们处理随时间展开的信息的能力已经彻底改变了机器学习。然而,尽管 RNN 功能强大,但它有一个众所周知的弱点: 容易出现过拟合,尤其是在数据有限时。 ...
循环神经网络 (RNNs) 是序列建模的主力。从预测句子中的下一个词,到语音转录和语言翻译,它们按序处理信息的能力已经改变了无数现代应用。但和所有深度神经网络一样,它们也有一个致命弱点:** 过拟合**。 ...
光合作用是地球上最重要的生物过程。它就像我们星球的天然太阳能电池板,将阳光转化为化学能,为几乎所有生物体提供能量。这一过程的核心是一种被称为 光系统 II (PSII) 的分子机器——它负责分解水并释放氧气。 ...
在演化研究中——无论是生物演化还是计算演化——我们都使用模型来理解变异和选择如何创造出复杂系统。但大多数计算模型都有一个关键局限: 演化规则由程序员预先设定。建模者决定突变发生的频率、允许的变化类型以及它们的分布方式。这就像通过只观察自己种下的树木来研究一片森林。 ...
大语言模型 (LLM) 是令人惊叹的知识系统,但它们有一个长期存在的缺陷: 世界在不断变化,而它们的内部知识却常常停滞不前。当我们试图教给它们新的事实——比如新当选的领导人或新的科学发现——它们常常会遭受灾难性遗忘,即学习新信息会导致已有知识的丢失。这就像往一个满杯子里倒水——新水会把原来的水挤出去。 ...
想象一下,你是一位天体物理学家,任务是为不同行星上的物体运动建模。你可以为每颗行星——地球、火星、木星——分别建立一个模拟器。但这太浪费了。物理定律是普适的;只有一个参数,即引力常数,会因行星而异。一个更聪明的策略是建立一个通用模型,并通过从少量样本中估计每颗行星的引力来使其适应。 ...
多年来,Transformer 一直是序列建模领域无可争议的王者,为从 GPT 等大型语言模型到科学与多模态 AI 的各种突破提供了动力。然而,即使是王者也有弱点——Transformer 在效率上存在挑战。其计算成本随序列长度呈二次方增长,这意味着处理一本书的成本远高于处理一个句子。随着研究人员不断推动模型去理解整段代码、长期对话,甚至持续的感官数据流,这一局限已成为严重的瓶颈。 ...
深度强化学习 (RL) 取得了令人瞩目的成果——人工智能系统已经掌握了电子游戏、能在模拟世界中导航,甚至能够媲美人类专家。然而,这些成功故事背后隐藏着一个关键弱点:** 过度专业化**。大多数强化学习智能体仅能在其训练环境的狭窄范围内表现出色。一旦改变规则、上下文或目标,它们的性能便迅速崩塌。它们没有学会如何学习。 ...