[C-LoRA: Continual Low-Rank Adaptation for Pre-trained Models 🔗](https://arxiv.org/abs/2502.17920)

一个 LoRA 能否统领全局?C-LoRA 终身学习方法介绍

引言: 永无止境学习的挑战 像视觉变换器 (ViT) 和 GPT 风格的语言模型这样的大型预训练模型,通过从海量数据集中学习,蕴含了丰富的通用知识,彻底改变了人工智能领域。而真正的魔力在于我们将这些模型微调以适应特定的下游任务。其中,最流行且高效的微调方法之一是低秩自适应 (LoRA) 。 ...

2025-02 · 6 分钟 · 2965 字
[META-CONTINUAL LEARNING OF NEURAL FIELDS 🔗](https://arxiv.org/abs/2504.05806)

即时学习:深入解析神经场的元持续学习

神经场 (Neural Fields) 是当今机器学习领域最令人振奋的发展之一。你很可能已经见过它们最著名的应用——神经辐射场 (NeRFs) , 它只需少量二维图像就能生成令人惊叹、逼真的三维场景。从本质上看, 神经场 (NFs) 简单而强大: 它们使用神经网络将输入坐标 (如图像中的 \((x, y)\) 或三维场景中的 \((x, y, z)\)) 映射到输出值 (如 RGB 颜色或密度) 。这种优雅的方式能够在图像、音频、视频或三维空间等多种模态中以惊人的紧凑性实现连续数据表示。 ...

2025-04 · 6 分钟 · 2865 字
[Continual Learning with Query-Only Attention 🔗](https://arxiv.org/abs/2510.00365)

抛弃键与值:通往终身学习的极简主义之路

想象一下,你正在教一个机器人做一系列家务。首先,它学会了煮咖啡。接着,你教它如何烤面包。但在学会烤面包后,它完全忘记了怎么煮咖啡。更糟糕的是,随着你不断增加新任务,它会变得“卡住”,完全无法吸收新知识。 ...

2025-10 · 7 分钟 · 3317 字
[Towards Large-Scale In-Context Reinforcement Learning by Meta-Training in Randomized Worlds 🔗](https://arxiv.org/abs/2502.02869)

AnyMDP 与 OmniRL:构建能在随机世界中即时学习的 AI 智能体

想象一下,一个 AI 不仅仅遵循预先编程的指令,而是能够即时学习如何玩新游戏、解决新谜题或在陌生世界中探索——通过经验进行适应,而不是被明确告知该做什么。 ...

2025-02 · 7 分钟 · 3336 字
[UNSUPERVISED META-LEARNING VIA IN-CONTEXT LEARNING 🔗](https://arxiv.org/abs/2405.16124)

CAMeLU:利用上下文学习教 Transformer 从无标签数据中学习

引言: 无标签数据的困境 在机器学习领域,数据为王——但并非所有数据都生而平等。大多数先进模型依赖海量且精心标注的数据集,而收集这些数据集需要耗费巨大的时间和资源。不幸的是,现实世界中的大部分数据并非整齐划一;它们是杂乱的、未标注的且数量庞大。人工智能的需求与现实世界提供的数据之间的这种不匹配,是机器学习系统在日常应用中部署的一大瓶颈。 ...

2024-05 · 8 分钟 · 3845 字
[Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models 🔗](https://arxiv.org/abs/2405.16560)

驯服混乱:分组多样化 AI 模型如何增强无数据元学习

想象一个巨大的数字图书馆——里面收藏的不是书籍,而是预训练的机器学习模型。在 GitHub 和 Hugging Face 等平台上,这样的模型琳琅满目: 它们被训练来完成无数任务,从识别鸟类到检测医学异常。每个模型都蕴含着其领域的宝贵知识,但这些智慧往往因隐私、安全或使用限制而被锁在模型内部,难以共享原始训练数据。 ...

2024-05 · 6 分钟 · 2920 字
[Emergent Abilities in Large Language Models: A Survey 🔗](https://arxiv.org/abs/2503.05788)

“顿悟”时刻:揭开大型语言模型(LLM)神秘的涌现能力

像 GPT‑4、Claude 3.5 和 LLaMA 3 这样的大型语言模型 (LLM) 常常令人感觉仿佛充满魔力。你让它们编写 Python 脚本、总结艰深的学术论文,甚至创作一首十四行诗,它们都能以惊人的技巧作出回应。但关键问题是: 这些技能从何而来? 这些模型的训练目标看似简单——预测句子中的下一个词。然而,这一过程竟然产生了复杂的能力,如多步推理、情境学习和编程。 ...

2025-03 · 8 分钟 · 3946 字
[Learning to Continually Learn with the Bayesian Principle 🔗](https://arxiv.org/abs/2405.18758)

结合贝叶斯与元学习,摆脱灾难性遗忘

想象一下,你教一个机器学习模型识别猫。它学得很好。然后你教它识别狗——突然间,它忘记了猫长什么样。这个令人沮丧的现象被称为灾难性遗忘 (catastrophic forgetting) , 是构建真正智能、自适应系统的最大障碍之一。人工智能如何才能在不抹去过去知识的情况下,随着时间的推移学习新事物呢? ...

2024-05 · 7 分钟 · 3394 字
[Meta In-Context Learning Makes Large Language Models Better Zero and Few-Shot Relation Extractors 🔗](https://arxiv.org/abs/2404.17807)

教大语言模型即学即会:深入解析用于关系抽取的 MICRE

大语言模型 (LLM) 彻底改变了我们学习新任务的方式。通过 上下文学习 (ICL) , 它们可以仅通过提示中的几个示例学习规律并将其应用于新案例。给 GPT-4 展示几个法译英的示例,它就能翻译一个新的法语句子——无需重新训练。这种快速泛化的能力让大语言模型既强大又灵活。 ...

2024-04 · 7 分钟 · 3330 字
[MetaDiff: Meta-Learning with Conditional Diffusion for Few-Shot Learning 🔗](https://arxiv.org/abs/2307.16424)

MetaDiff:我们能像训练扩散模型一样训练少样本学习器吗?

想象一下,只看过一两张照片后,你就能认出一种新的动物——比如耳廓狐。人类非常擅长这种从稀疏数据中快速学习的能力。然而,对于人工智能来说,这种能力是一项巨大的挑战,被称为 少样本学习 (Few-Shot Learning, FSL) 。 虽然深度学习模型在海量数据集上训练后可达到超人性能,但当被要求仅从少数几个样本中学习新概念时,它们往往表现不佳。 ...

2023-07 · 6 分钟 · 3004 字
[Meta-Adapter: An Online Few-shot Learner for Vision-Language Model 🔗](https://arxiv.org/abs/2311.03774)

Meta-Adapter:一种“学会学习”的方法,仅用少量样本即可增强 CLIP

引言: 超越零样本,迈向小样本学习 像 CLIP 这样的大规模视觉语言模型,已经改变了我们处理计算机视觉问题的方式。通过在海量的图文对数据集上进行训练,CLIP 能够识别出它从未明确见过的各种物体和概念——这一壮举被称为 零样本学习 (zero-shot learning) 。 给它一张稀有鸟类或不常见工具的图片,它通常都能正确识别。 ...

2023-11 · 7 分钟 · 3141 字

解锁少样本学习:一种能从数据中学习的通用先验

人类拥有一种非凡的能力,仅凭一两个例子就能学会新概念。只要看过一次巨嘴鸟的图片,你可能一辈子都能认出它。相比之下,深度学习模型是出了名的数据贪婪。它们通常需要成千上万个样本才能达到类似的性能,这使得它们在数据稀缺或收集成本高昂的情境下举步维艰——例如医学影像或专业机器人领域。 ...

7 分钟 · 3234 字

重新审视元持续学习:通过方差缩减稳定 Hessian 估计

想象一下,你正在教一个智能助手一项新技能——比如,识别你的新宠物狗。它很快学会了辨认你的狗,但在此过程中,它却忘记了你是谁。这种令人沮丧的现象被称为 灾难性遗忘 (catastrophic forgetting) ,是构建能够持续学习的人工智能系统中最顽固的挑战之一。问题在于: 我们如何创造出既能适应新信息又不会抹去已知知识的模型? ...

7 分钟 · 3021 字
[LGM-Net: Learning to Generate Matching Networks for Few-Shot Learning 🔗](https://arxiv.org/abs/1905.06331)

即时生成神经网络:深入解析 LGM-Net

人类拥有一种非凡的能力,只需一两个例子就能学会新的概念。给孩子看一张斑马的图片,他们便能在余生中识别出其他的斑马。这种从极少数据中快速学习的能力,与传统的深度学习模型形成了鲜明的对比——后者通常需要成千上万甚至数百万个标注样本才能达到高性能。如何弥合这一差距,是人工智能领域的核心挑战: 构建能够在有限数据下快速适应的模型。 ...

2019-05 · 7 分钟 · 3492 字
[META-LEARNING FOR SEMI-SUPERVISED FEW-SHOT CLASSIFICATION 🔗](https://arxiv.org/abs/1803.00676)

超越标注数据:无标签样本如何助力小样本学习

人类拥有一种卓越的能力,仅凭一两个例子就能学会新概念。只要看过一张鸭嘴兽的照片,你很可能就能认出另一张——即便角度不同。现代人工智能,尤其是深度学习,在这方面却举步维艰。尽管这些模型在图像识别等任务上能取得超人般的表现,但它们通常需要海量数据集,每个类别都要包含成千上万个标注样本。人类和机器在学习能力上的差距,是我们构建灵活、可适应的人工智能系统时面临的主要障碍。 ...

2018-03 · 7 分钟 · 3258 字
[MetaICL: Learning to Learn In Context 🔗](https://arxiv.org/abs/2110.15943)

超越提示工程:MetaICL 如何教会语言模型即时学习

像 GPT-3 这样的大型语言模型 (LM) 具有近乎神奇的能力: 只需展示几个任务示例,它们通常就能自行推理如何处理新的输入。这项技能被称为 上下文学习 (in-context learning, ICL) , 使模型能够在不更改内部参数的情况下即时适应新任务。就像给学生看几道已解的数学题,他们即可领会解法,用于应对新题目。 ...

2021-10 · 6 分钟 · 2836 字
[Meta-Learning Transformers to Improve In-Context Generalization 🔗](https://arxiv.org/abs/2507.05019)

超越大数据:小而多样的数据集能教会 Transformer 更好地泛化吗?

超越大数据: 小而多样的数据集能教会 Transformer 更好地泛化吗? 上下文学习 (In-context learning,ICL) 听起来就像魔法: 在提示中给模型展示几个示例,它便能在不更新任何参数的情况下执行新任务。这项能力——由 GPT-3 等大型模型首次展现——改变了我们对灵活人工智能的认知。但如今,要实现可靠的 ICL,通常依赖从网络上爬取的海量、未经筛选的数据集。这些数据集存储与处理成本高昂,往往带有偏见或噪声,更重要的是——它们让我们难以判断模型究竟是真正地泛化,还是仅仅在记忆。 ...

2025-07 · 11 分钟 · 5368 字
[Rethinking Meta-Learning from a Learning Lens 🔗](https://arxiv.org/abs/2409.08474)

学会关联:任务相似性如何解决元学习的欠拟合问题

元学习,即“学会学习”,是机器学习最具前景的研究领域之一。它的目标是使模型能够仅用少量样本就快速适应新任务——这在个性化机器人、小样本图像分类和自适应医疗系统等应用中至关重要。 ...

2024-09 · 8 分钟 · 3782 字
[Learning to Learn with Contrastive Meta-Objective 🔗](https://arxiv.org/abs/2410.05975)

超越‘即训即测’:对比学习如何为元学习器赋能

人类拥有一种非凡的能力,仅通过少量示例就能掌握新技能。给一个孩子看一张斑马的图片,他们很可能就能在不同情境下认出其他斑马——即使此前从未见过。这与大多数深度学习模型形成了鲜明对比,后者往往需要成千上万甚至数百万个标注样本才能达到类似的准确率。 ...

2024-10 · 6 分钟 · 2882 字
[Metalearning Continual Learning Algorithms 🔗](https://arxiv.org/abs/2312.00276)

教神经网络记忆:一种能学习自身学习算法的人工智能

“记忆的敌人是其他的记忆。”——大卫·伊格曼 神经科学家大卫·伊格曼的这句观察精准地揭示了人工智能领域最顽固的挑战之一: 灾难性遗忘 。 想象一下,你教一个神经网络识别猫。它学得很好,准确率很高。现在,你教同一个网络识别狗。它掌握了新任务——但当你再次给它看猫的图片时,它却一无所知。“狗”的知识覆盖了“猫”的知识。 ...

2023-12 · 8 分钟 · 3551 字