[Learning to Reason from Feedback at Test-Time 🔗](https://arxiv.org/abs/2502.15771)

别再重复犯错:LLM 如何实时从反馈中学习

大型语言模型 (LLM) 功能极其强大,但它们在一个微妙的弱点上却举步维艰——复杂的多步推理。如果你让一个模型解决一道奥林匹克级别的数学题或编程竞赛难题,它的首次尝试往往是错误的。挑战不在于生成答案,而在于如何有效地从失败中学习。 ...

2025-02 · 6 分钟 · 2895 字
[BACKPROPAMINE: TRAINING SELF-MODIFYING NEURAL NETWORKS WITH DIFFERENTIABLE NEUROMODULATED PLASTICITY 🔗](https://arxiv.org/abs/2002.10585)

Backpropamine:教神经网络自我重构

人脑是适应性的杰作。从学习一门新语言到掌握一种乐器,人类可以在一生中不断获得复杂的技能。这种被称为“终身学习”的卓越能力,与大多数人工神经网络的工作方式形成鲜明对比。通常,一个人工智能模型在大型数据集上只训练一次,然后其连接 (即突触权重) 就被固定下来并用于部署。如果希望它学习新的内容,往往需要重新训练整个系统——这个过程既缓慢又昂贵,而且容易出现灾难性遗忘——丢失先前学到的知识。 ...

2020-02 · 7 分钟 · 3176 字

超越反向传播:自修改突触如何解锁快速强化学习

深度强化学习 (RL) 取得了非凡的成果——从能够精通复杂电子游戏的智能体,到学会行走和操纵物体的机器人。标准方法是训练一个权重固定的神经网络,通过数百万次试验并使用梯度下降进行优化。尽管这种方法很强大,但过程缓慢,且生成的智能体高度特化。就像一位不会下跳棋的国际象棋大师,这些智能体在严格定义的任务中表现出色,但当规则变化时却无法适应。 ...

7 分钟 · 3156 字
[COMMON SENSE IS ALL YOU NEED 🔗](https://arxiv.org/abs/2501.06642)

为什么你的猫仍然比最先进的人工智能更聪明

人工智能以其强大的能力令人惊叹。它能创作艺术、解决复杂问题,并能进行听起来几乎与人类无异的对话。然而,尽管取得了这些成就,人工智能仍然缺乏一种连你的猫都具备的基本能力——常识。 ...

2025-01 · 7 分钟 · 3434 字
[Does More Inference-Time Compute Really Help Robustness? 🔗](https://arxiv.org/abs/2507.15974)

想得越多,问题越多?当额外计算削弱大语言模型鲁棒性时

大语言模型 (LLM) 正变得越来越聪明——不仅因规模扩大,更因它们开始*“思考”得更多。研究人员发现,在推理阶段分配额外的计算资源——让模型在给出最终答案前生成更长的内部独白或推理链*——可以显著提升其在复杂任务上的表现。最近的研究甚至指出,这种被称为 **推理时扩展 **(inference-time scaling) 的做法,还能让模型在面对对抗性攻击时更具鲁棒性。看起来,这是一个智能且安全的双赢局面。 ...

2025-07 · 7 分钟 · 3062 字
[Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection 🔗](https://arxiv.org/abs/2505.19475)

即时训练:LLM 如何在测试中持续自我提升

大语言模型 (LLM) 无疑非常强大,但它们有一个根本性的局限: 通常是静态的。一旦在海量数据集上训练完成,其参数随之冻结并部署到现实世界中——从此不再学习。当测试数据与训练分布相似时,这种*“一次训练,永久测试”*的模式运行良好。但当模型遇到新情况——例如新颖的问题类型或细微的领域偏移时,会发生什么?性能可能会急剧下滑。 ...

2025-05 · 7 分钟 · 3067 字
[A Comprehensive Survey on Self-Interpretable Neural Networks 🔗](https://arxiv.org/abs/2501.15638)

超越黑箱:深入探索自可解释神经网络

超越黑箱: 深入探索自可解释神经网络 神经网络推动了许多现代人工智能的突破——从医学成像、药物研发到推荐系统和自主智能体。然而,一个反复出现的质疑始终存在: 这些模型往往是“黑箱”。它们能够做出准确的预测,却几乎不提供任何关于决策原因的洞察。在高风险场景中,这种不透明是不可接受的。 ...

2025-01 · 11 分钟 · 5244 字
[Advancing Large Language Model Attribution through Self-Improving 🔗](https://arxiv.org/abs/2410.13298)

LLM 如何自我学习,变得更值得信赖

大语言模型 (LLM) 是卓越的工具——能够几乎瞬间回答复杂问题、生成代码和总结文档。然而,它们都有一个顽固的缺陷:** 幻觉**。当你向 LLM 询问信息时,它可能会自信地生成一个流畅、详细但完全错误的答案。 ...

2024-10 · 6 分钟 · 2925 字
[Amortized Bayesian Local Interpolation Network: Fast covariance parameter estimation for Gaussian Processes 🔗](https://arxiv.org/abs/2411.06324)

A-BLINK:使用神经网络为高斯过程推理提速

高斯过程 (GP) 是空间统计学中的瑞士军刀。它们是灵活、可解释且功能强大的工具,用于建模空间相关数据——从预测矿藏到绘制气候趋势图,无处不在。高斯过程的一个核心特性是能够通过一个称为 克里金法 (Kriging) 的过程,在新的、未观测到的位置上进行预测。不幸的是,这种强大功能的计算代价非常高昂。 ...

2024-11 · 6 分钟 · 2938 字
[Testing and Improving the Robustness of Amortized Bayesian Inference for Cognitive Models 🔗](https://arxiv.org/abs/2412.20586)

AI、大脑模型与混乱数据:构建鲁棒的摊销贝叶斯推断

引言: 一次点击背后的隐患 想象一位科学家正在进行一项认知实验。参与者凝视着屏幕,做出瞬间的决定。实验收集了数百个数据点——反应时与选择。但如果某个参与者突然分心?或者手指一滑,异常快速地按下按钮?这个单独的异常数据点——一个离群值——可能扭曲统计分析,影响参数估计,甚至导致完全错误的结论。 ...

2024-12 · 8 分钟 · 3773 字
[ROBUST SIMULATION-BASED INFERENCE UNDER MISSING DATA VIA NEURAL PROCESSES 🔗](https://arxiv.org/abs/2503.01287)

弥合差距:RISE 如何应对基于模拟的推断中的缺失数据

引言: 科学模拟器中的缺失数据问题 从流行病学中对疾病传播进行建模,到天体物理学中模拟引力波,计算机模拟已成为理解复杂现象不可或缺的工具。这些机理模型——通常被称为 *模拟器 *(simulators) ——使科学家能够探索理论模型在各种条件下的行为,检验假设,并估计那些无法通过实验直接获得的参数。 ...

2025-03 · 7 分钟 · 3066 字
[Amortized Probabilistic Conditioning for Optimization, Simulation and Inference 🔗](https://arxiv.org/abs/2410.15320)

ACE:一个统一视觉、优化和科学模拟的 Transformer 模型

现代机器学习的蓬勃发展得益于*摊销 *(amortization) 思想——一次性训练大型模型,使其能够即时应用于许多新问题。像 GPT-4 或 Stable Diffusion 这样的预训练模型正是这一原则的体现: 通过从海量数据中学习通用结构,它们能够快速适应各种任务。基于 Transformer 的架构,如神经过程 (Neural Processes) ,将这一概念扩展到概率元学习领域,实现了跨不同领域的带不确定性预测。 ...

2024-10 · 7 分钟 · 3187 字
[ORAL: Prompting Your Large-Scale LoRAs via Conditional Recurrent Diffusion 🔗](https://arxiv.org/abs/2503.24354)

按需生成 AI 大脑:ORAL 如何为不断演进的 LLM 打造 LoRA 适配器

大型语言模型 (LLM) 如 LLaMA、Mistral 和 GPT 发展迅速,每隔几个月就会发布功能更强大的版本。这种创新速度令人振奋,但对于开发者和研究人员来说,也带来了一个重大痛点: 在花费数天或数周为特定任务微调模型后,新版本的发布可能让你耗费心血的工作变得过时。为了享受改进后的基础模型,你必须从头开始进行昂贵的重新训练。 ...

2025-03 · 6 分钟 · 2938 字
[Bag of Tricks for Inference-time Computation of LLM Reasoning 🔗](https://arxiv.org/abs/2502.07191)

超越训练循环:用推理时技巧解锁 LLM 的推理能力

大语言模型 (LLM) 的能力已变得惊人,能够解决曾经专属于人类专家的问题——涵盖数学、编程和科学推理等领域。传统上,我们通过扩大模型规模并在更大的数据集上进行再训练来提升模型性能,这一过程需要巨大的计算资源。但如果我们能在完全不重新训练的情况下,让现有模型思考得更好呢? ...

2025-02 · 6 分钟 · 3001 字
[Neural Methods for Amortized Inference 🔗](https://arxiv.org/abs/2404.12484)

一次训练,永续推断:深入探讨摊销神经推断

统计推断将数据转化为决策。无论是估计疾病传播率、校准物理模拟器,还是量化气候模型参数的不确定性,推断都处在科学发现的核心位置。传统工具如马尔可夫链蒙特卡洛 (MCMC) 能够提供渐近精确的答案,但运算速度往往极其缓慢: 每获得一个新数据集,通常都需要重新运行耗时的优化或采样过程。 ...

2024-04 · 10 分钟 · 4922 字
[PROMPTBREEDER: SELF-REFERENTIAL SELF-IMPROVEMENT VIA PROMPT EVOLUTION 🔗](https://arxiv.org/abs/2309.16797)

Promptbreeder:大型语言模型如何自我教学,成为更优秀的问题解决者

大型语言模型 (LLMs) 的能力极其强大,但要完全释放它们的潜力,往往依赖于一门神秘的艺术:** 提示词工程 (prompt engineering)**。措辞的微小改变、一条不同的指令或一个新的示例,都可能将一个语无伦次的回答变成杰作。像 思维链 (Chain-of-Thought, CoT) 提示这类技术——即要求模型“一步一步地思考”——表明,正确的提示策略可以极大地提升 LLM 的推理能力。 ...

2023-09 · 7 分钟 · 3339 字
[Implicit Reasoning in Large Language Models: A Comprehensive Survey 🔗](https://arxiv.org/abs/2509.02350)

超越思维链:揭示大语言模型的静默推理

超越思维链: 揭示大语言模型的静默推理 如果你使用过像 GPT-4 或 Llama 3 这样的大型语言模型 (LLMs) ,你很可能见过“思维链” (Chain-of-Thought,CoT) 提示: 提出一个困难的问题,模型在给出最终答案之前会逐步展示推理过程。这种显式、语言化的推理能够显著提升模型在多步任务上的表现——从数学到常识谜题。 ...

2025-09 · 10 分钟 · 4611 字
[ICLR: IN-CONTEXT LEARNING OF REPRESENTATIONS 🔗](https://arxiv.org/abs/2501.00070)

超越预训练:大语言模型如何即时重构其‘大脑’

像 Llama 3 或 GPT-4 这样的大语言模型 (LLM) 似乎拥有百科全书般的世界知识。通过在海量文本数据集上的预训练,它们学会了“苹果”是一种水果,“星期一”在“星期二”之前,“汽车”是一种交通工具。这些关系在模型内部形成了一张庞大的语义地图——一个编码词语之间关联的表示空间。 ...

2025-01 · 7 分钟 · 3239 字
[HyperAdaLoRA: Accelerating LoRA Rank Allocation During Training via Hypernetworks without Sacrificing Performance 🔗](https://arxiv.org/abs/2510.02630)

HyperAdaLoRA:由超网络驱动的升级,实现更快、更智能的 LLM 微调

微调大型语言模型 (LLM) 是一把双刃剑。一方面,它能释放模型在特定任务上的潜力;另一方面,它需要巨大的计算资源和内存。这种矛盾催生了参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) ——这类方法旨在在不重新训练数十亿参数的情况下,快速适配大型模型。 ...

2025-10 · 6 分钟 · 2831 字
[Self-Adapting Language Models 🔗](https://arxiv.org/abs/2506.10943)

教大语言模型如何自我教学:深入解读自适应语言模型(SEAL)

大型语言模型 (LLM) 是当今人工智能革命的主要驱动力。它们通过海量文本训练,能够进行推理、编程和内容生成。然而,它们有一个显著的局限性: 它们是静态的。一旦训练完成,知识就被固定下来——就像一本去年印刷的教科书。面对新信息时,若没有昂贵且精心策划的微调,这些模型无法轻易吸收更新或改进其推理能力。 ...

2025-06 · 7 分钟 · 3067 字