[Scaling Laws for Neural Language Models 🔗](https://arxiv.org/abs/2001.08361)

量变引起质变 —— 语言模型性能惊人的可预测性

在人工智能的世界里,大型语言模型 (LLM) 似乎是一种现代炼金术。我们将海量数据集、庞大的神经网络和惊人数量的计算资源混合在一起——然后就诞生了能够写诗、调试代码和解释复杂主题的模型。 但这一切为什么会起作用?如果我们拥有十倍的资源,我们能让它进步多少?这背后是否有章可循,还是只是碰运气? 2020年,来自 OpenAI 和约翰斯·霍普金斯大学的一组研究人员发表了里程碑式的论文《神经语言模型的缩放定律》 (Scaling Laws for Neural Language Models) ,为这个混沌的领域带来了非凡的清晰度。他们发现,语言模型的性能一点也不随机,相反,它遵循着简单、可预测的数学规律——具体来说,是幂律——并且这种规律在跨越惊人的七个数量级时都成立。 这篇论文提供了一份类似构建 LLM 的速查表: 它告诉我们如何扩展模型、需要多少数据,以及如何最优分配固定的计算预算。这些见解不仅实用,而且深刻,暗示着人工智能能力的质变可能源于平滑、可预测的量的扩展。 在本文中,我们将解析论文的核心发现,并探索支配着我们时代最复杂技术之一的简单定律。 背景: 衡量模型的“好坏” 在深入探讨之前,让我们先统一一些基本概念。本研究中的模型主要是 Transformer——这种神经网络架构为几乎所有现代 LLM 提供了动力。它们的训练任务很直接: 预测文本序列中的下一个词 (更准确地说是下一个词元) 。 我们如何衡量模型执行该任务的好坏呢?这里的主要指标是**交叉熵损失 **(cross-entropy loss) ——可以把它看作是惊讶程度的量度。 如果模型在看到“the big blue …”后强烈预测下一个词是“sky”,而实际的词确实是“sky”,那么损失就很低。 如果实际的下一个词是“house”,模型会感到惊讶,损失就会高。 损失越低意味着预测越好,这与更强的语言理解能力相关。训练的目标始终是尽可能降低损失。 研究人员训练了数百个 Transformer 模型,调整了许多因素: 参数数量 训练数据量 训练时长 甚至模型的形状 (深度与宽度) 然后,他们测量最终的测试损失,来探究最关键的影响因素。 规模化的三大支柱: 模型大小、数据和算力 该论文的核心发现是,语言模型的性能主要由三个因素决定: 模型大小 (N): 网络中可训练的非嵌入参数数量。 数据集大小 (D): 模型在训练中看到的词元总数量。 算力 (C): 用于训练的总计算量。 至关重要的是,损失与这些因素之间的关系遵循幂律。简单来说,当你增加 N、D 或 C 时,损失会沿着一条平滑、可预测的曲线下降。这一点在该论文的主要总结图中有清楚的展示: 图 1: 随着模型大小、数据集大小和算力的提升,语言建模性能平滑改善。当不受另外两个因素的瓶颈限制时,每一个因素与测试损失均呈现幂律关系。 在对数–对数坐标系中绘制时,结果会呈现令人惊讶的直线——这是幂律关系的标志。这种可预测性十分强大: 它意味着我们可以先训练较小模型,观察其性能,然后推算出更大模型在训练前就能达到的表现。 ...

2020-01

T5详解:谷歌的文本到文本转换器如何推动NLP前沿

近年来,自然语言处理 (NLP) 领域的飞速发展主要得益于一个经验: 在海量文本上预训练大型模型,然后将其适配到特定任务。像 BERT、GPT-2、RoBERTa 和 XLNet 这样的模型都依赖于这种迁移学习范式,但它们在架构、预训练目标和数据集上有所不同——而这些差异往往难以厘清。 在《通过统一的文本到文本转换器探索迁移学习的极限》这篇论文中,谷歌大脑团队采取了不同的策略。他们没有仅仅提出又一个微小的改动,而是搭建了一个统一的实验平台,对多种变量进行了大规模、有原则的系统性探索: 架构、无监督目标、预训练语料、微调策略以及规模扩展方式。成果既是一份详尽的实证指南,也是一个名为 T5 (Text-to-Text Transfer Transformer,文本到文本迁移转换器) 的最先进模型家族。 本文将带你梳理论文的核心思想和发现,解释其中重要的实验,并重点总结在构建或选用模型时可直接借鉴的实践经验。 本文内容 清晰解释驱动 T5 的文本到文本框架。 基线设定 (模型、语料和目标) 。 关键实验及其揭示的架构、目标、数据和训练策略方面的洞见。 规模扩展与最终 T5 系列如何取得最先进成果。 实践经验总结。 如果你想搞清楚在现代 NLP 迁移学习中哪些选择真正重要,这篇论文——以及这篇指南——将让事情变得更简单。 统一思想: 将每个任务都视为文本到文本 T5 最优雅的一步在于其核心理念: 将每个 NLP 问题都视作文本生成问题。 不再为分类任务单独设置输出层、为问答任务进行片段预测,或为摘要任务使用单独的解码器,T5 采用一个简短的文本前缀 (任务描述符) ,然后始终生成文本: 翻译: translate English to German: That is good. → Das ist gut. 情感分类: sst2 sentence: it confirms fincher's status... → positive 摘要: summarize: <article> → <summary> 回归 (STS-B 相似度分数) : stsb sentence1: ... sentence2: ... → 3.8 前缀指示了要执行的任务。模型的损失函数和解码过程在所有任务中保持一致。这种统一接口的强大之处在于两点: ...

ChatGPT 问世之前:生成式预训练如何彻底改变 NLP(GPT-1 论文详解)

在今天的人工智能世界里,像 ChatGPT 这样的模型几乎如同魔法。它们能够编写代码、创作诗歌,并以惊人的流畅度回答复杂问题。但这场革命并非一夜之间发生——它建立在一系列基础性突破之上。其中最关键的一项,是 OpenAI 在 2018 年发表的一篇论文,题为 《通过生成式预训练提升语言理解能力》。 这篇论文介绍了我们现在所称的 GPT-1,提出了一个简单却极其有效的框架,改变了自然语言处理 (NLP) 的发展轨迹。其核心思想是: 首先让模型从海量原始文本中学习语言模式,然后将这些知识针对特定任务进行微调。 当时,NLP 面临着一个典型的数据瓶颈。无标签的文本 (如维基百科、书籍、文章) 非常丰富,但训练模型以执行问答或情感分析等专门任务所需的有标签数据集却规模小、成本高,且创建过程耗时。这种稀缺性阻碍了该领域的进步。 OpenAI 的研究人员提出了一个强大的两步解决方案: 生成式预训练 (Generative Pre-training) : 在一个多样化的无标签文本语料库上训练一个大型神经网络,让它做一件简单的事——预测序列中的下一个词。这迫使模型深入、隐式地理解语法、事实,甚至推理能力。 判别式微调 (Discriminative Fine-tuning) : 利用这个预训练好的模型,使用规模小得多的有标签数据集,将其适配到特定任务上。 事实证明,这种方法改变了游戏规则。一个单一的、任务无关的模型,在 12 个基准任务中的 9 个上,表现超过了经过高度工程化、为特定任务设计的架构,为该领域树立了新标准。在这篇文章中,我们将深入探讨这篇开创性的论文,以理解其工作原理及其为何影响如此深远。 背景: 2018 年的 NLP 格局 在 GPT 出现之前,NLP 领域利用无标签数据的主要方式是通过 预训练词嵌入,如 Word2Vec 和 GloVe。这些模型为每个词分配一个密集向量,捕捉词与词之间的语义关系。例如,“国王”的向量减去“男人”的向量再加上“女人”的向量,结果会非常接近“女王”的向量。 这是一个巨大的进步,但也有其局限性。词嵌入只捕捉了词汇层面的信息,忽略了完整的句子含义,而后者在很大程度上依赖于上下文、语序和句法。像 ELMo 和 ULMFiT 这样的模型开始通过使用 LSTM (长短期记忆网络) 创建 上下文 嵌入来解决这个问题,使得一个词的表示取决于它所在的句子。 然而,这些模型通常涉及复杂的训练方案,或需要大量针对特定任务的架构调整。OpenAI 的论文通过采用一种不同的神经架构——Transformer,提出了一种更简单、更具可扩展性且最终更强大的方法。 核心方法: 一个两阶段框架 GPT 框架的美妙之处在于其简洁性——两个清晰的阶段:** 无监督预训练**,随后是 有监督微调。 阶段一: 无监督生成式预训练 第一阶段专注于学习一种通用的语言表示。模型在 BooksCorpus 上进行训练,这是一个包含超过 7000 本未出版书籍的数据集,涵盖了冒险、奇幻和浪漫等多种类型。与其他语料库不同,BooksCorpus 包含长篇连续文本,使模型能够学习长程依赖关系。 ...

[Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism 🔗](https://arxiv.org/abs/1909.08053)

Megatron-LM:借助优雅的 PyTorch 并行化,将语言模型扩展至数十亿参数

自然语言处理 (NLP) 领域已进入巨型模型的时代。从 GPT-2 到 BERT 及其后续发展,一个趋势十分明显: 模型越大,性能越好。这些庞大的 Transformer 模型不仅能够生成连贯的文章,还能回答复杂问题,并以前所未有的细腻程度解析语言。 但这种能力伴随着高昂的工程代价。这些模型拥有 数十亿——甚至越来越多地达到 数万亿——参数。如此庞大的网络如何能放入单个 GPU 的内存? 剧透: 它们放不下。 训练这些庞然大物需要先进的 并行化 技术,将模型实际拆分到多个 GPU 上运行。尽管谷歌的 GPipe 或 Mesh-TensorFlow 等框架提供了模型并行方案,但它们往往需要大量代码重写或定制编译器。 NVIDIA 研究人员推出了 Megatron-LM——一种利用 层内模型并行 训练超大 Transformer 模型的高效而简洁的方法。仅需在 PyTorch 中进行少量针对性修改,就能实现训练规模达 83 亿参数的 GPT-2,并提出了一个关键的架构调整,使 BERT 风格的模型也能平滑扩展。 在本文中,我们将探讨: 在 GPU 内存限制下训练超大模型的挑战 Megatron-LM 优雅的层内模型并行方案 它如何实现近乎线性的扩展并达到业界领先的精度 一个微妙却至关重要的改动,解锁了大规模 BERT 训练 无论你是学生、研究人员,还是行业从业者,读完本文,你都将清楚理解支撑当今最大型语言模型的核心技术之一。 问题所在: GPU 的内存限制 现代 NLP 的核心是 Transformer 架构。你一定听说过其中的代表: BERT: 仅编码器的 Transformer,擅长理解上下文语义 GPT-2: 仅解码器的 Transformer,擅长文本生成 ...

2019-09
[AutoAugment: Learning Augmentation Strategies from Data 🔗](https://arxiv.org/abs/1805.09501)

超越翻转与裁剪:AutoAugment 如何教 AI 增强自身数据

深度学习模型是出了名的数据饥渴。你能喂给它们越多高质量的标记数据,它们的表现就越好。但当你无法收集更多数据时,该怎么办呢?你就得发挥创意了。 多年来,最常用的技术一直是数据增强: 利用现有图像,创建出略有修改的新版本——翻转、旋转、偏移颜色——从而免费扩充你的数据集。 这种方法效果显著。它教会模型哪些特征是真正重要的,哪些只是特定图像的偶然产物。无论猫在画面的左边还是右边,它仍然是猫。这种不变性——即知道哪些变化不会改变标签——是构建鲁棒模型的关键。 然而,这里有一个问题。标准的数据增强方法——随机裁剪、水平翻转和颜色抖动——很大程度上是一种“一刀切”的解决方案,是经过多年实验手动精心调整出来的。对像 CIFAR-10 这样的自然图像数据集有效的方法,可能完全不适用于像 MNIST 这样的手写数字数据集。 (把一个“6”上下颠倒就变成了“9”!) 手动设计增强方法耗时、依赖特定数据集,而且很少能达到最优。 这就引出了一个有趣的问题:** 我们能否让算法为给定的数据集学习出最佳的数据增强策略,而不是依赖人类的直觉?** 谷歌大脑的一组研究人员在他们的论文 《AutoAugment: 从数据中学习增强策略》 中回答了这个问题。他们开发了一种方法,可以自动搜索最优的增强策略,在包括 CIFAR-10、SVHN 和 ImageNet 在内的顶级计算机视觉基准测试中取得了最先进的结果。 在本文中,我们将探讨 AutoAugment 的工作原理,审视它发现的那些出人意料地有效 (有时甚至有些奇怪) 的增强策略,并展望未来,届时机器学习流程的每一个环节都可以实现自动化。 手工设计增强方法的问题 在深入了解 AutoAugment 的解决方案之前,让我们先分析一下为什么手工设计增强方法是一个难题。当手动设计一个增强流程时,你必须决定: **我应该使用哪些操作? **(旋转、剪切、颜色偏移、对比度变化……?) **我应该按什么顺序应用它们? **(先旋转后剪切与先剪切后旋转的效果是否不同?) **我应该以多大的强度应用它们? **(旋转 5° 还是 25°?) **我应该以多大的概率应用它们? **(是应该旋转每一张图片,还是只旋转其中的 30%?) 为单个数据集回答这些问题需要繁琐的试错。已经实现了网络架构设计自动化的 AutoML 的兴起表明,我们可以做得更好。如果架构可以被学习,为什么增强策略不行呢? AutoAugment 的工作原理: 搜索完美策略 AutoAugment 的核心思想是将寻找最佳增强策略的过程构建为一个搜索问题。它有两个主要组成部分: 一个提出候选策略的搜索算法,以及一个定义所有可能性的搜索空间。 整个过程如下图所示,在一个强化学习循环中运行: 一个控制器 (一个 RNN) 采样一个增强策略。 一个**子模型 **(一个标准的神经网络) 使用该策略增强的数据进行训练。 测量子模型的验证准确率——这就是奖励。 奖励被反馈给控制器以更新它,使得好的策略在未来更有可能被采样到。 这个循环重复数千次,从而逐步改进策略。 图 1. AutoAugment 的强化学习循环概览。控制器采样一个策略,训练一个子网络,评估其准确率,并使用该奖励来改进未来的策略。 ...

2018-05
[Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation 🔗](https://arxiv.org/abs/2509.25849)

背包 RL:训练更智能语言模型的一场计算“免费午餐”

大型语言模型 (LLM) 已经展示出通过强化学习 (RL) 进行自我提升的非凡能力。通过生成解决方案、接收反馈并调整策略,它们能够学会解决如高等数学推理等复杂问题。这个过程依赖于一个关键步骤:** 探索**——尝试多种不同的方法,或称为“rollouts”,以发现有效策略。 但问题在于,探索的计算成本极高。为成千上万个不同问题生成成千上万种可能的解决方案,会消耗海量的 GPU 时间。为了控制成本,现有方法通常为每个问题分配一个固定的、较小的探索预算——通常是每个任务 8 次尝试机会。 这种“一刀切”的方法存在一个严重缺陷: 对于简单问题,8 次尝试可能过多,造成资源浪费。 对于难题,8 次尝试可能远远不够,导致反复失败。 在这两种情况下,模型最终可能在某个特定任务上总是成功或总是失败。这会产生“零梯度”——即没有学习信号——从而浪费宝贵的计算资源。 最近的一篇论文《背包 RL: 通过优化预算分配解锁大语言模型的探索能力》 (Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation) 直面了这个问题。研究人员提出: 将探索预算分配视为一个经典的优化问题。将每个任务看作一个具有成本 (计算量) 和价值 (学习潜力) 的物品,然后利用著名的背包问题来智能分配固定预算,将更多资源投入到最需要的任务上。 图 1 我们的框架示意图,用于在任务间分配探索预算。任务被建模为具有学习价值和计算成本的物品,并通过背包问题进行优化分配。 背景: 策略优化中的零梯度问题 为了理解这一思想的重要性,让我们看看用于 LLM 的强化学习微调。其目标是训练模型参数 \(\theta\),使其针对提示词 \(x\) 生成的响应 \(y\) 能够最大化奖励: \[ \max_{\theta} \ \mathbb{E}_{y \sim \pi_{\theta}(\cdot|x)}\,[\,r(x,y)\,] \]在数学推理任务中,奖励通常是二元的: \[ r(x,y) = \mathbb{I}(\text{答案是正确的}) \]一种流行的强化学习算法是群体相对策略优化 (Group Relative Policy Optimization, GRPO) 。对于一批 \(M\) 个提示词,模型为每个提示词生成 \(N\) 次 rollout。梯度更新公式如下: ...

2025-09
[LongCodeZip: Compress Long Context for Code Language Models 🔗](https://arxiv.org/abs/2510.00446)

LongCodeZip:让大语言模型读懂你的整个代码库,还不用花大钱

大型语言模型 (LLM) 正在改变软件开发。从自动补全整个函数到回答复杂的代码库级别问题,这些人工智能助手正迅速变得不可或缺。 但它们有一个致命弱点:** 上下文长度**。 当你让 LLM 处理一个大型项目时,你通常需要向它输入数万行代码。这种长上下文会引发一系列问题: 中间信息丢失: 当重要 token 被淹没在海量文本之中时,模型可能难以捕捉到相关片段。 生成缓慢: 注意力机制的计算复杂度随输入长度呈二次方增长,因此长输入会导致延迟飙升。 成本高昂: 商业 API 按 token 数量计费,长上下文会迅速推高账单。 对于源代码来说,这个问题尤为严重。与普通文本不同,代码存在复杂的相互依赖性。一个文件中的函数可能对分散在其他几十个文件中的逻辑至关重要。为了节省成本而随机裁剪代码,可能会破坏可编译的结构并丢失关键约束。 现有的解决方案,如*检索增强生成 *(Retrieval-Augmented Generation, RAG) ,尝试只获取相关的片段。但 RAG 通常依赖于基于嵌入的文本相似度,这在查找名称相似的函数时很有效,却无法捕捉那些细微而隐蔽的依赖关系。 那么,我们是否能智能地压缩代码——精确保留关键部分,舍弃其余内容? 最近的一篇研究论文——《LongCodeZip: 为代码语言模型压缩长上下文》——提出了这样一个框架。它无需训练、与具体模型无关,且专为代码设计。利用源代码的结构和语义,它可实现高达 5.6× 压缩,而不降低 (甚至有时提升) 性能。 让我们看看它是如何工作的。 相似度的困境: 为什么 RAG 处理代码时常常失效 检索增强生成是处理长上下文的常见方法。它通过模型嵌入和比较片段,然后检索那些与目标查询或待补全代码“最近”的片段。 但在代码中,“相似度”有多种形式: 词法层面: 共享变量名、关键字。 结构层面: 匹配的函数签名。 语义 / 依赖层面: 只有理解程序流程后才能发现的关联。 RAG 在捕捉词法和浅层结构匹配方面表现良好,但经常错过更深层的、基于依赖的联系——尤其是当这些联系是隐式时。 图 1: RAG 能找到词法上相似的代码 (左) ,但未能识别关键且不显眼的依赖关系 (右) ,比如设置优化器所需的配置类。 例如,如果要补全 get_email_by_id,RAG 会很容易地找到 get_account_by_id——一个几乎完美的词法匹配。这就是相似度相关性。 但在另一任务中——补全 train_model——必需的 Config 类位于别处,并且没有任何相同的标识符。如果不了解依赖关系,RAG 会错过它,并将无关代码排在更高优先级。结果就是补全不完整或不正确。 ...

2025-10
[StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions 🔗](https://arxiv.org/abs/2510.02314)

藏于虚空:StealthAttack 如何对 3D 场景进行投毒

3D 图形世界正在经历一场革命。几十年来,创建照片般逼真的 3D 场景一直是熟练艺术家使用复杂软件的专属领域。但现代技术,如 神经辐射场 (NeRF),以及最近的 3D 高斯溅射 (3DGS),已经深刻地改变了游戏规则。这些方法仅需少量 2D 图像,就能学习到一个场景惊人准确的 3D 表示,从而推动了从虚拟现实、数字孪生到高级视觉效果等各种应用的发展。 特别是 3DGS,因其能够在保持高保真度的同时 实时 渲染这些复杂场景而广受欢迎。 然而,随着这项技术变得越来越普及,一个关键问题浮出水面:** 它有多安全?** 如果有人可以秘密地操纵这些 3D 模型——嵌入只有从特定视点才能看到的隐藏物体或信息,会怎么样?这不仅仅是一个理论上的担忧,它代表了一个严重的安全漏洞。想象一下: 一辆自动驾驶汽车的感知系统被一个仅在关键十字路口才可见的幻影停车标志所欺骗。 在一次建筑漫游中,竞争对手的标志被巧妙地嵌入到设计中,只有从某些角度才能看到。 这正是该论文所要解决的挑战: “StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions” 作者提出了一种新颖的数据投毒攻击,旨在欺骗 3D 高斯溅射。其目标是: 将一个令人信服的幻象物体嵌入到一个 3D 场景中,使其从一个**目标视点 **(“投毒视点”) 看完全可见,而从所有其他视点 (“无害视点”) 看则完全不可见。 图 1: 密度引导的投毒将幻象物体嵌入到仅从目标视点可见的低密度 3D 区域。 在本文中,我们将解析: 为什么 3DGS 天然具有抗操纵性。 StealthAttack 中用于克服这些防御的巧妙双重策略。 揭示该方法效果的实验结果。 铜墙铁壁: 为什么 3D 高斯溅射难以投毒 3DGS 最大的优势之一是多视图一致性。 在其核心,3DGS 将一个场景表示为由大量微小、半透明、彩色的 3D“斑点”——高斯体组成的集合。该系统使用数十张——有时是数百张——从不同角度拍摄的场景照片进行训练。训练过程旨在寻找一种高斯体配置,能够同时从所有这些视点再现场景的外观。 ...

2025-10
[ModernVBERT: TOWARDS SMALLER VISUAL DOCUMENT RETRIEVERS 🔗](https://arxiv.org/abs/2510.01149)

小而强大:ModernVBERT 如何重新定义视觉文档检索

引言: 超越纯文本 想象一下,在数百页的财务报告中寻找一张特定的图表,或者尝试用一张图片和一段简短描述在一个庞大的数字目录中定位某个产品。 在当今日益多媒体化的世界里,文档不仅仅是文字——它们是文字、图像、布局、图表和表格组成的丰富生态系统。传统的纯文本搜索引擎常常无法捕捉到这些视觉元素中的信息,从而错失关键的上下文。 视觉文档检索旨在弥合这一差距——构建能够同时理解文本和视觉信号的搜索系统。近来,该领域已将目光投向大型视觉语言模型 (VLM) ——正是这些模型为令人印象深刻的图像字幕生成和问答系统提供了动力——并将它们重新用于检索任务。其逻辑看似简单: 如果一个模型能够描述一张图片,那么它肯定也足够理解这张图片,从而能够检索到它。 虽然这种方法在一定程度上有效,但也存在显著缺点。这些被改造的 VLM 通常体积庞大、运行缓慢且计算成本高。更关键的是,它们的架构——尤其是**因果注意力 **(token 只能关注序列中其前方的内容) ——是为生成任务设计的,而不是用于构建精确、上下文丰富的检索嵌入。 一篇新论文《ModernVBERT: 迈向更小的视觉文档检索器》挑战了“越大越好”的假设。作者们系统地审视了检索任务中最关键的设计抉择,并将其提炼为一套有原则的方案。 他们的关键贡献是:** ModernVBERT**,一个紧凑的 2.5 亿参数模型,专为检索而构建,而不仅仅是从生成模型改造而来。尽管其规模不大,该模型的性能可与比它大 10 倍以上的模型相媲美 (有时甚至更优) 。 在本文中,我们将探讨他们的方法和发现: 模型的注意力类型是否重要? 图像分辨率有多关键? 能否用更少——或不同——的数据训练出更好的模型? 背景: 两种多模态模型范式 在深入探讨 ModernVBERT 的创新之前,先了解视觉语言模型的两大主流范式: 双编码器 – 以 CLIP 为例。它们为图像和文本分别使用独立的“塔” (tower) ,各自生成单一向量嵌入。在训练中,模型学习在共享的嵌入空间中对齐匹配的图文对向量。 这种方法在检索上快速高效,但将所有信息压缩到单一向量可能会丢失细粒度的匹配信息。 早期融合编码器 – 这类模型将视觉 patch 和文本 token 合并到单一的 transformer中,实现深度的、token 级跨模态交互。 这种架构擅长捕捉复杂关系,但通常用于具有因果注意力的大型生成式 VLM,在检索任务上并非最优。 注意力机制是关键: 多数生成式 VLM 是因果解码器,每个 token 仅依赖前面的 token 进行预测;而双向编码器 (如 BERT) 使用掩码语言建模 (MLM) ,依靠上下文中前后信息来预测被掩盖的 token。对于检索任务而言,全上下文表示至关重要,因此双向方法更具优势。 最后,看看检索机制本身: 单向量检索: 每个查询和文档只有一个嵌入进行比较。 **后期交互 **(由 ColBERT 推广) : 比较查询与文档之间的 token 级嵌入,并聚合最强匹配。这保留了细粒度细节,但需要嵌入具备全局上下文——这是双向编码器的天然优势。 ModernVBERT 方法: 打造更优检索器的配方 作者们设计了受控实验,将各个因素单独剥离观察其影响。 ...

2025-10
[LANGUAGE MODELS THAT THINK, CHAT BETTER 🔗](https://arxiv.org/abs/2509.20357)

超越数学谜题:教大语言模型“思考”如何释放卓越的聊天性能

引言: 三思而后言的力量 我们都听过“三思而后言”这句忠告。这是人类智能的核心——能够暂停一下,推理可能的后果,然后形成一个深思熟虑的回应。诺贝尔奖得主丹尼尔·卡尼曼将这种反思性的、审慎的思考过程称为系统2思维: 这种脑力活动将膝跳反射式的反应与有理有据的论证区分开来。 在很长一段时间里,大语言模型 (LLM) 的运作方式更像是系统1思维者: 速度惊人、表达流畅,但推理常常流于表面。近期的研究尝试通过让模型在回答前先“思考”来改变这一现状,采用了一种名为可验证奖励的强化学习 (RLVR) 的策略。在 RLVR 中,模型在给出答案前会生成一个较长的思维链 (CoT) ,当最终答案能被自动验证为正确时,模型就会获得奖励。这在数学和编程领域效果显著——因为这些领域的正确性是客观的。如果数学计算正确或者代码通过了所有单元测试,模型就会得到奖励。 但人类对话要复杂得多。你如何“验证”一份膳食计划、一篇论文大纲,或一篇假想出自《肖申克的救赎》的哲学论述的正确性呢?从解决数学问题中学到的技能并不能直接迁移到这些主观、创造性的任务中。实践中,经过 RLVR 训练的模型在一般对话能力评估中,往往落后于标准聊天机器人。 普林斯顿大学的一篇新论文**《会思考的语言模型,聊天更出色》**正是针对这一问题。研究人员提出了一种惊人简单却极具威力的方法——模型奖励思维的强化学习 (RLMT) 。RLMT 将 RLVR 式的思维链推理与 RLHF 式的偏好奖励相结合,显著提升了对话能力。他们最好的 80 亿参数模型不仅击败了比它大十倍的模型,在聊天和创意写作上甚至可以与 GPT-4o 和 Claude-3.7-Sonnet 等行业巨头相媲美。 让我们来看看他们是如何做到的。 背景: 大语言模型对齐的两大学派 RLMT 建立在两大范式之上:** 人类反馈强化学习 (RLHF)** 和可验证奖励的强化学习 (RLVR) 。 RLHF: 对话的艺术 RLHF 是大多数顶级聊天机器人的基石。它将 LLM 的输出与人类的价值观和偏好对齐: 人类对同一提示的两个或多个回答进行评判,并按优劣排序。 这些偏好数据用于训练一个奖励模型——一个独立的模型,用来预测人类会更喜欢哪个回答。 随后,原始 LLM 通过强化学习微调,以最大化奖励模型的得分。 数学上,RLHF 最大化的是: \[ \max_{\theta} \; \mathbb{E}_{x \sim \mathcal{X}} \left[ \mathbb{E}_{y \sim \pi_{\theta}(\cdot|x)} r(x, y) \right] \]奖励信号是定性且主观的——很适合开放式的对话任务。然而,RLHF 将输出视作一个整体,并没有明确鼓励在回答前进行结构化推理。 RLVR: 正确性的科学 RLVR 专注于具有明确、客观正确性标准的领域: 数学、编程、逻辑谜题。模型会生成一个思维链 \(z\),然后给出最终答案 \(y\)。一个基于规则的验证器会将答案与标准答案进行比对: ...

2025-09