展开时间:一个简单的神经网络如何学会语言规则

人类的心智是如何处理时间的?这个问题看似简单,却又无比复杂。我们所做的许多事情——从理解一段旋律、接住一个球到进行一次对话——都依赖于随着时间推移处理事件序列的能力。 ...

7 分钟 · 3147 字
[Designing Network Design Strategies Through Gradient Path Analysis 🔗](https://arxiv.org/abs/2211.04800)

重新思考神经网络设计:深度剖析梯度路径分析

在设计深度神经网络时,我们通常关注数据如何在前向传播中流经模型。我们堆叠层、实现复杂的特征融合机制、添加注意力模块,以将输入转换为期望的输出。这种传统的“数据路径”视角为我们带来了 ResNet、DenseNet 和 Transformer 等强大架构。 ...

2022-11 · 6 分钟 · 2628 字
[Finetuned Language Models Are Zero-Shot Learners 🔗](https://arxiv.org/abs/2109.01652)

只需告诉模型做什么:指令精调如何解锁零样本学习能力

大语言模型 (LLM) 展现出了惊人的能力: 编写代码、创作文章、回答复杂问题。这些成功很大程度上依赖于少样本学习 (few-shot learning) ——在提示中给模型展示几个例子,让它进行泛化。但少样本提示有其缺点: 你需要准备示例,而且常常必须精心设计提示。 ...

2021-09 · 9 分钟 · 4045 字

GPT-3:小样本学习的黎明

微调的“跑步机”: 一个规模化问题 多年来,自然语言处理 (NLP) 领域的主流范式一直是一种“两步走”的模式。首先,在海量文本数据上预训练一个庞大的通用型语言模型。这些模型,如 BERT 或 RoBERTa,能够学习语言中的复杂模式——语法、事实、推理能力,甚至一些偏见。 ...

6 分钟 · 2806 字
[Evaluating Large Language Models Trained on Code 🔗](https://arxiv.org/abs/2107.03374)

深入 Codex:驱动 GitHub Copilot 的 AI 结对程序员

几十年来,能够自己编写代码的 AI 一直是计算机科学领域的“圣杯”。我们在科幻作品中曾瞥见过这样的未来,但在现实中,教会机器掌握编程所需的 逻辑、创造力 和 精确性 一直是一项巨大的挑战。 ...

2021-07 · 6 分钟 · 2542 字
[Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 🔗](https://arxiv.org/abs/2101.03961)

Switch Transformer:一个出乎意料高效的万亿参数 AI 模型

在人工智能 (AI) 领域——尤其是在自然语言处理 (NLP) 领域——过去几年的口号一直是 “越大越好”。我们见证了 GPT-3、T5 和 Megatron 等一系列巨型语言模型的诞生,每一个都在不断刷新规模和性能的极限。扩展这些模型释放了令人惊叹的能力,从撰写连贯的文章到生成代码。但这背后是高昂的代价: 天文数字般的计算成本。训练这些庞大的密集模型——即每个参数在处理每一个输入时都会被使用——需要超级计算机并消耗巨量能源。 ...

2021-01 · 7 分钟 · 3242 字
[ZeRO: Memory Optimizations Toward Training Trillion Parameter Models 🔗](https://arxiv.org/abs/1910.02054)

从 ZeRO 到万亿:深入探究巨型 AI 模型背后的内存优化技术

人工智能领域正在进行一场军备竞赛,但武器不是导弹,而是参数。从 BERT (3.4 亿) 到 GPT-2 (15 亿) 再到 T5 (110 亿) ,我们看到了一个清晰的趋势: 更大的模型往往能带来更高的准确率。但这股不懈的增长潮流也伴随着高昂的代价——训练这些庞然大物需要天文数字般的内存,远远超出了单个 GPU 的处理能力。 ...

2019-10 · 6 分钟 · 2791 字
[Scaling Laws for Neural Language Models 🔗](https://arxiv.org/abs/2001.08361)

量变引起质变 —— 语言模型性能惊人的可预测性

在人工智能的世界里,大型语言模型 (LLM) 似乎是一种现代炼金术。我们将海量数据集、庞大的神经网络和惊人数量的计算资源混合在一起——然后就诞生了能够写诗、调试代码和解释复杂主题的模型。 ...

2020-01 · 6 分钟 · 2985 字

T5详解:谷歌的文本到文本转换器如何推动NLP前沿

近年来,自然语言处理 (NLP) 领域的飞速发展主要得益于一个经验: 在海量文本上预训练大型模型,然后将其适配到特定任务。像 BERT、GPT-2、RoBERTa 和 XLNet 这样的模型都依赖于这种迁移学习范式,但它们在架构、预训练目标和数据集上有所不同——而这些差异往往难以厘清。 ...

9 分钟 · 4215 字

ChatGPT 问世之前:生成式预训练如何彻底改变 NLP(GPT-1 论文详解)

在今天的人工智能世界里,像 ChatGPT 这样的模型几乎如同魔法。它们能够编写代码、创作诗歌,并以惊人的流畅度回答复杂问题。但这场革命并非一夜之间发生——它建立在一系列基础性突破之上。其中最关键的一项,是 OpenAI 在 2018 年发表的一篇论文,题为 《通过生成式预训练提升语言理解能力》。 ...

7 分钟 · 3136 字
[Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism 🔗](https://arxiv.org/abs/1909.08053)

Megatron-LM:借助优雅的 PyTorch 并行化,将语言模型扩展至数十亿参数

自然语言处理 (NLP) 领域已进入巨型模型的时代。从 GPT-2 到 BERT 及其后续发展,一个趋势十分明显: 模型越大,性能越好。这些庞大的 Transformer 模型不仅能够生成连贯的文章,还能回答复杂问题,并以前所未有的细腻程度解析语言。 ...

2019-09 · 6 分钟 · 2514 字
[AutoAugment: Learning Augmentation Strategies from Data 🔗](https://arxiv.org/abs/1805.09501)

超越翻转与裁剪:AutoAugment 如何教 AI 增强自身数据

深度学习模型是出了名的数据饥渴。你能喂给它们越多高质量的标记数据,它们的表现就越好。但当你无法收集更多数据时,该怎么办呢?你就得发挥创意了。 多年来,最常用的技术一直是数据增强: 利用现有图像,创建出略有修改的新版本——翻转、旋转、偏移颜色——从而免费扩充你的数据集。 ...

2018-05 · 7 分钟 · 3035 字
[Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation 🔗](https://arxiv.org/abs/2509.25849)

背包 RL:训练更智能语言模型的一场计算“免费午餐”

大型语言模型 (LLM) 已经展示出通过强化学习 (RL) 进行自我提升的非凡能力。通过生成解决方案、接收反馈并调整策略,它们能够学会解决如高等数学推理等复杂问题。这个过程依赖于一个关键步骤:** 探索**——尝试多种不同的方法,或称为“rollouts”,以发现有效策略。 ...

2025-09 · 5 分钟 · 2382 字
[LongCodeZip: Compress Long Context for Code Language Models 🔗](https://arxiv.org/abs/2510.00446)

LongCodeZip:让大语言模型读懂你的整个代码库,还不用花大钱

大型语言模型 (LLM) 正在改变软件开发。从自动补全整个函数到回答复杂的代码库级别问题,这些人工智能助手正迅速变得不可或缺。 但它们有一个致命弱点:** 上下文长度**。 ...

2025-10 · 6 分钟 · 2544 字
[StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions 🔗](https://arxiv.org/abs/2510.02314)

藏于虚空:StealthAttack 如何对 3D 场景进行投毒

3D 图形世界正在经历一场革命。几十年来,创建照片般逼真的 3D 场景一直是熟练艺术家使用复杂软件的专属领域。但现代技术,如 神经辐射场 (NeRF),以及最近的 3D 高斯溅射 (3DGS),已经深刻地改变了游戏规则。这些方法仅需少量 2D 图像,就能学习到一个场景惊人准确的 3D 表示,从而推动了从虚拟现实、数字孪生到高级视觉效果等各种应用的发展。 ...

2025-10 · 6 分钟 · 2784 字
[ModernVBERT: TOWARDS SMALLER VISUAL DOCUMENT RETRIEVERS 🔗](https://arxiv.org/abs/2510.01149)

小而强大:ModernVBERT 如何重新定义视觉文档检索

引言: 超越纯文本 想象一下,在数百页的财务报告中寻找一张特定的图表,或者尝试用一张图片和一段简短描述在一个庞大的数字目录中定位某个产品。 在当今日益多媒体化的世界里,文档不仅仅是文字——它们是文字、图像、布局、图表和表格组成的丰富生态系统。传统的纯文本搜索引擎常常无法捕捉到这些视觉元素中的信息,从而错失关键的上下文。 ...

2025-10 · 3 分钟 · 1445 字
[LANGUAGE MODELS THAT THINK, CHAT BETTER 🔗](https://arxiv.org/abs/2509.20357)

超越数学谜题:教大语言模型“思考”如何释放卓越的聊天性能

引言: 三思而后言的力量 我们都听过“三思而后言”这句忠告。这是人类智能的核心——能够暂停一下,推理可能的后果,然后形成一个深思熟虑的回应。诺贝尔奖得主丹尼尔·卡尼曼将这种反思性的、审慎的思考过程称为系统2思维: 这种脑力活动将膝跳反射式的反应与有理有据的论证区分开来。 ...

2025-09 · 6 分钟 · 2610 字
[ARK-V1: An LLM-Agent for Knowledge Graph Question Answering Requiring Commonsense Reasoning 🔗](https://arxiv.org/abs/2509.18063)

初识 ARK-V1:一个能导航知识图谱以实现更智能问答的 LLM 代理

像 GPT-4 和 Claude 这样的大语言模型 (LLM) 是强大的推理引擎。你几乎可以问它们任何问题,它们都会给出一个连贯——且通常正确——的答案。但它们有一个阿喀琉斯之踵: 它们的知识是内化的。这些知识在训练期间被“烘焙”进模型,一旦训练完成,便变成静态的。这意味着它可能过时、不正确,甚至缺失,尤其是在专业或快速变化的领域。这导致了臭名昭著的幻觉问题,即 LLM 会自信地说出一些事实错误的内容。 ...

2025-09 · 6 分钟 · 2943 字
[LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures 🔗](https://arxiv.org/abs/2509.14252)

LLM能从计算机视觉中学到什么?LLM-JEPA简介

大型语言模型 (LLM) 席卷全球,其卓越能力源于一个看似简单的原则:** 预测下一个词**。这种被称为自回归生成或输入空间重构的方法,已成为GPT、Llama和Gemma等模型的基石。 ...

2025-09 · 6 分钟 · 2584 字
[Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning 🔗](https://arxiv.org/abs/2509.13351)

教语言模型三思而后行:深入解析 PDDL-INSTRUCT 框架

像 GPT-4 和 Llama-3 这样的大型语言模型 (LLM) 已经席卷全球。它们可以写诗、调试代码,甚至在大学考试中取得优异成绩。但如果你让它们执行一项需要严格、循序渐进的逻辑推理任务——比如组装一件复杂的家具或规划一条物流路线——你可能会发现它们的软肋。虽然 LLM 在语言和通用知识方面技艺精湛,但在面对需要形式化、结构化规划的问题时,它们常常会表现不佳。它们可能会提出不可行的动作,忽略前一步的后果,或者无法判断目标是否已达成。 ...

2025-09 · 5 分钟 · 2393 字