](https://deep-paper.org/en/paper/2508.15487/images/cover.png)
超越从左到右:介绍 Dream 7B,一款强大的新型扩散式大语言模型
多年来,大语言模型 (LLM) 一直依赖于一个基本理念:** 自回归**。如 GPT-4、LLaMA 和 Qwen 等模型都会逐词生成文本,从左到右进行——就像人类写句子的过程一样。这种方法推动了令人瞩目的进步,但也存在固有的局限。当模型只能看到过去时,它难以处理需要全局一致性、长期规划或复杂约束的任务。 ...
多年来,大语言模型 (LLM) 一直依赖于一个基本理念:** 自回归**。如 GPT-4、LLaMA 和 Qwen 等模型都会逐词生成文本,从左到右进行——就像人类写句子的过程一样。这种方法推动了令人瞩目的进步,但也存在固有的局限。当模型只能看到过去时,它难以处理需要全局一致性、长期规划或复杂约束的任务。 ...
Transformer 席卷了全球,从 ChatGPT 到高级代码补全工具无所不在。它们最神奇的能力之一是 上下文学习 (in-context learning, ICL) ——在不更新任何权重的情况下,从输入提示中提供的示例中学习的能力。如果你给一个大型语言模型展示几个任务示例,它通常可以立刻在新示例上执行相同任务。 ...
让 Transformer 飞起来: 深入探究线性注意力 自 2017 年里程碑式的论文 Attention Is All You Need 问世以来,Transformer 已经席卷了整个人工智能领域。像 BERT、GPT-3 和 DALL·E 这样的模型彻底改变了自然语言处理、计算机视觉等多个领域。它们是生成式 AI 浪潮背后的核心引擎——能够编写代码、创作艺术,并开展令人惊讶的连贯对话。 ...
你花了数周时间训练了一个最先进的图像分类器。它在测试集上取得了近乎完美的准确率,你准备好部署它了。但当它遇到真实世界的数据时——一张来自旧手机的模糊照片、一张在雾天拍摄的图像,或是一段来自晃动视频的帧——性能却急剧下降。这是否似曾相识? ...
机器学习模型是强大的模式检测器。当测试时的世界与训练时的世界相似,它们表现出色。但在实践中,现实世界往往不配合。一辆在晴天道路上训练的自动驾驶汽车,在雪天可能举步维艰;一个在某家医院训练的医学影像模型,在另一家医院的数据上可能失效。这种不匹配——称为分布偏移 (distribution shift) ——是可靠的真实世界人工智能面临的最大障碍之一。 ...
长期以来,循环神经网络 (RNN) 一直处于 Transformer 的阴影之下。Transformer 主导了现代序列建模,因为它们能够高效地利用长上下文——拥有越多的历史信息,预测未来词元就越容易。其缺点在于二次复杂度,使得它们在处理长序列时运行缓慢且占用大量内存。相比之下,RNN 具有线性复杂度,但一直难以充分利用更多的上下文。 ...
引言: 看见全局图像的挑战 在医疗诊断中,清晰度是关键。医学图像分割——即在医学影像中勾勒器官、组织或细胞的边界——是理解疾病进展、制定外科决策的核心。过去十年里,*卷积神经网络 *(CNNs) ,尤其是著名的 U-Net 架构,在各类分割任务中都取得了令人瞩目的精确度。 ...
如果让一个 AI 拥有自我意识,不仅能帮助它理解自己,还能从根本上让它变得更好,这会怎样? 在认知科学中,我们早就知道人类依赖于自我模型: 追踪肢体空间位置的身体图式,以及思考自身想法的元认知能力。这类预测性的自我模型帮助大脑控制和调整其行为。但当我们将类似的能力赋予神经网络时,又会发生什么呢? ...
引言: 适应性之谜 大型语言模型 (LLM) 和其他基础模型已经彻底改变了人工智能领域。它们最引人注目的能力是 上下文学习 (In-context Learning, ICL) ——你可以在提示中给模型展示一个新任务的几个示例,它往往就能在不更新内部权重的情况下学会如何完成这个任务。这就像一个学生在考试前只靠几道练习题就掌握了新知识。 ...
大型语言模型 (LLM) 在复杂推理任务上——如解决高等数学问题、编写结构化代码以及回答研究生水平的科学问题——表现得极为出色。支撑这种智能的核心技术之一是 并行扩展,即模型针对同一个问题生成数百条独立的推理路径 (或称 思维链,CoT) ,然后通过多数投票等方法选出最一致的最终答案。 ...
如果你用过像 GitHub Copilot 这样的 AI 编程助手,你很可能已经参与了研究人员现在所说的 “凭感觉编程” (vibe coding) 。你不是只请求一次代码,而是与它进行一场 对话。你可能从一个基本请求开始,然后不断完善它: “好的,这个能用,但你能用 for 循环而不是递归来重写吗?” 或者 “加上一些注释,并确保所有行都不超过 80 个字符。” ...
大语言模型 (LLM) 在处理复杂问题方面已变得非常出色——从编写代码到解决繁复的数学问题。这一成功的关键在于它们能够通过思维链 (Chain-of-Thought, CoT) 推理进行“大声思考”。通过生成中间步骤,LLM 能够逻辑地分解问题,并得出更加准确的解决方案。 ...
像 Midjourney、Stable Diffusion 和 Sora 这样的扩散模型,已经彻底改变了我们从简单文本提示创作数字艺术、视频和逼真图像的方式。它们催生了新一代的创意工具,但这些工具都有一个主要的限制:** 速度**。用像 SDXL 这样的模型生成一张高分辨率图像可能需要几十秒,这使得实时或交互式应用变得十分繁琐。 ...
引言: 大数据的混乱现实 线性回归是现代统计学和机器学习的基石之一。其基本思想很简单: 拟合一条直线 (或一个平面) 来最好地刻画输入变量与输出之间的关系。然而,当现实世界的数据介入时,简单性便不复存在——真实数据很少是干净或低维的。在实践中,我们面对的是庞大、高维的数据集,它们往往杂乱、噪声重且包含离群值。 ...
像 GPT 这样的基础模型已经展示出一种惊人的能力,称为 上下文学习 (in-context learning) ——即纯凭示例来适应新任务,而无需更新任何模型参数。这一突破重塑了语言、视觉和多模态领域的现代机器学习。现在,研究人员正将这种能力扩展到决策系统中,开辟了一个新的前沿领域: 上下文强化学习 (ICRL) 。 ...
大型语言模型 (LLM) 在模仿人类方面已经达到了惊人的水平,但当涉及复杂的多步推理——比如解答棘手的数学问题或调试程序——它们常常会失误。一个常见的解决方法是在推理过程中给予模型更多“思考时间”: 让它生成多个答案并选择最好的一个。问题在于,如果模型不擅长评估自身的工作,它只会更快地产生大量错误答案。这就像让一个不懂代数的学生去解一百道方程——他只会一遍又一遍地犯同样的错误。 ...
图结构数据无处不在。从连接数十亿用户的社交网络,到复杂的分子结构以及庞大的知识图谱,我们的世界建立在各种关系之上。图神经网络 (GNNs) 已成为从这种数据中学习的首选工具,为推荐系统、药物开发等各种应用提供动力。 ...
Foundations and Trends® in Machine Learning 的出版商横幅。 元强化学习 (meta-RL) 提出了一个看似简单的问题: 我们能否通过学习如何学习数据,训练一个比其基础学习器学习得更快的智能体?换句话说,我们不是设计一个算法来解决单一任务,而是能否设计一种算法,使其自身成为一个数据驱动的学习过程——从而在面对新任务时能够快速而高效地适应? ...
深度学习模型的能力令人惊叹。它们可以识别照片中的猫,实时翻译语言,甚至帮助医生诊断疾病。但它们有一个致命的弱点: 往往十分脆弱。一个在高质量、影棚级图像上训练的模型,当面对一张用智能手机拍摄的模糊现实世界照片时,可能会惨败无比。这就是分布外 (OOD) 问题——构建真正可靠且自适应的人工智能所面临的最大障碍之一。 ...
像 GPT-4 和 Claude 这样的大语言模型 (LLM) 有一种看似神奇的能力: 在提示中只需展示几个任务范例——比如两个带标签的句子或几段代码——它们就能立即在新的数据上执行该任务。 这种能力被称为 上下文学习 (In-Context Learning,ICL) ,它让模型无需更新任何底层权重,仅凭少量演示就能完成语言翻译、情感分析,甚至算法编写。 ...