](https://deep-paper.org/en/paper/2305.15408/images/cover.png)
解锁黑箱:大语言模型中思维链背后的理论
解锁黑箱: 大语言模型中思维链背后的理论 如果你曾使用过现代大语言模型 (LLM) 解决难题,你可能知道这个技巧: 在提示中加上一句“让我们一步一步地思考”,模型通常会生成中间推理过程并给出正确答案。这个看似简单的改变,被称为思维链 (Chain-of-Thought, CoT) 提示,已成为提升模型在数学、逻辑和推理任务表现的常用方法。 ...
解锁黑箱: 大语言模型中思维链背后的理论 如果你曾使用过现代大语言模型 (LLM) 解决难题,你可能知道这个技巧: 在提示中加上一句“让我们一步一步地思考”,模型通常会生成中间推理过程并给出正确答案。这个看似简单的改变,被称为思维链 (Chain-of-Thought, CoT) 提示,已成为提升模型在数学、逻辑和推理任务表现的常用方法。 ...
引言: 极小极大优化的高风险博弈 想象一个有两名玩家的游戏。一名玩家——最小化方 (Minimizer) ——希望某个值越小越好。另一名玩家——最大化方 (Maximizer) ——则希望同一个值越大越好。他们轮流行动,每一方都试图智取对方。这就是极小极大 (minimax) 问题的本质,一个位于许多现代机器学习核心的概念。 ...
在过去十年中,深度学习的发展始终围绕一个主题——规模: 更大的模型、更长的上下文、更宽的特征空间。规模化带来了令人惊叹的能力,但也遇到了一个现实瓶颈——计算成本。许多当前最先进的模型,其核心操作在时间和内存上的开销均呈二次方增长: 序列长度为 \(N\) 的注意力机制,以及特征维度为 \(d\) 的密集型 MLP。序列长度或模型宽度翻倍,计算量可能增加四倍。随着我们迈向更长的上下文和更宽的网络,二次方的增长成本很快会变得难以承受。 ...
机器学习模型常因其 黑箱 特性而饱受诟病。我们输入数据,它输出结果,但其决策背后的逻辑却不透明。在医疗诊断或贷款审批等高风险领域,这种缺乏透明性的状况是不可接受的,因为在这些场景下,理解 为什么 与知道 是什么 同样重要。聚类——即将相似的数据点分组的任务——也不例外。如果无法理解模型创建簇的逻辑,我们又怎能信任它的聚类结果呢? ...
我们是如何如此迅速地学习新概念的?一个孩子看一两次“击掌” (high-five) ,就能泛化到“击低掌” (low-five) 。一个研究人员听说“小样本提示” (few-shot prompting) ,就能迅速领会其核心思想。从“1, 4, 16, 64”,我们能立即推断出模式是“4的幂”。这种从少量具体示例中归纳出通用规则的能力——一个称为*归纳 *(induction) 的过程——是人类智能的基石。我们能毫不费力地在几乎无限的概念范围内完成这一过程。 ...
在不确定性量化方面,高斯过程 (GPs) 堪称机器学习领域的“瑞士军刀”。它们提供了一种强大且有原则的方法,不仅能进行预测,还能评估我们对这些预测的置信度。这使得它们在药物研发、机器人技术和自动化科学探索等高风险应用中具有不可估量的价值,因为在这些领域,了解模型不知道什么与它预测什么同样重要。 ...
引言: 编辑 AI 模型的艺术 像 CLIP、GPT 和 T5 这样的大型预训练模型已成为现代人工智能的支柱。它们拥有极其丰富的通用知识,但要真正发挥作用,通常需要进行一些有针对性的编辑。我们可能想教它们一项新技能,使它们与人类价值观对齐,或者让它们忘记不良行为。 ...
引言: 对齐复杂数据分布的挑战 想象一下,你有两组图像: 一组是模糊的照片,另一组是清晰的高分辨率照片。你将如何教一个模型将任何一张模糊照片转换成逼真的清晰版本?或者考虑将夏日风景图转换为冬日雪景图。这些都是现代机器学习中根本性挑战的例子: 找到一种有意义的方式,将一个复杂的概率分布映射到另一个。 ...
图 1: LightGaussian 将大规模 3D 高斯溅射场景从 782 MB 压缩到 45 MB,同时将渲染速度从 144 FPS 提升至 237 FPS,视觉保真度损失几乎不可察觉。 ...
3D高斯溅射技术因其仅需少量图像即可实现照片级场景重建和实时渲染,在计算机图形学界引起了广泛关注。该技术通过数百万个微小、半透明、带颜色的斑点——即3D高斯——来建模场景,每个高斯都对最终图像做出贡献。 ...
3D 图形世界的发展一日千里。多年来,我们一直追逐着创造与现实无异的数字场景的梦想。神经辐射场 (NeRF) 的出现带来了一次重大飞跃,它能通过少量照片生成惊艳的、照片级逼真的视图。但 NeRF 有一个问题: 它非常慢。 ...
创建3D资产在传统上一直是熟练艺术家使用复杂软件的专属领域——这个过程即使不是几天,也通常要耗费数小时。生成式AI的兴起,尤其是扩散模型,正在重塑这一现实,让任何人都有机会通过简单的文本提示生成精致的3D对象。但一直存在一个问题: 现有的两种方法各有利弊。 ...
图 1: GS-LRM 从物体采集 (左上) 、文本条件生成的物体图像 (右上) 、场景采集 (左下) 和文本条件生成的场景图像 (右下,来自 Sora,提示为“参观一个拥有许多不同风格美丽艺术品的美术馆”) 预测的新视角渲染。GS-LRM 能以惊人的保真度处理物体和复杂场景。 ...
仅凭几张 2D 图像就能创建出照片般逼真的 3D 场景,我们已经见证了这方面令人惊叹的进展。像 神经辐射场 (NeRFs) 以及近期的 3D 高斯溅射 (3DGS) 这样的技术,能够生成场景中令人惊艳的全新视角,让你仿佛驾驶无人机飞越一张静态照片。 ...
想象一下,一个机器人在你家中穿行——它不仅能避开障碍物,还能在移动的同时构建一个逼真度极高的三维环境模型。或者,设想一副增强现实头显,它能将虚拟物体无缝锚定在物理世界,实现完美对齐,并呈现逼真的光照与阴影。这些充满未来感的应用都依赖于一项核心技术——同步定位与地图构建 (SLAM) 。 ...
引言 在快速发展的计算机图形学与计算机视觉领域,很少有技术能像 三维高斯溅射 (3D Gaussian Splatting, 3DGS) 那样引起如此广泛的关注。自 2023 年问世以来,它凭借照片级的新视角合成能力和实时渲染速度,让研究人员与开发者印象深刻。对许多人而言,它就是期待已久、实用且高效的神经辐射场 (NeRFs) 继任者。 ...
从一小组照片中创建真实世界场景的数字 3D 副本,是计算机视觉和图形学领域的长期目标之一。这种能力——通常称为新视角合成或3D 重建——驱动着从虚拟现实体验、电影视觉特效,到数字孪生与建筑可视化等多种技术的发展。 ...
在过去几年里,计算机图形学领域一直为神经辐射场 (NeRFs) 所着迷。这些方法提出了一种突破性的方式来捕捉和探索3D场景——仅需几张照片,就能从任意新视角生成惊人逼真的图像。 ...
循环神经网络 (RNN) 及其更强大的近亲——长短期记忆网络 (LSTM) ,是处理序列数据的基础工具。它们促成了从语言翻译、图像字幕生成到语音和手写生成等领域的重大突破。然而,尽管 LSTM 表现出色,它们长期以来却被视为“黑箱”。我们知道它们有效,但它们如何工作、学到了什么、为什么成功、以及在哪些方面会失败,这些问题仍缺乏深入认识。 ...
循环神经网络 (Recurrent Neural Networks, RNN) 是序列建模的主力,驱动了从机器翻译到文本生成的各种应用。提升其能力的一个常用策略是通过堆叠多个循环层来加深网络结构。这种堆叠方法很直观: 底层处理低级、快速变化的特征,高层则学习更抽象、变化缓慢的概念。在传统设计中,信息在层级结构中只向上流动。 ...