Papers

[Conservative Q-Learning for Offline Reinforcement Learning 🔗](https://arxiv.org/abs/2006.04779)

从过去中学习：保守 Q 学习如何解锁离线强化学习

想象一下，我们正在训练一个机器人来做饭。在强化学习 (RL) 中，传统的方法是试错法。机器人可能会尝试捡起一个鸡蛋——有时成功，有时失手摔落弄得一团糟。经过数千次尝试，它最终学会了。但如果我们已经拥有一个人类厨师做饭的海量数据集呢？机器人能否仅仅通过观察就学会，而无需自己打碎任何一个鸡蛋？这就是**离线强化学习 **(也称为批量强化学习，Batch RL) 的愿景。它旨在完全依靠静态、预先收集的数据集来学习有效策略——从而无需进行成本高昂、缓慢甚至可能有危险的真实世界交互。这可能会为强化学习在机器人、自动驾驶或药物研发等复杂领域的应用带来巨大变革，因为这些领域拥有大量的历史数据日志，但无法进行无休止的实时实验。离线学习的风险: 分布偏移要理解为何离线强化学习如此困难，我们先来回顾一下 Q 学习的基础。在强化学习中，智能体会学习一个Q 函数 \(Q(s, a)\)，它估计在状态 \(s\) 下采取动作 \(a\)，并在此后始终以最优方式行动时所能获得的总未来奖励。智能体的策略 \(\pi(a|s)\) 则是在状态 \(s\) 下选择能最大化该 Q 值的动作方案。在 Actor-Critic (演员-评论家) 框架中，这一过程通常是一个两步循环: 策略评估 (Policy Evaluation): 更新 Q 函数，以反映当前策略的表现。策略提升 (Policy Improvement): 更新策略，使其倾向于选择更高 Q 值的动作。图: 标准的 Actor-Critic 循环: Q 函数评估当前策略；策略更新以偏好高价值的行动。当智能体可以自由探索时，这套机制运行良好。如果它高估了某个糟糕动作的价值，它可以尝试该动作，看到不理想的结果，然后修正自己。但在离线强化学习中，智能体无法进行探索。它只能使用由某个行为策略 \(\pi_\beta\) 收集的固定数据集。随着学习到的策略 \(\pi\) 不断优化，它会逐渐偏离 \(\pi_\beta\)。这种现象被称为分布偏移 (distributional shift) 。智能体可能会开始相信某个从未见过的动作非常出色——例如，一个机械臂觉得用最大速度去抓积木是最佳方法。如果数据集中不存在这种高速动作 (因为数据是由人类谨慎地收集的) ，那么由具备泛化能力的神经网络驱动的 Q 函数就会在缺乏证据的情况下进行外推。这种外推往往会极度乐观。这可能造成一个危险的反馈循环: Q 函数给某个分布外 (out-of-distribution, OOD) 的动作赋予很高的价值。策略更新倾向于选择这种“极佳”但从未出现过的动作。随后的评估包含这些 OOD 动作，进一步强化了错误的乐观估计。没有真实环境的反馈，价值估计就可能失控，最终导致灾难性的策略。早期的一些方法试图约束学习到的策略，使其与 \(\pi_\beta\) 保持“接近”。而保守 Q 学习 (Conservative Q-Learning, CQL) 则直击问题根源——直接处理错误的 Q 值。 ...

[NeRF: Neural Radiance Field in 3D Vision: A Comprehensive Review 🔗](https://arxiv.org/abs/2210.00379)

NeRF、高斯泼溅及未来：神经辐射场导览

2020 年 3 月，《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》这篇论文提出了一个看似简单却影响深远的想法，重塑了我们对 3D 场景表示的认知。仅凭一组带有位姿的二维照片，一个紧凑的神经网络便能学习出连续且视图一致的场景外观与几何模型，并能合成具有照片真实感的新视角图像。在接下来的五年里，NeRF 激发了大量后续研究: 更快的训练速度、更优的几何表现、更稳健的稀疏视图方法、生成式 3D 合成，以及面向城市场景、虚拟人 (human avatar) 与 SLAM 的应用系统。随后在 2023 年，3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 问世，并凭借显著的速度和质量优势，迅速在许多新视角合成任务中成为焦点。这引发了一个问题: NeRF 是否已经过时？简短的回答是: 没有。NeRF 的隐式、连续表示在内存受限环境、体积现象 (volumetric phenomena) ，以及紧密集成的 3D 视觉管线 (如 SLAM、可动虚拟人和基于语言的场景理解) 中，依然具有独特优势。本文将带您回顾这五年的发展历程——涵盖基础概念、2023 年前的重要里程碑、之后的变化，以及 NeRF 风格的神经场在何处依然大放异彩。图 1 展示了从 NeRF 时代到高斯泼溅兴起阶段的重要论文时间线。图 1 — 2020–2025 年重要且有影响力的 NeRF 与神经渲染方法时间线。垂直标注表示 2023 年末高斯泼溅的诞生。一段话讲清核心思想 NeRF 将场景表示为由神经网络实现的连续 5D 函数: 给定 3D 位置 x = (x, y, z) 和观察方向 d (3D 单位向量) ，网络预测体积密度 σ(x) 与颜色 c(x, d)，即: ...

[Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction 🔗](https://arxiv.org/abs/2302.07817)

TPVFormer：用三视角视图从二维快照重建三维世界

自动驾驶汽车要在我们这个混乱的世界中穿行，仅有 GPS 和规则是远远不够的——它必须能够看到并理解其周围环境的丰富三维细节。除了检测汽车和行人，它还应该能识别出它们所占据的空间、地形的轮廓、人行道的位置以及头顶的树冠。这就是三维语义占据预测 (3D Semantic Occupancy Prediction) 的核心: 构建一个完整的、带标签的三维环境地图。传统上，激光雷达 (LiDAR) 是完成这项任务的首选技术。LiDAR 传感器发射激光束，直接捕捉周围环境的三维点云。然而，LiDAR 价格昂贵，而且数据可能稀疏，尤其是在远距离或被遮挡区域。摄像头则价格低廉、无处不在，并且能捕捉到激光雷达所缺失的丰富纹理和颜色信息。但挑战在于，二维图像是三维现实的扁平切片——如何可靠地恢复缺失的那一维，是一个难题。最近的论文《Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction》提出了一种新方法来克服这一挑战。作者引入了三视角视图 (Tri-Perspective View, TPV) 这一全新的三维表示方法，并提出了一个高效的、基于 Transformer 的模型 TPVFormer 来构建它。结果令人瞩目: 仅用摄像头图像，TPVFormer 就能生成密集、准确的三维语义地图——有时比训练时使用的稀疏激光雷达数据更全面。图 1: 基于视觉的占据预测流程。TPVFormer 接收 RGB 输入，并利用稀疏的激光雷达监督预测所有体素的语义占据情况。在本文中，我们将探讨 TPV 背后的动机，解析其设计，剖析 TPVFormer 的架构，并审视实验结果，这些结果表明，在全场景理解方面，视觉可能足以与激光雷达相媲美。表示三维空间: 现有方法为了理解 TPV 的创新之处，我们先看看自动驾驶中常用的两种场景表示方法:** 体素网格 (Voxel Grids)** 和鸟瞰图 (Bird’s-Eye-View, BEV)。体素网格: 三维像素方案最直接的三维场景表示方法是将其划分为均匀的立方体——即体素 (voxels)。每个体素存储一个特征向量，描述其内容: 空闲空间、汽车的一部分、一棵树、道路等。体素网格表现力强，能保留完整的三维细节。点 \((x, y, z)\) 的特征就是包含该点的体素的特征: ...

[Structured 3D Latents for Scalable and Versatile 3D Generation 🔗](https://arxiv.org/abs/2412.01506)

TRELLIS：用统一的隐空间结构编织高质量 3D 世界

图 1: TRELLIS 根据文本或图像提示生成的多种格式的高质量 3D 资产。展示了其多功能的生成能力、通过 3D 高斯或辐射场实现的生动外观、通过网格实现的精细几何形状以及灵活的编辑功能。由人工智能生成的内容世界一直由令人惊叹的 2D 图像主导。像 DALL-E 和 Midjourney 这样的模型可以凭借简单的文本提示，生成逼真的场景和奇幻的艺术作品。但第三维度呢？尽管 3D 生成技术取得了令人瞩目的进步，但它长期以来一直给人落后于 2D 技术一步的印象。这是为什么呢？最大的障碍之一是表示问题。与整齐存储为像素网格的 2D 图像不同，3D 对象有多种形式: 用于清晰几何的网格 (meshes)、用于体积表示的体素 (voxels)、用于照片级渲染的辐射场 (NeRFs) 和 3D 高斯 (3D Gaussians)。每种格式都有其独特的优点和局限性，而大多数生成模型只专注于一种，从而限制了通用性。一个擅长 NeRF 的模型可能很难生成可直接用于游戏引擎的干净网格。这种碎片化使得构建一个统一、通用的 3D 生成系统异常困难。如果有一种通用语言——一种可以流畅转换为任何格式的表示方法，会怎么样？这正是论文《用于可扩展和多功能 3D 生成的结构化 3D 隐空间》所要解决的挑战。作者引入了一种名为结构化隐空间 (Structured Latents, SLAT) 的统一隐空间表示，以及一个基于它构建的模型家族——TRELLIS。该系统可以根据文本或图像生成高度精细的 3D 资产，并且至关重要的是，可以输出多种格式——网格、3D 高斯或辐射场——所有这些都源于相同的底层数据。 3D 表示的“动物园”: 为何我们需要一个统一的框架在领会 SLAT 的新颖前，让我们先看看当前的表示格局: 网格 (Meshes): 游戏、动画和 CAD 的基础格式。通过顶点、边和面来构建精确、清晰的几何体。在结构表现上很出色，但生成精致的材质可能具有挑战。辐射场 (NeRFs): 将 3D 坐标与观察方向映射到颜色/密度上的连续函数。非常适合照片级的视图合成，但难以从中提取干净、可编辑的几何体。 3D 高斯 (3D Gaussians): 将场景表示为具备颜色、不透明度和形状的“斑点”云。支持实时、高质量渲染，但与 NeRF 类似，同样不易提取干净的表面。由于这些不同，方法各自专精——网格模型擅长几何，但需要额外纹理生成；NeRF 或高斯模型能产生丰富视觉效果，但无法生成干净网格。 TRELLIS 认为，答案不是完善某一种格式，而是创建一个可轻松转换为任何格式的基础表示。 ...

[Grounding Image Matching in 3D with MASt3R 🔗](https://arxiv.org/abs/2406.09756)

超越像素：MASt3R 如何让二维图像匹配扎根于三维现实

图 1: 即使在极端视角变化下，MASt3R 也能预测出密集的像素对应关系，从而实现精确的相机标定、姿态估计和三维重建。图像匹配是计算机视觉领域的无名英雄之一。它是众多应用背后的基础构建模块——从电影和电子游戏中用于创建 3D 模型的摄影测量法，到自动驾驶汽车和机器人中的导航系统。这项任务听起来很简单: 给定同一场景的两张图像，找出其中一张图像的哪些像素对应于另一张图像中的哪些像素。几十年来，标准方法一直将其视为一个纯粹的二维问题。你在两张图像中检测“关键点”，描述每个关键点周围的局部区域，然后玩一个特征空间中的“连点成线”游戏。当图像相似时，这种方法效果很好，但如果给它两张从相反方向拍摄的同一建筑物图片，系统很快就会崩溃。视觉世界的变化实在太大。但如果我们一直以来都用错了视角呢？一对匹配的像素不仅仅是看起来相似的图块——它们是三维空间中同一个点在两个不同视角下的投影。这个简单而深刻的洞见，是 NAVER LABS Europe 一篇开创性论文的核心。研究人员提出，要真正掌握二维图像匹配，我们必须将其扎根于三维。他们的方法名为 MASt3R (Matching And Stereo 3D Reconstruction)，它建立在一个强大的三维重建模型之上，并训练它成为一个世界级的图像匹配器。通过这种方式，它大幅超越当前最先进水平——在该领域最具挑战性的一个定位基准上取得了前所未有的30% 绝对提升。在本文中，我们将深入探讨 MASt3R: 它如何重新思考匹配问题、使之成为可能的巧妙架构，以及证明三维思维力量的惊人结果。迈向三维感知的匹配之旅在理解 MASt3R 的创新之前，让我们快速回顾一下图像匹配技术的发展脉络。经典流程: 检测、描述、匹配以 SIFT 等方法为代表的传统范式通常包含三个步骤: 检测: 在每张图像中找到一组稀疏的、显著且可重复的关键点 (例如角点) 。描述: 为每个关键点创建一个紧凑的数值描述子，使其对旋转、光照和尺度变化具有不变性。匹配: 将一张图像中的描述子与另一张图像中的描述子进行比较，通常通过最近邻搜索实现。这个流程在视角相似时既快速又精确。但它只关注局部图块，忽略了全局几何上下文。因此，它会在重复区域 (如摩天大楼的窗户) 、低纹理区域 (如白墙) 以及严重视角偏差下失效。较新的方法如 SuperGlue 通过图神经网络进行全局推理来改进匹配步骤——但检测与描述本质上仍是局部的。密集化革命: 匹配一切不依赖检测器的方法 (如 LoFTR) 跳过了关键点选择步骤。它们利用 Transformer 处理整幅图像，从而在所有像素间产生密集对应关系。这使它们在无纹理区域和重复模式下更加鲁棒，并在困难的基准上取得了新高。但它们依然将问题视为二维到二维匹配——忽略了真实的三维几何。范式转移: DUSt3R DUSt3R 的出现改变了这一切——这是一个为三维重建而非匹配而设计的模型。给定两张未标定的图像，它预测一个*点图 *(pointmap) ——为每个像素分配空间中的三维坐标。这样可以同时完成相机标定和场景重建。匹配关系也自然产生: 如果图像 1 中的像素 i 与图像 2 中的像素 j 对应到同一个三维点，那么它们就是匹配的。 ...

[LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation 🔗](https://arxiv.org/abs/2402.05054)

LGM：使用高斯泼溅技术在 5 秒内创建高分辨率 3D 模型

为游戏、虚拟现实和电影创作 3D 内容一直以来都是一个劳动密集型的过程，需要技艺精湛的艺术家投入大量时间进行细致的工作。但如果你只需一张图片或一行文字，就能在几秒钟内生成一个细节丰富的 3D 模型，那会怎样呢？这正是生成式 AI 在 3D 领域的承诺——一个正在飞速发展并经历爆炸性增长的领域。早期的技术虽然具有革命性，但速度较慢，优化单个 3D 资产通常需要几分钟甚至几小时。近期的前馈模型将生成时间缩短到了秒级，但代价是分辨率和几何细节下降。核心挑战一直是如何在速度与质量之间取得平衡。我们是否能兼得两者？一篇新论文《大规模多视图高斯模型》 (Large Multi-View Gaussian Model, LGM) 恰好提出了这样的解决方案。这种新颖的方法能够在约 5 秒内生成高分辨率、细节丰富的 3D 模型，并通过两项关键创新避开了以往方法的瓶颈: 高效且具表现力的 3D 表示方法:** 3D 高斯泼溅 (3D Gaussian Splatting)** 高吞吐量的非对称 U-Net 骨干网络来生成该表示图 1: LGM 可根据文本提示或单视图图像，在约 5 秒内生成高分辨率、细节丰富的 3D 高斯模型。在本文中，我们将剖析 LGM 论文——探讨先前方法的局限性、使 LGM 如此高效的架构与训练策略，以及它如何凭借惊人效果为快速、高保真 3D 内容创作树立新标准。对快速、高质量 3D 生成的探索在深入 LGM 的设计之前，让我们先简要回顾当前 3D 生成领域的两种主流方法: ...

[DUSt3R: Geometric 3D Vision Made Easy 🔗](https://arxiv.org/abs/2312.14132)

DUSt3R 如何重新定义三维重建——无需相机信息

从照片到三维模型: 一条更简单的路径从一组普通照片创建精细的三维模型，一直被认为是计算机视觉领域的终极目标之一。几十年来，标准方法是一个复杂的多阶段流水线: 首先通过运动恢复结构 (Structure-from-Motion, SfM) 估计相机参数和稀疏几何，然后通过多视图立体匹配 (Multi-View Stereo, MVS) 生成稠密的表面模型。这个传统流水线是一项非凡的成就，支撑着从谷歌地图的三维视图到文化遗产保护、机器人导航和自动驾驶等众多应用。但它也非常脆弱——每一步都依赖前一步的成功，任何环节出错都可能在整个流水线中级联放大，导致最终重建失败。相机标定必须精确，视图数量必须充足，运动变化必须足够，表面纹理必须丰富——否则重建就可能崩塌。如果我们能完全绕过所有这些阶段呢？想象一下，将几张照片——没有任何相机信息——输入到一个统一的模型中，就能直接获得一个精确的三维模型。这就是 DUSt3R 所带来的突破性承诺——一种从根本上简化三维重建的创新方法。这个单一模型可以接收一组无约束的图像，并直接一次性输出稠密的三维重建——以及相机位姿、深度图和像素对应关系。它消除了传统方法中脆弱的顺序依赖，并在多项基础三维视觉任务上树立了新的业界标杆。图 1: DUSt3R 流程。输入一组未知相机参数的图像，DUSt3R 输出一致的三维重建，并能推导出所有传统上难以估计的几何量。传统方法: 脆弱的链条为了理解为什么 DUSt3R 是如此巨大的飞跃，让我们简要回顾一下传统的流水线: 特征匹配: 在每张图像中检测独特的关键点，并在不同视图间进行匹配，以建立场景中相同物理点的对应关系。运动恢复结构 (SfM): 利用这些匹配同时求解相机内参 (焦距、主点) 和外参 (位置、方向) ，并估计关键点的稀疏三维坐标。束调整 (Bundle Adjustment, BA): 通过最小化所有视图的重投影误差，共同优化所有相机和三维点。多视图立体匹配 (MVS): 使用优化后的相机位姿，为每个像素建立稠密对应关系，以重建连续表面。尽管经过几十年的改进，这个流水线的顺序性仍然是其致命弱点: 糟糕的匹配会导致糟糕的位姿，进而产生错误的稠密重建。此外，后续步骤很少能反馈信息来改进早期步骤，使相机和场景几何成为相互独立的问题域。大多数现代系统尝试进行局部改进——例如增强特征匹配或将 MVS 的部分过程神经网络化——但依赖的核心链条依然存在。DUSt3R 则完全打破了这条链条。 DUSt3R 的范式转变: 预测点图 (Pointmaps) DUSt3R 的核心是其点图 (pointmap) 表示——一种从图像中每个像素映射到公共场景坐标系中一个三维点的稠密表示。什么是点图？深度图为每个像素提供一个距离 \( z \)。而点图更进一步: 对于每个像素坐标 \((i, j)\)，它存储该像素所观察到的场景中点的完整三维位置 \( X_{i,j} = (x, y, z) \)。 ...

[Zero-1-to-3: Zero-shot One Image to 3D Object 🔗](https://arxiv.org/abs/2303.11328)

Zero-1-to-3：AI如何从单张照片想象出3D物体

当你看一张汽车的照片时，你看到的不仅仅是像素构成的二维平面。你的大脑会利用一生积累的经验，瞬间构建出一个三维物体的心理模型。你可以毫不费力地想象出这辆车从侧面、背面或上方的样子，即使你以前从未见过这个特定型号。这种从单个2D视图推断3D结构的能力是人类感知的基石。然而，对于人工智能而言，这是一个巨大的挑战。传统上，从图像创建3D模型需要多张不同角度的照片、专门的深度感应摄像机，或者用于训练的庞大且昂贵的3D模型数据集。这些方法虽然强大，但存在局限: 可扩展性不佳，并且在处理未经专门训练的物体时往往会失败。如果AI能够像我们一样——通过观察世界来学习这项技能，会怎样呢？哥伦比亚大学和丰田研究院的研究人员最近发表了一篇题为 Zero-1-to-3: Zero-shot One Image to 3D Object 的论文，介绍了一种突破性的方法。他们找到了一种方法，可以挖掘像 Stable Diffusion 这样的大规模图像扩散模型中深藏的 3D 几何知识，教它们从一张普通的图片生成该物体的新视角。其结果如图所示，令人惊叹。图1: 给定单张物体RGB图像，Zero-1-to-3 即便在大幅视点变化情况下，也能生成细节一致的新视图。在本文中，我们将深入探讨 Zero-1-to-3 的工作原理。我们会探索利用 2D 图像模型处理 3D 任务的直觉，剖析实现相机视点控制的核心方法，并审视那些推动单视图 3D 重建技术达到新高度的惊人成果。 2D 模型中隐藏的 3D 世界像 DALL-E 2 和 Stable Diffusion 这样的现代 AI 图像生成器的“魔力”来自于它们海量的训练数据集。这些模型在从互联网上抓取的数十亿张图片上进行训练——这些图片种类繁多，涵盖了无数的物体、场景和风格。在学习生成 2D 图像的过程中，它们也隐式地掌握了关于我们 3D 世界的规律。它们看过各种角度的猫、无数视角的汽车，以及各种光照条件下的椅子。问题在于，这种丰富的 3D 知识仍然是隐式的。你可以让 Stable Diffusion 生成“一把椅子的照片”，但你不能让它展示“刚才生成的那把椅子的背面视图”。模型对视点的理解是内嵌的，而非可控的。此外，这些模型会继承训练数据中的偏见。让它们生成一把椅子时，往往会生成一个正面朝向的标准姿态版本——因为网上的大多数椅子图片都是这样的。图2: 文本到图像模型中的视点偏差。大多数生成的椅子都是正面朝向的。这种视点偏差表明，尽管这些模型包含了丰富的多视角信息，但它们缺乏控制这些信息的机制。新视角合成需要: 将模型隐含的 3D 知识显式化并实现可控。克服对标准姿态的偏见，以生成任意角度的视图。 Zero-1-to-3 同时解决了这两个问题。 ...

[A COMPREHENSIVE REVIEW OF YOLO ARCHITECTURES IN COMPUTER VISION: FROM YOLOV1 TO YOLOV8 AND YOLO-NAS 🔗](https://arxiv.org/abs/2304.00501)

从v1到v8及更远：YOLO的完整发展史

在计算机视觉领域，很少有算法能像YOLO (You Only Look Once) 那样产生如此重大而深远的影响。从帮助自动驾驶汽车感知周围世界，到为自动化结账系统提供支持，实时目标检测已成为现代人工智能的基石。而这场革命的核心就是YOLO——一个因其在速度和准确性之间取得惊人平衡而备受赞誉的模型家族。自2015年首次亮相以来，YOLO经历了一场非凡的演进。每一个新版本都通过引入巧妙的网络架构改进和新颖的训练技巧，不断突破可能性的边界。本文将带您全面回顾YOLO的整个发展史，从开创性的原始版本，一直到最新的顶尖版本，如YOLOv8和由AI设计的YOLO-NAS。无论您是刚开始接触深度学习的学生，还是希望了解这些强大模型背后机制的从业者，本指南都将为您剖析YOLO的核心概念、关键创新，以及它如何成为计算机视觉领域巨擘的故事。图 1: 2015年至2023年主要YOLO版本的时间线。首先，一些基本准则: 我们如何衡量成功在我们深入探讨第一个YOLO模型之前，了解如何评估目标检测器至关重要。如果对这些指标没有扎实的理解，那么从一个版本到下一个版本的改进将显得毫无意义。交并比 (IoU) 最基本的概念是交并比 (Intersection over Union, IoU) 。想象一下，我们的模型预测了一个猫的边界框，同时我们数据集中有这个猫的真实标签框。我们如何判断这个预测的好坏呢？答案是衡量它们的重叠程度。 IoU是预测框与真实标签框之间重叠区域的面积与它们共同覆盖的总区域 (即它们的并集) 面积之比。其值范围从0 (无重叠) 到1 (完美重叠) 。通常，如果一个预测框与一个真实标签框的IoU高于某个阈值 (通常是0.5) ，则该预测被认为是真阳性。图 2: IoU 可视化，展示了差、好、优三种重叠情况的示例。平均精度 (AP) 目标检测的主要指标是平均精度 (Average Precision, AP) ，通常也称为平均精度均值 (mean Average Precision, mAP) 。AP提供了一个单一数值，概括了模型在所有目标类别和置信度水平下的性能。它是根据精确率-召回率曲线计算得出的: 精确率 (Precision): 在我们预测的所有目标中，有多少是正确的？召回率 (Recall): 在图像中所有真实存在的目标中，我们找到了多少？二者存在天然的权衡: 如果你试图找到所有目标 (高召回率) ，很可能会犯更多错误 (低精确率) 。AP优雅地总结了这种平衡。作为现代基准测试标准的MS COCO数据集，通过在多个IoU阈值 (从0.5到0.95) 上取平均来计算AP，使其成为一项非常严格的指标。非极大值抑制 (NMS) 目标检测器通常会为同一个物体输出多个边界框。为了清理这些结果，我们使用非极大值抑制 (Non-Maximum Suppression, NMS) : ...

[Efficient Multi-modal Large Language Models via Progressive Consistency Distillation 🔗](https://arxiv.org/abs/2510.00515)

人工智能领域的龟兔赛跑：渐进式学习如何让视觉 AI 更快

多模态大语言模型 (MLLM) 正在重塑我们与人工智能的交互方式。像 LLaVA 这样的模型能够观察一幅图像并就其内容展开对话——这结合了计算机视觉的“看”的能力与大语言模型 (LLM) 的推理能力。它们就像高性能跑车: 在赛道上表现惊人，但消耗的燃料——在这里指计算资源——速度也同样惊人。主要的资源消耗来自哪里？庞大的视觉 token 数量。一个文本提示可能只有几十个 token，但一张图片通常会被分解成数百个，而高分辨率图像或多帧视频会让这个数量进一步激增。这种数据洪流造成了计算瓶颈，拖慢推理速度并占用了大量内存。一个自然的解决方法是使用更少的视觉 token，这个过程被称为 token 压缩。有些方法无需重新训练就直接丢弃或合并 token——部署起来很快，但性能通常会骤降。更高级的方法则通过重新训练来适应减少后的 token，有时会增加新模块或改变模型架构。但这里有一个隐藏的挑战: 在训练中激进地压缩 token，就像要求一个学生在没掌握代数的情况下就去学微积分。跨度太大了，学生——就像模型一样——会迷失方向。当一个在全量 token 上训练的 MLLM 突然被强制使用一小部分 token 工作时，其内部表示会失去平衡。训练过程会步履蹒跚，常常陷入次优解。一篇新论文 **“Efficient Multi-modal Large Language Models via Progressive Consistency Distillation” **(《通过渐进式一致性蒸馏实现高效多模态大语言模型》) 针对这一学习难题提出了一个巧妙的解决方案。它没有采取巨大的飞跃，而是应用了一种渐进、循序渐进的训练策略——证明了在追求效率的竞赛中，稳扎稳打的乌龟确实能战胜兔子。挑战: 在变化的景观中导航想象一下，训练过程就像穿越一片损失景观——一个丘陵地带，其中海拔代表误差 (损失) 。我们的目标是找到最低的山谷:** 最优解**。当我们不进行压缩训练时，这片景观有它固定的形状和最优位置。而压缩 token 会重塑这片地形，移动最优点的位置。压缩程度越高，位移就越大。图 1: 不同压缩率下的损失景观。从 0% 直接跳到高压缩率很容易使优化器陷入糟糕的局部最小值，但渐进式适应能遵循更平滑且可达的路径。直接从 0% 的最优点跳到 60% 的最优点是十分危险的。模型可能会陷入局部最小值——一个并非真正谷底的小洼地。直接用高压缩率进行训练往往会导致这种情况。 EPIC 的核心思想: 避免巨大的飞跃。先适应轻度压缩 (例如 20%) ，再到 40%，依此类推。每一步都易于管理，引导模型走向高压缩率下的最优点，而不会迷失方向。 ...