CVPR 2025

[EmoDubber: Towards High Quality and Emotion Controllable Movie Dubbing 🔗](https://arxiv.org/abs/2412.08988)

掌握情感配音的艺术：深入解析 EmoDubber

你是否看过一部配音电影，里面的配音与演员的脸完全脱节？也许是嘴唇停止了移动但声音还在继续，或者是屏幕上的角色在愤怒地尖叫，而配音听起来只是轻微的恼火。这种割裂感瞬间破坏了沉浸感。 ...

[EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision 🔗](https://arxiv.org/abs/2409.02224)

感受压力：EgoPressure 如何将触觉引入第一视角计算机视觉

引言想象一下在虚拟现实中弹钢琴。你可以看到你的数字双手悬停在琴键上方，但当你弹奏和弦时，却产生了一种脱节感。你感觉不到阻力，系统也很难确切知道你按下的力度有多大。或者考虑一个试图拿起塑料杯的机器人；如果不知道它施加了多少压力，它可能会捏碎杯子或者让杯子掉落。 ...

[Efficient Motion-Aware Video MLLM 🔗](https://arxiv.org/abs/2503.13016)

别再抽帧了：压缩视频结构如何让 AI 更快更聪明

简介如果你曾尝试构建一个理解视频的计算机视觉系统，你很可能遇到过“采样困境”。视频本质上是一堆厚重的图像。要使用多模态大语言模型 (MLLM) 处理视频，标准方法是均匀帧采样 (Uniform Frame Sampling) 。你每秒 (或每隔几帧) 提取一帧，将其编码为图像，堆叠起来，然后喂给模型。 ...

[EffiDec3D: An Optimized Decoder for High-Performance and Efficient 3D Medical Image Segmentation 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Rahman_EffiDec3D_An_Optimized_Decoder_for_High-Performance_and_Efficient_3D_Medical_CVPR_2025_paper.pdf)

去除赘肉：EffiDec3D 如何彻底变革 3D 医学图像分割

引言在医学人工智能领域，精准度就是一切。零点几毫米的差别可能就决定了异常是良性还是恶性肿瘤。过去几年中，深度学习——特别是 U 型架构和视觉 Transformer (Vision Transformers) ——已成为自动化这一分割过程的黄金标准。 ...

[ETAP: Event-based Tracking of Any Point 🔗](https://arxiv.org/abs/2412.00133)

看见不可见：事件相机如何彻底改变点跟踪技术

看见不可见: 事件相机如何彻底改变点跟踪技术想象一下，试图跟踪快速旋转的风扇叶片上的一个特定点。或者也许你正试图追踪一只潜入黑暗阴影中的鸟。如果你使用标准的视频摄像机，很可能会撞上两堵大墙: 运动模糊和动态范围限制。风扇叶片变成了一团模糊的影子，而鸟则消失在黑暗中。 ...

[ESC: Erasing Space Concept for Knowledge Deletion 🔗](https://arxiv.org/abs/2504.02199)

真正的遗忘：利用擦除空间概念（ESC）删除深度学习知识

介绍在 GDPR 时代和隐私日益受到关注的背景下，“被遗忘权”已成为科技公司的一项关键要求。对于深度学习而言，这是一个巨大的工程挑战。如果用户请求从已训练的人工智能模型中删除其数据，我们如何确保模型真正“忘记”了他们？ ...

[EBS-EKF: Accurate and High Frequency Event-based Star Tracking 🔗](https://arxiv.org/abs/2503.20101)

以 1000 Hz 的频率导航星空：事件相机如何彻底改变航天器姿态控制

简介几个世纪以来，水手们通过仰望星空在广阔的海洋上航行。今天，绕地球轨道运行及在太阳系中穿梭的航天器做着完全相同的事情。通过识别特定的恒星模式，卫星可以确定其在空间中的精确方向——即所谓的“姿态”。这一过程由一种称为星跟踪器 (Star Tracker) 的设备处理。 ...

[Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera 🔗](https://arxiv.org/abs/2412.12861)

理清混乱：Dyn-HaMR 如何解决动态相机下的手部运动问题

引言在增强现实 (AR)、虚拟现实 (VR) 和机器人技术飞速发展的世界中，理解人类的运动至关重要。当相机固定在三脚架上静止不动时，我们在追踪身体和手部方面已经做得相当不错了。但现实世界是动态的。在自我中心 (Egocentric) 场景中——比如佩戴智能眼镜或 GoPro——相机是随你移动的。 ...

[DyFo: A Training-Free Dynamic Focus Visual Search for Enhancing LMMs in Fine-Grained Visual Understanding 🔗](https://arxiv.org/abs/2504.14920)

如何教 AI 学会“聚焦”：深入解析 DyFo 与免训练视觉搜索技术

引言想象一下，你正试图在拥挤的体育场里寻找一位特定的朋友。你不会一次性盯着整个体育场看并指望能瞬间处理每一张面孔。相反，你的眼睛会四处游移。你会扫描各个区域，聚焦在一群穿着正确颜色球衣的人身上，放大到具体的一排，并过滤掉周围的干扰。这种认知机制被称为视觉搜索 , 它是人类与世界互动的基础。我们会动态地调整焦点，过滤掉无关信息，专注于重要内容。 ...

[DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction 🔗](https://arxiv.org/abs/2412.04464)

视界成双：双重点图如何彻底变革3D物体重建

从单张 2D 图像重建 3D 物体是计算机视觉中经典的“病态问题 (ill-posed problem) ”之一。当你看到一张奔跑的马的照片时，你的大脑会瞬间理解其 3D 形状、肢体的关节运动以及被遮挡的部分。然而，对于计算机来说，从像素网格中推断出这种几何结构极其困难，尤其是当物体是可变形的 (deformable) ——即可以弯曲、伸展和移动 (如动物或人类) 时。 ...

[DroneSplat: 3D Gaussian Splatting for Robust 3D Reconstruction from In-the-Wild Drone Imagery 🔗](https://arxiv.org/abs/2503.16964)

驯服野外：DroneSplat 如何为无人机图像带来鲁棒的 3D 重建

简介无人机彻底改变了我们捕捉世界的方式。从检查巨大的桥梁到测绘城市景观和保护文化遗产，能够在 3D 空间中任意位置放置相机的能力是无价的。然而，将这些航拍照片转化为精确、逼真的 3D 模型是一场计算噩梦，尤其是当现实世界并非静止不动时。 ...

[Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD Map 🔗](https://arxiv.org/abs/2410.23780)

超越几何：教会自动驾驶汽车阅读交通规则

想象一下，你正行驶在一条繁忙的城市街道上。你看到一条画着实线的车道，但在头顶上方，一个蓝色的标志牌写着“公交专用道: 7:00-9:00, 17:00-19:00”。你扫了一眼时间，现在是上午 10:30。于是你自信地并入了这条车道。 ...

[DriveGPT4-V2: Harnessing Large Language Model Capabilities for Enhanced Closed-Loop Autonomous Driving 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Xu_DriveGPT4-V2_Harnessing_Large_Language_Model_Capabilities_for_Enhanced_Closed-Loop_Autonomous_CVPR_2025_paper.pdf)

LLM 真的能开车吗？深入解析 DriveGPT4-V2 的闭环控制系统

简介随着人工智能的飞速发展，自动驾驶的梦想正变得愈发触手可及。多年来，业界一直依赖模块化的流水线——即分别独立的系统来检测车道、识别行人、规划路线和控制方向盘。然而，该领域正向端到端 (end-to-end) 学习转变，即单个神经网络接收原始传感器数据并直接输出驾驶指令。 ...

[Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration 🔗](https://arxiv.org/abs/2502.16652)

Dr. Splat：实现更准、更快 3D 场景理解的良方

想象一下，你走进一个房间并告诉机器人: “找到水槽旁边的红色马克杯。”这对我们要来说不费吹灰之力。但对于计算机视觉系统而言，这需要跨越 2D 视觉数据、3D 空间几何和自然语言之间的鸿沟。这就是开放词汇 3D 场景理解 (Open-Vocabulary 3D Scene Understanding) 所面临的挑战。 ...

[Doppelgangers++: Improved Visual Disambiguation with Geometric 3D Features 🔗](https://arxiv.org/abs/2412.05826)

利用 Doppelgangers++ 解决 3D 计算机视觉中的“邪恶双胞胎”问题

引言想象一下，你正试图利用游客拍摄的数百张照片来构建一座大教堂的 3D 模型。你将这些图像输入计算机，软件开始匹配特征: 这里的一扇拱窗，那里的一块砖纹。但是出现了一个问题。这座大教堂是对称的。北面看起来和南面几乎一模一样。 ...

[Doppelgängers and Adversarial Vulnerability 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Kamberov_Doppelgangers_and_Adversarial_Vulnerability_CVPR_2025_paper.pdf)

当机器看见我们看不见的：理解对抗性分身

当机器看见我们看不见的: 理解对抗性分身想象一下，你正看着一张猫的照片。这是一只虎斑猫。你对此确信无疑。现在，想象一下计算机看着完全相同的照片，却自信地告诉你这是一只波斯猫。你眯起眼睛，放大图片，检查每一个像素。在你人类的眼中，什么都没有改变。 ...

[Do computer vision foundation models learn the low-level characteristics of the human visual system? 🔗](https://arxiv.org/abs/2502.20256)

人造之眼与人类之眼：基础模型的视觉机制像我们吗？

人造之眼与人类之眼: 基础模型的视觉机制像我们吗？在快速发展的计算机视觉领域，我们见证了向“基础模型”的巨大转变。诸如 DINOv2、OpenCLIP 和 Segment Anything (SAM) 等巨头模型在数十亿张自然图像上进行训练，学习以惊人的准确度识别物体、分割场景并理解视觉概念。这些模型是自监督的；就像人类婴儿在发育过程中一样，它们通过观察世界来学习。 ...

[DistinctAD: Distinctive Audio Description Generation in Contexts 🔗](https://arxiv.org/abs/2411.18180)

超越“他看着”：利用 DistinctAD 生成独特的电影口述影像

超越“他看着”: 利用 DistinctAD 生成独特的电影口述影像想象一下闭着眼睛看电影。你完全依赖旁白来描述动作。现在，想象一个紧张的场景，一个角色慢慢意识到自己被监视了。旁白说: “他看着。”几秒钟后: “他看着某样东西。”然后: “他又看了一眼。” ...

[Digital Twin Catalog: A Large-Scale Photorealistic 3D Object Digital Twin Dataset 🔗](https://arxiv.org/abs/2504.08541)

连接现实与模拟：深入解析数字孪生目录 (DTC)

连接现实与模拟: 深入解析数字孪生目录 (DTC) 在增强现实 (AR)、虚拟现实 (VR) 和机器人技术飞速发展的世界中，有一个概念被视为“圣杯”: 数字孪生 (Digital Twin) 。数字孪生不仅仅是一个 3D 模型。一个 3D 模型可能只是一个看起来大致像杯子的空壳。然而，数字孪生是一个与其物理对应物无法区分的、极其精确的虚拟实体。它捕捉了精确的几何形状、表面纹理、光线与材质的交互方式 (反射特性) 以及物理属性。 ...

[Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_Diffusion-based_Realistic_Listening_Head_Generation_via_Hybrid_Motion_Modeling_CVPR_2025_paper.pdf)

倾听的艺术：扩散模型如何彻底改变数字虚拟人

倾听的艺术: 扩散模型如何彻底改变数字虚拟人在数字人 (Digital Human) 生成的领域中，我们通常关注说话者。我们希望化身能够说话，口型完美同步，并带有情感地发表演讲。但沟通是双向的。回想一下你上次的视频通话: 当你说话时，对方在做什么？他们在点头、微笑、皱眉，或者可能困惑地歪着头。这些非语言线索对于自然的互动至关重要。 ...