[EmoDubber: Towards High Quality and Emotion Controllable Movie Dubbing 🔗](https://arxiv.org/abs/2412.08988)

掌握情感配音的艺术:深入解析 EmoDubber

你是否看过一部配音电影,里面的配音与演员的脸完全脱节?也许是嘴唇停止了移动但声音还在继续,或者是屏幕上的角色在愤怒地尖叫,而配音听起来只是轻微的恼火。这种割裂感瞬间破坏了沉浸感。 ...

2024-12 · 8 分钟 · 3569 字
[EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision 🔗](https://arxiv.org/abs/2409.02224)

感受压力:EgoPressure 如何将触觉引入第一视角计算机视觉

引言 想象一下在虚拟现实中弹钢琴。你可以看到你的数字双手悬停在琴键上方,但当你弹奏和弦时,却产生了一种脱节感。你感觉不到阻力,系统也很难确切知道你按下的力度有多大。或者考虑一个试图拿起塑料杯的机器人;如果不知道它施加了多少压力,它可能会捏碎杯子或者让杯子掉落。 ...

2024-09 · 7 分钟 · 3037 字
[Efficient Motion-Aware Video MLLM 🔗](https://arxiv.org/abs/2503.13016)

别再抽帧了:压缩视频结构如何让 AI 更快更聪明

简介 如果你曾尝试构建一个理解视频的计算机视觉系统,你很可能遇到过“采样困境”。 视频本质上是一堆厚重的图像。要使用多模态大语言模型 (MLLM) 处理视频,标准方法是均匀帧采样 (Uniform Frame Sampling) 。 你每秒 (或每隔几帧) 提取一帧,将其编码为图像,堆叠起来,然后喂给模型。 ...

2025-03 · 8 分钟 · 3904 字
[EffiDec3D: An Optimized Decoder for High-Performance and Efficient 3D Medical Image Segmentation 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Rahman_EffiDec3D_An_Optimized_Decoder_for_High-Performance_and_Efficient_3D_Medical_CVPR_2025_paper.pdf)

去除赘肉:EffiDec3D 如何彻底变革 3D 医学图像分割

引言 在医学人工智能领域,精准度就是一切。零点几毫米的差别可能就决定了异常是良性还是恶性肿瘤。过去几年中,深度学习——特别是 U 型架构和视觉 Transformer (Vision Transformers) ——已成为自动化这一分割过程的黄金标准。 ...

6 分钟 · 2952 字
[ETAP: Event-based Tracking of Any Point 🔗](https://arxiv.org/abs/2412.00133)

看见不可见:事件相机如何彻底改变点跟踪技术

看见不可见: 事件相机如何彻底改变点跟踪技术 想象一下,试图跟踪快速旋转的风扇叶片上的一个特定点。或者也许你正试图追踪一只潜入黑暗阴影中的鸟。如果你使用标准的视频摄像机,很可能会撞上两堵大墙: 运动模糊和动态范围限制。风扇叶片变成了一团模糊的影子,而鸟则消失在黑暗中。 ...

2024-12 · 9 分钟 · 4026 字
[ESC: Erasing Space Concept for Knowledge Deletion 🔗](https://arxiv.org/abs/2504.02199)

真正的遗忘:利用擦除空间概念(ESC)删除深度学习知识

介绍 在 GDPR 时代和隐私日益受到关注的背景下,“被遗忘权”已成为科技公司的一项关键要求。对于深度学习而言,这是一个巨大的工程挑战。如果用户请求从已训练的人工智能模型中删除其数据,我们如何确保模型真正“忘记”了他们? ...

2025-04 · 6 分钟 · 2943 字
[EBS-EKF: Accurate and High Frequency Event-based Star Tracking 🔗](https://arxiv.org/abs/2503.20101)

以 1000 Hz 的频率导航星空:事件相机如何彻底改变航天器姿态控制

简介 几个世纪以来,水手们通过仰望星空在广阔的海洋上航行。今天,绕地球轨道运行及在太阳系中穿梭的航天器做着完全相同的事情。通过识别特定的恒星模式,卫星可以确定其在空间中的精确方向——即所谓的“姿态”。这一过程由一种称为星跟踪器 (Star Tracker) 的设备处理。 ...

2025-03 · 7 分钟 · 3085 字
[Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera 🔗](https://arxiv.org/abs/2412.12861)

理清混乱:Dyn-HaMR 如何解决动态相机下的手部运动问题

引言 在增强现实 (AR)、虚拟现实 (VR) 和机器人技术飞速发展的世界中,理解人类的运动至关重要。当相机固定在三脚架上静止不动时,我们在追踪身体和手部方面已经做得相当不错了。但现实世界是动态的。在自我中心 (Egocentric) 场景中——比如佩戴智能眼镜或 GoPro——相机是随你移动的。 ...

2024-12 · 7 分钟 · 3019 字
[DyFo: A Training-Free Dynamic Focus Visual Search for Enhancing LMMs in Fine-Grained Visual Understanding 🔗](https://arxiv.org/abs/2504.14920)

如何教 AI 学会“聚焦”:深入解析 DyFo 与免训练视觉搜索技术

引言 想象一下,你正试图在拥挤的体育场里寻找一位特定的朋友。你不会一次性盯着整个体育场看并指望能瞬间处理每一张面孔。相反,你的眼睛会四处游移。你会扫描各个区域,聚焦在一群穿着正确颜色球衣的人身上,放大到具体的一排,并过滤掉周围的干扰。这种认知机制被称为视觉搜索 , 它是人类与世界互动的基础。我们会动态地调整焦点,过滤掉无关信息,专注于重要内容。 ...

2025-04 · 9 分钟 · 4067 字
[DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction 🔗](https://arxiv.org/abs/2412.04464)

视界成双:双重点图如何彻底变革3D物体重建

从单张 2D 图像重建 3D 物体是计算机视觉中经典的“病态问题 (ill-posed problem) ”之一。当你看到一张奔跑的马的照片时,你的大脑会瞬间理解其 3D 形状、肢体的关节运动以及被遮挡的部分。然而,对于计算机来说,从像素网格中推断出这种几何结构极其困难,尤其是当物体是可变形的 (deformable) ——即可以弯曲、伸展和移动 (如动物或人类) 时。 ...

2024-12 · 6 分钟 · 2941 字
[DroneSplat: 3D Gaussian Splatting for Robust 3D Reconstruction from In-the-Wild Drone Imagery 🔗](https://arxiv.org/abs/2503.16964)

驯服野外:DroneSplat 如何为无人机图像带来鲁棒的 3D 重建

简介 无人机彻底改变了我们捕捉世界的方式。从检查巨大的桥梁到测绘城市景观和保护文化遗产,能够在 3D 空间中任意位置放置相机的能力是无价的。然而,将这些航拍照片转化为精确、逼真的 3D 模型是一场计算噩梦,尤其是当现实世界并非静止不动时。 ...

2025-03 · 7 分钟 · 3199 字
[Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD Map 🔗](https://arxiv.org/abs/2410.23780)

超越几何:教会自动驾驶汽车阅读交通规则

想象一下,你正行驶在一条繁忙的城市街道上。你看到一条画着实线的车道,但在头顶上方,一个蓝色的标志牌写着“公交专用道: 7:00-9:00, 17:00-19:00”。你扫了一眼时间,现在是上午 10:30。于是你自信地并入了这条车道。 ...

2024-10 · 7 分钟 · 3419 字
[DriveGPT4-V2: Harnessing Large Language Model Capabilities for Enhanced Closed-Loop Autonomous Driving 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Xu_DriveGPT4-V2_Harnessing_Large_Language_Model_Capabilities_for_Enhanced_Closed-Loop_Autonomous_CVPR_2025_paper.pdf)

LLM 真的能开车吗?深入解析 DriveGPT4-V2 的闭环控制系统

简介 随着人工智能的飞速发展,自动驾驶的梦想正变得愈发触手可及。多年来,业界一直依赖模块化的流水线——即分别独立的系统来检测车道、识别行人、规划路线和控制方向盘。然而,该领域正向端到端 (end-to-end) 学习转变,即单个神经网络接收原始传感器数据并直接输出驾驶指令。 ...

8 分钟 · 3735 字
[Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration 🔗](https://arxiv.org/abs/2502.16652)

Dr. Splat:实现更准、更快 3D 场景理解的良方

想象一下,你走进一个房间并告诉机器人: “找到水槽旁边的红色马克杯。”这对我们要来说不费吹灰之力。但对于计算机视觉系统而言,这需要跨越 2D 视觉数据、3D 空间几何和自然语言之间的鸿沟。这就是开放词汇 3D 场景理解 (Open-Vocabulary 3D Scene Understanding) 所面临的挑战。 ...

2025-02 · 7 分钟 · 3457 字
[Doppelgangers++: Improved Visual Disambiguation with Geometric 3D Features 🔗](https://arxiv.org/abs/2412.05826)

利用 Doppelgangers++ 解决 3D 计算机视觉中的“邪恶双胞胎”问题

引言 想象一下,你正试图利用游客拍摄的数百张照片来构建一座大教堂的 3D 模型。你将这些图像输入计算机,软件开始匹配特征: 这里的一扇拱窗,那里的一块砖纹。但是出现了一个问题。这座大教堂是对称的。北面看起来和南面几乎一模一样。 ...

2024-12 · 7 分钟 · 3311 字
[Doppelgängers and Adversarial Vulnerability 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Kamberov_Doppelgangers_and_Adversarial_Vulnerability_CVPR_2025_paper.pdf)

当机器看见我们看不见的:理解对抗性分身

当机器看见我们看不见的: 理解对抗性分身 想象一下,你正看着一张猫的照片。这是一只虎斑猫。你对此确信无疑。现在,想象一下计算机看着完全相同的照片,却自信地告诉你这是一只波斯猫。你眯起眼睛,放大图片,检查每一个像素。在你人类的眼中,什么都没有改变。 ...

8 分钟 · 3753 字
[Do computer vision foundation models learn the low-level characteristics of the human visual system? 🔗](https://arxiv.org/abs/2502.20256)

人造之眼与人类之眼:基础模型的视觉机制像我们吗?

人造之眼与人类之眼: 基础模型的视觉机制像我们吗? 在快速发展的计算机视觉领域,我们见证了向“基础模型”的巨大转变。诸如 DINOv2、OpenCLIP 和 Segment Anything (SAM) 等巨头模型在数十亿张自然图像上进行训练,学习以惊人的准确度识别物体、分割场景并理解视觉概念。这些模型是自监督的;就像人类婴儿在发育过程中一样,它们通过观察世界来学习。 ...

2025-02 · 8 分钟 · 3671 字
[DistinctAD: Distinctive Audio Description Generation in Contexts 🔗](https://arxiv.org/abs/2411.18180)

超越“他看着”:利用 DistinctAD 生成独特的电影口述影像

超越“他看着”: 利用 DistinctAD 生成独特的电影口述影像 想象一下闭着眼睛看电影。你完全依赖旁白来描述动作。现在,想象一个紧张的场景,一个角色慢慢意识到自己被监视了。旁白说: “他看着。”几秒钟后: “他看着某样东西。”然后: “他又看了一眼。” ...

2024-11 · 8 分钟 · 3685 字
[Digital Twin Catalog: A Large-Scale Photorealistic 3D Object Digital Twin Dataset 🔗](https://arxiv.org/abs/2504.08541)

连接现实与模拟:深入解析数字孪生目录 (DTC)

连接现实与模拟: 深入解析数字孪生目录 (DTC) 在增强现实 (AR)、虚拟现实 (VR) 和机器人技术飞速发展的世界中,有一个概念被视为“圣杯”: 数字孪生 (Digital Twin) 。 数字孪生不仅仅是一个 3D 模型。一个 3D 模型可能只是一个看起来大致像杯子的空壳。然而,数字孪生是一个与其物理对应物无法区分的、极其精确的虚拟实体。它捕捉了精确的几何形状、表面纹理、光线与材质的交互方式 (反射特性) 以及物理属性。 ...

2025-04 · 7 分钟 · 3379 字
[Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_Diffusion-based_Realistic_Listening_Head_Generation_via_Hybrid_Motion_Modeling_CVPR_2025_paper.pdf)

倾听的艺术:扩散模型如何彻底改变数字虚拟人

倾听的艺术: 扩散模型如何彻底改变数字虚拟人 在数字人 (Digital Human) 生成的领域中,我们通常关注说话者。我们希望化身能够说话,口型完美同步,并带有情感地发表演讲。但沟通是双向的。回想一下你上次的视频通话: 当你说话时,对方在做什么?他们在点头、微笑、皱眉,或者可能困惑地歪着头。这些非语言线索对于自然的互动至关重要。 ...

7 分钟 · 3263 字