](https://deep-paper.org/en/paper/2412.08988/images/cover.png)
掌握情感配音的艺术:深入解析 EmoDubber
你是否看过一部配音电影,里面的配音与演员的脸完全脱节?也许是嘴唇停止了移动但声音还在继续,或者是屏幕上的角色在愤怒地尖叫,而配音听起来只是轻微的恼火。这种割裂感瞬间破坏了沉浸感。 ...
](https://deep-paper.org/en/paper/2412.08988/images/cover.png)
你是否看过一部配音电影,里面的配音与演员的脸完全脱节?也许是嘴唇停止了移动但声音还在继续,或者是屏幕上的角色在愤怒地尖叫,而配音听起来只是轻微的恼火。这种割裂感瞬间破坏了沉浸感。 ...
](https://deep-paper.org/en/paper/2409.02224/images/cover.png)
引言 想象一下在虚拟现实中弹钢琴。你可以看到你的数字双手悬停在琴键上方,但当你弹奏和弦时,却产生了一种脱节感。你感觉不到阻力,系统也很难确切知道你按下的力度有多大。或者考虑一个试图拿起塑料杯的机器人;如果不知道它施加了多少压力,它可能会捏碎杯子或者让杯子掉落。 ...
](https://deep-paper.org/en/paper/2503.13016/images/cover.png)
简介 如果你曾尝试构建一个理解视频的计算机视觉系统,你很可能遇到过“采样困境”。 视频本质上是一堆厚重的图像。要使用多模态大语言模型 (MLLM) 处理视频,标准方法是均匀帧采样 (Uniform Frame Sampling) 。 你每秒 (或每隔几帧) 提取一帧,将其编码为图像,堆叠起来,然后喂给模型。 ...
](https://deep-paper.org/en/paper/file-2003/images/cover.png)
引言 在医学人工智能领域,精准度就是一切。零点几毫米的差别可能就决定了异常是良性还是恶性肿瘤。过去几年中,深度学习——特别是 U 型架构和视觉 Transformer (Vision Transformers) ——已成为自动化这一分割过程的黄金标准。 ...
](https://deep-paper.org/en/paper/2412.00133/images/cover.png)
看见不可见: 事件相机如何彻底改变点跟踪技术 想象一下,试图跟踪快速旋转的风扇叶片上的一个特定点。或者也许你正试图追踪一只潜入黑暗阴影中的鸟。如果你使用标准的视频摄像机,很可能会撞上两堵大墙: 运动模糊和动态范围限制。风扇叶片变成了一团模糊的影子,而鸟则消失在黑暗中。 ...
](https://deep-paper.org/en/paper/2504.02199/images/cover.png)
介绍 在 GDPR 时代和隐私日益受到关注的背景下,“被遗忘权”已成为科技公司的一项关键要求。对于深度学习而言,这是一个巨大的工程挑战。如果用户请求从已训练的人工智能模型中删除其数据,我们如何确保模型真正“忘记”了他们? ...
](https://deep-paper.org/en/paper/2503.20101/images/cover.png)
简介 几个世纪以来,水手们通过仰望星空在广阔的海洋上航行。今天,绕地球轨道运行及在太阳系中穿梭的航天器做着完全相同的事情。通过识别特定的恒星模式,卫星可以确定其在空间中的精确方向——即所谓的“姿态”。这一过程由一种称为星跟踪器 (Star Tracker) 的设备处理。 ...
](https://deep-paper.org/en/paper/2412.12861/images/cover.png)
引言 在增强现实 (AR)、虚拟现实 (VR) 和机器人技术飞速发展的世界中,理解人类的运动至关重要。当相机固定在三脚架上静止不动时,我们在追踪身体和手部方面已经做得相当不错了。但现实世界是动态的。在自我中心 (Egocentric) 场景中——比如佩戴智能眼镜或 GoPro——相机是随你移动的。 ...
](https://deep-paper.org/en/paper/2504.14920/images/cover.png)
引言 想象一下,你正试图在拥挤的体育场里寻找一位特定的朋友。你不会一次性盯着整个体育场看并指望能瞬间处理每一张面孔。相反,你的眼睛会四处游移。你会扫描各个区域,聚焦在一群穿着正确颜色球衣的人身上,放大到具体的一排,并过滤掉周围的干扰。这种认知机制被称为视觉搜索 , 它是人类与世界互动的基础。我们会动态地调整焦点,过滤掉无关信息,专注于重要内容。 ...
](https://deep-paper.org/en/paper/2412.04464/images/cover.png)
从单张 2D 图像重建 3D 物体是计算机视觉中经典的“病态问题 (ill-posed problem) ”之一。当你看到一张奔跑的马的照片时,你的大脑会瞬间理解其 3D 形状、肢体的关节运动以及被遮挡的部分。然而,对于计算机来说,从像素网格中推断出这种几何结构极其困难,尤其是当物体是可变形的 (deformable) ——即可以弯曲、伸展和移动 (如动物或人类) 时。 ...
](https://deep-paper.org/en/paper/2503.16964/images/cover.png)
简介 无人机彻底改变了我们捕捉世界的方式。从检查巨大的桥梁到测绘城市景观和保护文化遗产,能够在 3D 空间中任意位置放置相机的能力是无价的。然而,将这些航拍照片转化为精确、逼真的 3D 模型是一场计算噩梦,尤其是当现实世界并非静止不动时。 ...
](https://deep-paper.org/en/paper/2410.23780/images/cover.png)
想象一下,你正行驶在一条繁忙的城市街道上。你看到一条画着实线的车道,但在头顶上方,一个蓝色的标志牌写着“公交专用道: 7:00-9:00, 17:00-19:00”。你扫了一眼时间,现在是上午 10:30。于是你自信地并入了这条车道。 ...
](https://deep-paper.org/en/paper/file-1994/images/cover.png)
简介 随着人工智能的飞速发展,自动驾驶的梦想正变得愈发触手可及。多年来,业界一直依赖模块化的流水线——即分别独立的系统来检测车道、识别行人、规划路线和控制方向盘。然而,该领域正向端到端 (end-to-end) 学习转变,即单个神经网络接收原始传感器数据并直接输出驾驶指令。 ...
](https://deep-paper.org/en/paper/2502.16652/images/cover.png)
想象一下,你走进一个房间并告诉机器人: “找到水槽旁边的红色马克杯。”这对我们要来说不费吹灰之力。但对于计算机视觉系统而言,这需要跨越 2D 视觉数据、3D 空间几何和自然语言之间的鸿沟。这就是开放词汇 3D 场景理解 (Open-Vocabulary 3D Scene Understanding) 所面临的挑战。 ...
](https://deep-paper.org/en/paper/2412.05826/images/cover.png)
引言 想象一下,你正试图利用游客拍摄的数百张照片来构建一座大教堂的 3D 模型。你将这些图像输入计算机,软件开始匹配特征: 这里的一扇拱窗,那里的一块砖纹。但是出现了一个问题。这座大教堂是对称的。北面看起来和南面几乎一模一样。 ...
](https://deep-paper.org/en/paper/file-1991/images/cover.png)
当机器看见我们看不见的: 理解对抗性分身 想象一下,你正看着一张猫的照片。这是一只虎斑猫。你对此确信无疑。现在,想象一下计算机看着完全相同的照片,却自信地告诉你这是一只波斯猫。你眯起眼睛,放大图片,检查每一个像素。在你人类的眼中,什么都没有改变。 ...
](https://deep-paper.org/en/paper/2502.20256/images/cover.png)
人造之眼与人类之眼: 基础模型的视觉机制像我们吗? 在快速发展的计算机视觉领域,我们见证了向“基础模型”的巨大转变。诸如 DINOv2、OpenCLIP 和 Segment Anything (SAM) 等巨头模型在数十亿张自然图像上进行训练,学习以惊人的准确度识别物体、分割场景并理解视觉概念。这些模型是自监督的;就像人类婴儿在发育过程中一样,它们通过观察世界来学习。 ...
](https://deep-paper.org/en/paper/2411.18180/images/cover.png)
超越“他看着”: 利用 DistinctAD 生成独特的电影口述影像 想象一下闭着眼睛看电影。你完全依赖旁白来描述动作。现在,想象一个紧张的场景,一个角色慢慢意识到自己被监视了。旁白说: “他看着。”几秒钟后: “他看着某样东西。”然后: “他又看了一眼。” ...
](https://deep-paper.org/en/paper/2504.08541/images/cover.png)
连接现实与模拟: 深入解析数字孪生目录 (DTC) 在增强现实 (AR)、虚拟现实 (VR) 和机器人技术飞速发展的世界中,有一个概念被视为“圣杯”: 数字孪生 (Digital Twin) 。 数字孪生不仅仅是一个 3D 模型。一个 3D 模型可能只是一个看起来大致像杯子的空壳。然而,数字孪生是一个与其物理对应物无法区分的、极其精确的虚拟实体。它捕捉了精确的几何形状、表面纹理、光线与材质的交互方式 (反射特性) 以及物理属性。 ...
](https://deep-paper.org/en/paper/file-1985/images/cover.png)
倾听的艺术: 扩散模型如何彻底改变数字虚拟人 在数字人 (Digital Human) 生成的领域中,我们通常关注说话者。我们希望化身能够说话,口型完美同步,并带有情感地发表演讲。但沟通是双向的。回想一下你上次的视频通话: 当你说话时,对方在做什么?他们在点头、微笑、皱眉,或者可能困惑地歪着头。这些非语言线索对于自然的互动至关重要。 ...