](https://deep-paper.org/en/paper/2505.04656/images/cover.png)
MeshGen:高保真 3D 网格与 PBR 纹理生成的新标准
引言 弥合 2D 图像与 3D 内容创作之间鸿沟的竞赛正在飞速发展。我们已经见证了扩散模型在凭空生成图像方面的巨大飞跃,自然而然地,研究人员正在将这些原理应用于第三维度。然而,从单张图像生成高质量、可用于生产环境的 3D 资产仍然是一个巨大的挑战。 ...
](https://deep-paper.org/en/paper/2505.04656/images/cover.png)
引言 弥合 2D 图像与 3D 内容创作之间鸿沟的竞赛正在飞速发展。我们已经见证了扩散模型在凭空生成图像方面的巨大飞跃,自然而然地,研究人员正在将这些原理应用于第三维度。然而,从单张图像生成高质量、可用于生产环境的 3D 资产仍然是一个巨大的挑战。 ...
](https://deep-paper.org/en/paper/2502.07685/images/cover.png)
引言 几十年来,计算机视觉领域一直在追逐一个特定的梦想: 将几张扁平的 2D 照片瞬间转化为完美、可漫游的 3D 世界。这一过程被称为摄影测量 (Photogrammetry) , 它是现代 3D 内容创作、测绘和特效的基石。然而,传统的 3D 重建之路颇为坎坷。它通常涉及一个由不同算法组成的碎片化流水线——一个用来计算摄像机的朝向,另一个用来估计深度,还有一个用来将所有内容拼接在一起。 ...
](https://deep-paper.org/en/paper/2411.15138/images/cover.png)
在计算机图形学的世界里,创建 3D 模型只是成功了一半。形状——或者说几何体 (geometry) ——赋予了物体形态,但材质赋予了它灵魂。物体是闪亮的黄金、暗淡的木头,还是生锈的铁?光线如何在它的划痕上反射? ...
](https://deep-paper.org/en/paper/2412.16212/images/cover.png)
解密无形之手: ManiVideo 如何攻克视频生成中的 3D 遮挡难题 如果你试过画手,你应该知道这有多难。仅仅是把比例画对就已经很费劲了,但当手指开始卷曲、重叠并抓取物体时,真正的噩梦才刚刚开始。突然间,手的一部分消失在物体后面,或者被其他手指挡住了。 ...
](https://deep-paper.org/en/paper/2501.08332/images/cover.png)
将黑白草图转变为全彩角色是动画和漫画制作中最耗时的步骤之一。几十年来,艺术家们一直手工填充颜色,确保角色的头发、眼睛和服装在数千帧画面中保持一致。虽然自动化工具试图加快这一过程,但它们往往在面对动画的一个简单现实时受阻: 角色是会动的。 ...
](https://deep-paper.org/en/paper/2503.18223/images/cover.png)
解码荒野: 多模态人工智能如何彻底变革瑞士阿尔卑斯山的野生动物监测 想象一下,试图记录难以捉摸的山区生物——马鹿、狼或雪兔——的日常生活,却从未踏足森林半步。几十年来,生态学家一直依赖红外相机陷阱 (camera traps) 作为他们在野外的眼睛。这些动作激活的传感器捕捉了数百万张图像和视频,为生物多样性提供了前所未有的视角。 ...
](https://deep-paper.org/en/paper/2411.15459/images/cover.png)
引言 想象一下,你试图在一个拥挤的视频画面中跟踪一位朋友。有时你知道他们长什么样 (视觉参考) ,有时你只知道一段描述,比如“戴红帽子的那个人”。再想象一下视频很长。你的朋友可能会变换姿势,走到树后,或者摘掉帽子。为了有效地跟踪他们,你需要记忆 。 你需要记住他们的历史轨迹,以预测他们现在的位置。 ...
](https://deep-paper.org/en/paper/2504.03193/images/cover.png)
想象一下,完全在视频游戏《侠盗猎车手5》 (Grand Theft Auto V) 中训练自动驾驶汽车算法。游戏中的道路看起来很逼真,光照完美,天气也是受控的。现在,把同一辆车投放到伦敦雨夜的街道上。它会撞车吗? ...
](https://deep-paper.org/en/paper/2411.18197/images/cover.png)
在视频游戏、VR 和元宇宙飞速发展的世界中,3D 内容创作正在蓬勃兴起。我们拥有令人难以置信的工具,可以从文本或图像生成静态 3D 模型,从而产生数以百万计的数字资产。然而,一个巨大的瓶颈依然存在: 运动 。 ...
](https://deep-paper.org/en/paper/2503.01661/images/cover.png)
想象一下,将一个装满随机照片的文件夹——这些照片是用不同的相机、从不同的角度拍摄的,没有任何元数据——丢进一个系统,然后在这个系统的另一端得到一个完美的、密集的 3D 模型。这就是几何计算机视觉的“圣杯”: 无约束运动恢复结构 (SfM)。 ...
](https://deep-paper.org/en/paper/2504.00379/images/cover.png)
简介 想象一下你正开车行驶在繁忙的高速公路上。你看到一辆车从右侧汇入,前方一辆卡车正在刹车,还有一个行人在路口等待。你的大脑瞬间会在三维空间中映射出这些物体,为它们分配重要性,并制定计划: “为卡车减速,留意汇入的车辆。”你不会去思考原始的 GPS 坐标或像素值,而是通过物体及其相互关系来思考。 ...
](https://deep-paper.org/en/paper/2501.00192/images/cover.png)
简介 在人工智能生成内容 (AIGC) 时代,在线创建和分享的视觉媒体数量呈现爆炸式增长。从社交媒体信息流到生成艺术平台,图像的流动无穷无尽。但这种创造力也伴随着巨大的风险: 从血腥暴力到色情内容,有害内容的泛滥成灾。 ...
](https://deep-paper.org/en/paper/2502.20111/images/cover.png)
想象一下你在看一场足球比赛。如果一名球员跑到了裁判身后,你不会惊慌失措地认为这名球员从世界上消失了。你的大脑会利用上下文、运动轨迹,或者 (如果你在看多机位转播) 利用不同角度的视野来准确预测该球员会从哪里出现。 ...
](https://deep-paper.org/en/paper/2412.06767/images/cover.png)
计算机视觉的梦想很简单,通过极其困难: 只需拍摄几张物体或场景的照片,就能瞬间生成完美、逼真的 3D 模型。 近年来,我们见证了“神经渲染”技术的爆炸式增长。诸如神经辐射场 (NeRF) 和 3D 高斯溅射 (3D Gaussian Splatting, 3DGS) 等方法彻底改变了我们合成新视角的能力。它们能够利用一组图像,让你以惊人的清晰度从新的角度观察场景。然而,这里有个陷阱。虽然这些方法能产生美丽的图像,但它们生成的底层 3D 几何结构往往杂乱、嘈杂或模糊。它们的设计初衷是欺骗眼睛,而不是构建坚实的网格。 ...
](https://deep-paper.org/en/paper/file-2119/images/cover.png)
引言 “在计算机视觉中,只有一个问题: 对应,对应,还是对应。” Takeo Kanade 的这句名言揭示了机器“看”世界的一个基本真理。无论是机器人在房间中导航、AI 编辑照片,还是系统跟踪行驶中的汽车,其核心任务几乎总是一样的: 识别图像 A 中的哪个像素对应于图像 B 中的哪个像素。 ...
](https://deep-paper.org/en/paper/2412.12392/images/cover.png)
视觉同时定位与地图构建 (SLAM) 通常被视为空间智能的“圣杯”。理想情况下,我们要让机器人或一副 AR 眼镜张开“眼睛” (相机) ,观察场景,并立即了解它在哪里以及世界的 3D 样貌——无需任何手动设置。 ...
](https://deep-paper.org/en/paper/2503.15871/images/cover.png)
想象一下,给 AI 展示一段某人在拳击的视频。问题在于?他们是在图书馆里打拳。典型的视频大语言模型 (Video-LLM) 可能会看着书架和安静的氛围,完全忽略拳击动作,将场景描述为“学生在阅读”。或者,它可能会看到拳击动作,然后凭空捏造 (幻觉) 出一个背景中的“拳击台”,完全无视了书籍。 ...
](https://deep-paper.org/en/paper/2503.20519/images/cover.png)
从 2D 图像生成到 3D 内容创作的转变,是现代 AI 领域最令人兴奋但也最具技术挑战性的前沿方向之一。虽然像 Midjourney 或 Stable Diffusion 这样的模型可以在几秒钟内构想出照片般逼真的图像,但生成一个从各个角度看都完美的高质量、水密 (watertight) 3D 网格,是一个难得多的问题。 ...
](https://deep-paper.org/en/paper/2501.14914/images/cover.png)
计算机视觉的梦想之一,就是将散落在场景各处的几张照片——无论是一座雕像、一栋建筑还是一个房间——瞬间编织成一个完美的 3D 模型。这个过程被称为运动恢复结构 (Structure-from-Motion,简称 SfM) 。 ...
](https://deep-paper.org/en/paper/2501.05226/images/cover.png)
你是否曾注视着一张云的照片,并好奇它在三维空间中究竟长什么样?这听起来像是一个简单的问题,但对计算机来说,这却是一个噩梦般的场景。云不是固体对象;它们是体积性的、半透明的,并且以复杂的方式散射光线。 ...