](https://deep-paper.org/en/paper/2506.02493/images/cover.png)
ZeroPlane:填补室内外 3D 平面重建之间的鸿沟
当我们观察世界时,我们看到的不仅仅是像素,而是结构。我们本能地认出脚下的地板、周围的墙壁以及行驶的道路。在计算机视觉领域,这些结构被称为 3D 平面 (3D planes) 。 从单张 2D 图像中恢复这些平面是增强现实 (AR) 、机器人导航和 3D 地图构建的一项基石能力。 ...
](https://deep-paper.org/en/paper/2506.02493/images/cover.png)
当我们观察世界时,我们看到的不仅仅是像素,而是结构。我们本能地认出脚下的地板、周围的墙壁以及行驶的道路。在计算机视觉领域,这些结构被称为 3D 平面 (3D planes) 。 从单张 2D 图像中恢复这些平面是增强现实 (AR) 、机器人导航和 3D 地图构建的一项基石能力。 ...
](https://deep-paper.org/en/paper/2503.01261/images/cover.png)
引言 俗话说“一图胜千言”,这意味着复杂的图像比简短的描述更能有效地传达意义。然而,在人工智能领域——特别是基于矢量量化 (Vector Quantization, VQ) 的图像建模中——我们历来给模型提供的仅仅相当于含糊不清的只言片语,却期望它们能理解一幅杰作。 ...
](https://deep-paper.org/en/paper/file-2258/images/cover.png)
引言: 我们手中隐藏的证据 在法通过科学领域,每一个像素都至关重要。想想国土安全部的受害者识别项目 (Victim Identification Programme) 。他们处理数以百万计的与虐待儿童案件相关的图像和视频,寻找任何能确认犯罪者身份的线索。通常情况下,嫌疑人的脸被遮挡,唯一可见的证据是一只拿着设备或物体的手。 ...
](https://deep-paper.org/en/paper/2312.04831/images/cover.png)
图像修复 (Image inpainting) ——填补图像缺失或损坏部分的技术——随着生成式 AI 的出现经历了革命性的变化。像 Stable Diffusion 和 FLUX 这样的模型可以奇迹般地重建缺失的景色或移除不需要的物体。然而,如果你尝试过这些工具,你可能遇到过两个令人沮丧的现象: 模型在原本应该是空白的地方插入了一个随机的、奇怪的物体,或者填充区域的色调与图像其余部分略有不同,看起来像是一块“污渍”。 ...
](https://deep-paper.org/en/paper/2505.00690/images/cover.png)
引言 想象一下,你订购了一杯咖啡或一个小包裹,并希望它直接送到你家门口。在未来的城市中,一个小机器人将在混乱的城市丛林中穿梭——避开行人、爬上路缘石、穿过公园长椅——只为将物品送到你手中。这个概念被称为微出行 (micromobility) 。 ...
](https://deep-paper.org/en/paper/2412.01199/images/cover.png)
TinyFusion: 如何在不失魔力的情况下压缩扩散 Transformer 如果你最近关注生成式 AI 领域,你会知道 扩散 Transformer (Diffusion Transformers, DiTs) 是目前的重量级选手。从 OpenAI 的 Sora 到 Stable Diffusion 3,用 Transformer 架构取代传统的 U-Net 骨干网络,解锁了图像和视频生成方面惊人的能力。 ...
](https://deep-paper.org/en/paper/2411.19108/images/cover.png)
引言 我们正处于生成式视频的黄金时代。从 Sora 到 Open-Sora 再到 Latte,扩散 Transformer (Diffusion Transformers, DiTs) 已经解锁了通过简单的文本提示生成高保真、连贯视频的能力。然而,有一个巨大的瓶颈阻碍了这些工具在实时应用中的普及: 推理速度 。 ...
](https://deep-paper.org/en/paper/2410.16770/images/cover.png)
介绍 你如何描述一个场景?这听起来像是一个简单的问题,但试着精确一点。想象一下,你刚从复活节岛旅行归来,想向朋友描述著名的阿胡阿基维 (Ahu Akivi) 遗址。你可能会说: “有七尊摩艾石像排成一排,面朝同一个方向。” ...
](https://deep-paper.org/en/paper/2502.10392/images/cover.png)
引言: 机器人领域的“它在哪里?”难题 想象一下,你让家里的辅助机器人“把左边桌子上的红色马克杯拿起来”。对人类来说,这轻而易举。但对机器而言,这是一个复杂的多模态难题,被称为 3D 视觉定位 (3D Visual Grounding, 3DVG) 。 机器人必须解析自然语言指令,感知房间的 3D 几何结构 (通常通过点云) ,理解物体之间的语义关系 (桌子、马克杯、左、右) ,并精准地标出目标的边界框。 ...
](https://deep-paper.org/en/paper/2412.03240/images/cover.png)
引言 在计算机视觉领域,数据越多通常意味着决策越好。在处理多模态传感器时尤其如此。试想一辆在夜间行驶的自动驾驶汽车: 可见光相机能捕捉到道路的丰富纹理,但可能会遗漏阴影中的行人。相反,红外传感器可以清晰地捕捉到行人的热信号,但却丢失了车道线的纹理细节。 ...
](https://deep-paper.org/en/paper/2503.17032/images/cover.png)
引言 想象一下,戴上像 Apple Vision Pro 这样的增强现实 (AR) 头显,与朋友或虚拟助手的全息投影进行交谈。为了获得身临其境的体验,这个虚拟化身 (Avatar) 需要看起来逼真、动作自然,而且——至关重要的是——必须实时响应。 ...
](https://deep-paper.org/en/paper/2503.05082/images/cover.png)
驯服幻觉: 视频扩散模型如何提升稀疏 3D 高斯泼溅的效果 引言 想象一下,你试图仅凭从中心拍摄的六张照片来重建一个房间的详细 3D 模型。这就是稀疏输入 3D 重建所面临的挑战。虽然像 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 这样的技术已经彻底改变了我们渲染场景的方式,但它们通常需要密集的图像云才能发挥魔力。当你只给它们投喂少量视角时,结果往往充满了“黑洞”、悬浮的伪影和模糊的几何形状。 ...
](https://deep-paper.org/en/paper/2411.15580/images/cover.png)
如果你曾试玩过 Stable Diffusion 或 Midjourney 这样的文本生成图像模型,你会知道它们在生成复杂场景方面表现惊人。然而,它们在一项对传统 CGI 来说轻而易举,但对平面设计和游戏开发至关重要的任务上却常常失败: 生成一个背景干净、易于移除的前景对象。 ...
](https://deep-paper.org/en/paper/2411.16788/images/cover.png)
深度学习模型因其脆弱性而臭名昭著。你在高质量的狗狗照片上训练了一个模型,它达到了 99% 的准确率。但如果给同一个模型看一张简单的狗狗线条素描,或者一张背景非同寻常的狗狗照片,它的表现就会大打折扣。 ...
](https://deep-paper.org/en/paper/file-2245/images/cover.png)
引言 想象一下,你有一张你的专用徒步背包的照片——上面有独特的补丁和独特的纹理。你想生成一张这个确切的背包放在未来城市长椅上的图片。你在标准的文本到图像模型中输入提示词,但结果令人失望。它确实生成了一个背包,但这只是个普通的背包。它缺少了那些补丁,纹理看起来像光滑的塑料而不是帆布。 ...
](https://deep-paper.org/en/paper/2502.20625/images/cover.png)
想象一下你在看一张野餐的照片。照片里有三个柳条篮子,五十个红苹果,和两只小泰迪熊。如果有人让你“数一数熊”,你会立刻聚焦在那两个玩具上,而忽略那一堆苹果。这种根据语言过滤视觉信息的能力对人类来说是直觉,但对人工智能来说,这是一个出奇困难的任务。 ...
](https://deep-paper.org/en/paper/2411.17763/images/cover.png)
引言 “对称性是我们一眼就能看到的东西。”——布莱兹·帕斯卡 (Blaise Pascal) 。 当你看到一张汽车、椅子或蝴蝶的照片时,你的大脑会瞬间推断出它的结构。你不需要看到另一面就知道它的存在;你直觉地理解该物体是对称的。这种感知是人类解读 3D 世界的基础。然而,对于计算机视觉系统而言,从单张平面的 2D 图像中检测 3D 对称性是一项极其艰巨的任务。 ...
](https://deep-paper.org/en/paper/file-2242/images/cover.png)
引言 想象一下,你闭着眼睛走在繁忙的城市街道上。你听到警笛声。为了弄清它来自哪里,你可能会本能地转头或向前走。当你移动时,声音会发生变化——如果你向右转而声音仍然在你左边,你就确切地知道它相对于你的位置。这种运动 (自身运动,egomotion) 与声音感知之间的动态关系是人类在世界中导航的基础。 ...
](https://deep-paper.org/en/paper/2501.11319/images/cover.png)
引言 在生成式 AI 飞速发展的世界中, 风格迁移 (Style Transfer) 仍然是最令人着迷的应用之一。其目标简单却充满挑战: 提取一张图像的艺术外观 (风格) ,并将其应用到另一张图像的结构 (内容) 上。想象一下用梵高《星月夜》的笔触来绘制你房子的照片。 ...
](https://deep-paper.org/en/paper/2408.08461/images/cover.png)
引言 想象一下,你是一名正在制作广告的平面设计师。你有一张完美的汽车在山路上的照片,但客户希望这辆车看起来是“金色”的,而不是红色的。按照传统做法,这意味着你需要打开 Photoshop,小心翼翼地沿着汽车边缘绘制掩膜 (mask) ,将其与背景分离,然后应用调色图层。 ...