](https://deep-paper.org/en/paper/2503.09968/images/cover.png)
AI 会梦见雨夜吗?通过思维链教物体检测器进化风格
想象一下,你正在训练一辆自动驾驶汽车。你生活在一个阳光明媚的沿海城市,所以你收集了数千小时的驾驶录像——全部都是在湛蓝天空和视野清晰的条件下拍摄的。你训练你的物体检测模型,直到它能完美地检测出行人和车辆。 ...
](https://deep-paper.org/en/paper/2503.09968/images/cover.png)
想象一下,你正在训练一辆自动驾驶汽车。你生活在一个阳光明媚的沿海城市,所以你收集了数千小时的驾驶录像——全部都是在湛蓝天空和视野清晰的条件下拍摄的。你训练你的物体检测模型,直到它能完美地检测出行人和车辆。 ...
](https://deep-paper.org/en/paper/2412.01506/images/cover.png)
引言 在 AI 领域,2D 图像生成已经迎来了它的“iPhone 时刻”。Midjourney 和 DALL-E 等工具让通过文本生成逼真的图像变得像打字一样简单。然而,第三维度——3D 生成——仍然是一块难啃的骨头。 ...
](https://deep-paper.org/en/paper/file-2237/images/cover.png)
引言 想象一下,试图用一组照片构建一个房间的 3D 地图。这个过程被称为运动恢复结构 (Structure-from-Motion,简称 SfM) ,它是现代摄影测量和 3D 重建的基石。当你使用智能手机或单反相机拍摄的标准照片时,像 COLMAP 这样的现有算法效果极佳。但是,如果你使用鱼眼镜头、广角 GoPro 或复杂的折反射 (catadioptric) 360 度全景相机,会发生什么呢? ...
](https://deep-paper.org/en/paper/2505.21335/images/cover.png)
想象一下,桌上放着一个崭新、不透明的台球。现在,想象旁边放着一个乒乓球,它被涂装得和那个台球一模一样。对于相机——以及标准的计算机视觉算法——这两个物体是完全相同的。它们拥有相同的几何形状和表面纹理。 ...
](https://deep-paper.org/en/paper/2411.15482/images/cover.png)
引言 通往全自动驾驶的竞赛严重依赖于一种关键资源: 数据。虽然现实世界的驾驶日志极其宝贵,但它们是有限的,且往往无法捕捉到罕见、危险的长尾极端情况。这就是仿真的用武之地。如果我们能够创建逼真且符合物理规律的真实世界数字孪生,我们就可以在无限变化的复杂场景中训练和测试自动驾驶汽车 (AV) 。 ...
](https://deep-paper.org/en/paper/file-2233/images/cover.png)
如果你一直关注3D计算机视觉领域的快速发展,你无疑已经接触过 3D高斯泼溅 (3D Gaussian Splatting, 3DGS) 。 它凭借实时渲染速度和高质量的重建效果彻底改变了该领域。然而,就像任何新兴技术一样,它也有自己的阿喀琉斯之踵。对于3DGS来说,这个软肋就是镜子和发光物体 。 ...
](https://deep-paper.org/en/paper/2505.00788/images/cover.png)
引言 想象一下你正在穿过一条繁忙的街道。你看到一辆白色货车和一个骑行者。你的大脑会瞬间处理这些信息,不仅知道这些物体是什么,还知道它们在三维空间中的位置以及它们的去向。你会本能地知道货车正对着你 (可能有危险) ,而骑行者正在与你平行移动。这就是 3D 空间推理 (3D spatial reasoning) , 这是人类认知中一项非常基础的能力,以至于我们很少去思考它。 ...
](https://deep-paper.org/en/paper/file-2231/images/cover.png)
引言 我们正见证着大型多模态模型 (LMMs) 的黄金时代。像 GPT-4o 和 Gemini 这样的系统已经展示了令人惊叹的能力: 它们能够解读视觉场景,用诗意的细节描述物体,并以类似人类的流利度回答有关图像的问题。如果你向这些模型展示一张繁忙街道的照片,它们可以列出汽车、行人以及交通信号灯的颜色。 ...
](https://deep-paper.org/en/paper/2504.05576/images/cover.png)
想象一下,你正漫步在一个虚拟博物馆或历史古迹的数字孪生场景中。得益于 3D 重建和 NeRF (神经辐射场) 技术的最新进展,视觉效果已经达到了照片级的逼真程度。但当你闭上眼睛,这种沉浸感的幻觉往往会破灭。声音可能听起来很平淡、静止,或者空间感完全错误。 ...
](https://deep-paper.org/en/paper/2503.16429/images/cover.png)
简介 在 2D 计算机视觉领域,我们正处于自监督学习 (SSL) 的黄金时代。像 DINO 和 MAE 这样的模型已经证明,神经网络可以在没有任何人类标注标签的情况下,学习到鲁棒且语义丰富的图像表示。你可以拿一个预训练好的图像模型,冻结其权重,在其顶部添加一个简单的线性分类器 (这一过程称为“线性探测”) ,就能获得媲美全监督训练的结果。 ...
](https://deep-paper.org/en/paper/2412.04077/images/cover.png)
想象一下,你在阳光明媚的加利福尼亚训练了一辆自动驾驶汽车。这辆车表现完美,能高精度地检测行人、其他车辆和交通标志。然后,你把这辆车运到了阴雨连绵、大雾弥漫的伦敦夜头。突然间,系统失灵了。“域偏移 (Domain shift) ”——即阳光明媚的训练数据与阴雨连绵的真实世界环境之间的差异——导致了模型的失败。 ...
](https://deep-paper.org/en/paper/2412.09619/images/cover.png)
引言 生成式 AI 的繁荣为我们带来了诸如 Stable Diffusion XL (SDXL) 和 Stable Diffusion 3 (SD3) 等令人难以置信的工具。这些模型可以根据简单的文本提示生成照片级逼真的图像,但它们伴随着沉重的代价: 计算算力。通常,运行这些模型需要云服务器或高端游戏 PC 中那种庞大且耗能的 GPU。 ...
](https://deep-paper.org/en/paper/2507.22264/images/cover.png)
如果你曾尝试过现代 AI 绘画生成器或图像搜索引擎,你很可能已经接触过 CLIP (Contrastive Language-Image Pre-training,对比语言-图像预训练) 。自发布以来,CLIP 已成为多模态 AI 的基石,充当了计算机通过文本理解图像的桥梁。 ...
](https://deep-paper.org/en/paper/2408.15270/images/cover.png)
矩阵中的灌篮高手: SkillMimic 如何教会物理模拟角色打篮球 如果你玩过体育类电子游戏,你会知道虽然画面看起来很逼真,但底层的动画往往只是录制动作的“回放”。但在机器人技术和基于物理的模拟世界中,我们想要的是不同的东西: 我们希望一个数字角色能够真正“学习”如何驱动肌肉来完成任务,并遵守物理定律。 ...
](https://deep-paper.org/en/paper/2411.03745/images/cover.png)
Simulator HC: 如何利用 AI “作弊” 数学来解决复杂的几何视觉问题 如果你曾涉足 3D 计算机视觉领域——构建用于运动恢复结构 (SfM) 、视觉 SLAM 或相机标定的系统——你就会知道,在每一个炫酷的可视化效果背后,都奠基于令人头疼的数学基础。具体来说,我们经常需要求解多项式方程组 。 ...
](https://deep-paper.org/en/paper/2503.09594/images/cover.png)
引言 几十年来,自动驾驶的“圣杯”一直是造出一辆不仅能从 A 点导航到 B 点,还能真正理解世界并与乘客沟通的车辆。我们已经看到了大语言模型 (LLM) 在推理复杂话题方面的惊人进步,以及自动驾驶系统在城市街道导航方面的独立进展。然而,将这两个领域融合在一起却被证明是困难重重。 ...
](https://deep-paper.org/en/paper/2502.20134/images/cover.png)
简介: “黑盒”问题 想象一下,你是一名医生,正在使用人工智能系统诊断 X 光片。AI 以 95% 的置信度预测为“肺炎”。作为一名负责任的从业者,你的第一反应不仅仅是“它对吗?”,而是“为什么?” ...
](https://deep-paper.org/en/paper/file-2221/images/cover.png)
引言 在计算机视觉和机器人领域,机器如何“看”物体与物体本身同样重要。想象一个试图拿起咖啡杯的机器人。对我们来说,它只是一个简单的杯子。对计算机来说,它可能是一团由数百万个点组成的密集云、一个沉重的三角网格,或者一个复杂的神经辐射场。 ...
](https://deep-paper.org/en/paper/2504.14687/images/cover.png)
简介 你是如何知道物体离你有多远的?如果你闭上一只眼并完全静止不动,世界就会变平。深度感知变成了一场基于阴影和熟悉物体大小的猜谜游戏。但当你移动头部的那一刻,世界又变回了 3D。附近的物体飞快地掠过你的视野,而远处的群山几乎纹丝不动。这种现象被称为运动视差 (motion parallax) , 是生物系统感知几何结构的一种基本方式。 ...
](https://deep-paper.org/en/paper/file-2219/images/cover.png)
简介 想象一下,你试图通过让机器人观看人类厨师的视频来教它做饭。机器人有自己的摄像头 (第一人称,或称“自我中心”视角) ,但它同时也观看着厨房角落里的监控摄像头 (第三人称,或称“非自我中心”/外部视角) 。人类拿起一个蓝色的杯子。为了模仿这一动作,机器人需要知道角落摄像头画面中的那个蓝色形状,与它自己摄像头画面中的蓝色形状对应的是同一个物体。 ...