](https://deep-paper.org/en/paper/2503.16979/images/cover.png)
实时全息技术?Instant Gaussian Stream 如何变革动态 3D 视频
“全息”通信的梦想——即你可以实时从任何角度观看远程事件——长期以来一直是科幻小说中的经典题材。在计算机视觉领域,这被称为自由视点视频 (Free-Viewpoint Video, FVV) 。 其目标是从多个摄像头画面中即时重建动态 3D 场景。 ...
](https://deep-paper.org/en/paper/2503.16979/images/cover.png)
“全息”通信的梦想——即你可以实时从任何角度观看远程事件——长期以来一直是科幻小说中的经典题材。在计算机视觉领域,这被称为自由视点视频 (Free-Viewpoint Video, FVV) 。 其目标是从多个摄像头画面中即时重建动态 3D 场景。 ...
](https://deep-paper.org/en/paper/2503.00513/images/cover.png)
想象一下,你让机器人“把笔记本电脑旁边的红色马克杯拿起来”。对我们来说,这是一个微不足道的请求。但对 AI 来说,这是一个几何与语义的噩梦。AI 必须在 3D 空间中识别物体,理解“红色”和“马克杯”长什么样,并弄清楚“旁边”这种空间关系。 ...
](https://deep-paper.org/en/paper/2411.14432/images/cover.png)
引言 在人工智能的快速演进中,我们见证了从单纯预测下一个单词的模型,向能够解决复杂逻辑谜题的模型转变。随着 OpenAI o1 等系统的发布,基于文本的大型语言模型 (LLM) 已经展示了“系统 2 (System 2) ”思维能力——即在回答之前进行深思熟虑、逐步推理和自我修正的能力。 ...
](https://deep-paper.org/en/paper/2410.08107/images/cover.png)
想象一下,一架无人机正高速飞过一条昏暗的隧道。在这种场景下,普通相机很可能会失效;快速的运动会导致严重的运动模糊,而微弱的光线则会产生充满噪点、无法使用的画面。这正是当今许多机器人应用面临的瓶颈。然而,有一种不同类型的传感器正是为了在这种条件下大显身手而生的: 事件相机 (Event Camera) 。 ...
](https://deep-paper.org/en/paper/2503.18454/images/cover.png)
如果你曾把玩过像 Stable Diffusion 这样的文生图 (T2I) 模型,你一定经历过这种挣扎: 输入提示词,得到一个奇怪的结果,调整提示词,得到一个稍微不那么奇怪的结果,如此反复。虽然这些模型很强大,但它们并不是天生就符合人类的审美偏好或能完美遵循详细指令。 ...
](https://deep-paper.org/en/paper/2506.10182/images/cover.png)
想象一下你有一个包含数千张照片的数字相册。你想找一张你家宠物狗“Fido”接飞盘的照片。你在搜索栏中输入“Fido 接飞盘”。 像 CLIP 这样的标准视觉-语言模型 (VLMs) 与标准物体检测器不同,因为它们可以理解开放式的文本。然而,它们有一个主要的局限性: 它们知道一只狗长什么样,但它们不知道你的狗 Fido 长什么样。 ...
](https://deep-paper.org/en/paper/2406.04251/images/cover.png)
3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 的出现标志着神经渲染领域的范式转变。不同于依赖昂贵光线步进 (ray marching) 的隐式体积神经辐射场 (NeRFs),3DGS 利用显式点云——具体来说是 3D 高斯球——来实现具有照片级逼真度的实时场景渲染。 ...
](https://deep-paper.org/en/paper/file-2084/images/cover.png)
超越匹配: 隐式学习如何解决图像到点云配准问题 想象一下,你是一个在城市中导航的机器人。你拥有一个预先构建的城市 3D 地图 (点云) ,而你刚刚用机载相机拍了一张照片。为了知道你在这个巨大 3D 世界中的确切位置,你需要弄清楚那张 2D 照片究竟对应地图的哪个部分。这个问题被称为图像到点云配准 (Image-to-Point Cloud Registration) 。 ...
](https://deep-paper.org/en/paper/file-2083/images/cover.png)
数据之梦: ImagineFSL 如何利用合成预训练彻底变革少样本学习 在深度学习的世界里,数据是驱动引擎的燃料。但当燃料不足时会发生什么?这就是 少样本学习 (Few-Shot Learning, FSL) 的核心挑战——即教导模型仅用一个或少数几个例子就能识别新概念。 ...
](https://deep-paper.org/en/paper/2312.02971/images/cover.png)
解决鬼影问题: 如何从复用单光子探测器中重建图像 想象一下在几乎全黑的环境中拍照,光线极其稀缺,以至于你需要计算撞击传感器的单个粒子——光子。这就是单光子探测器的领域。这些设备正在彻底改变从生物成像、激光雷达到量子光学等各个领域。 ...
](https://deep-paper.org/en/paper/2503.10078/images/cover.png)
你是否曾经把一张图片压缩得非常厉害,以至于它看起来满是马赛克且像素化,但你的手机依然能完美地识别出里面的人脸?反过来说,你是否拍过一张在你看来很正常的照片,但你的智能相机却拒绝聚焦或检测其中的物体? ...
](https://deep-paper.org/en/paper/2503.14359/images/cover.png)
虚拟现实 (VR) 的梦想一直是“全息甲板 (Holodeck) ”的概念——能够步入现实世界的数字录像中,并获得身临其境的体验。你希望能四处走动,凑近观察细节,回头张望,并随着你的移动听到音景的变化。 ...
](https://deep-paper.org/en/paper/2411.17440/images/cover.png)
想象一下你想执导一部短片。你有剧本,也有主角的照片。在传统世界里,这需要摄影机、灯光团队和数天的拍摄。而在生成式 AI 的世界里,我们离仅凭一段文本提示就能实现这一目标越来越近了。 ...
](https://deep-paper.org/en/paper/file-2078/images/cover.png)
如果你曾经尝试在单张消费级 GPU 上运行像 Llama-2 这样最先进的大型语言模型 (LLM) 或像 Segment Anything (SAM) 这样的视觉模型,你一定深知其中的艰难。这些模型体量巨大。70 亿参数的模型通常是像样的桌面级 GPU 进行推理的上限,更不用说微调了。 ...
](https://deep-paper.org/en/paper/2503.19902/images/cover.png)
引言 在日新月异的生成式 AI 世界中,我们已经习惯了单一的流向: 文本到图像 (Text-to-Image, T2I) 。 你输入“一座水晶构成的未来城市”,像 Stable Diffusion 这样的扩散模型就会为你绘制出来。这些模型非常强大,因为它们摄取了海量数据集,有效地编码了大量的“世界知识”。它们知道城市是什么样子的,知道水晶是什么样子的,并且知道如何将它们结合起来。 ...
](https://deep-paper.org/en/paper/2503.16944/images/cover.png)
引言 在生成式人工智能 (Generative AI) 飞速发展的世界里,有一个愿望几乎超越了所有其他需求: 个性化 。 我们都想把自己、朋友或特定角色放入全新的想象世界中。无论是看着自己变身为宇航员、赛博朋克战士,还是出现在油画中,目标都是高保真度 (看起来完全像你) 和高可编辑性 (可以改变背景、光照和风格) 。 ...
](https://deep-paper.org/en/paper/2412.02317/images/cover.png)
引言 我们目前正见证着 3D 内容生成领域的“寒武纪大爆发”。随着文本到图像和图像到 3D 模型的出现,以前艺术家需要数天才能创建出的详细 3D 人形角色,现在只需几秒钟。但在静态 3D 模型和可玩的视频游戏角色之间,存在一个巨大的瓶颈: 绑定 (Rigging) 。 ...
](https://deep-paper.org/en/paper/file-2073/images/cover.png)
引言 想象一下你正沿着高速公路行驶。你的眼睛不断地扫描周围环境,追踪前方车辆的速度、余光中飞逝的树木,以及你自己车辆的轻微漂移。你正在进行一种复杂的计算,这种计算在计算机视觉中被称为光流估计 (Optical Flow estimation) ——即确定像素在瞬间如何移动。 ...
](https://deep-paper.org/en/paper/2504.12284/images/cover.png)
想象一下教别人如何修理自行车。你很少会给他们一列几何坐标或矢量旋转数据。相反,你会向他们展示。你会演示手应该如何握住扳手,需要什么样的特定扭转动作,以及手指需要在哪里施加压力。 ...
](https://deep-paper.org/en/paper/2411.14628/images/cover.png)
引言 在 3D 计算机视觉和图形学的世界里,准确地表示形状是成功的一半。虽然点云和网格是经典格式,但隐式神经表示 (Implicit Neural Representations) 已经席卷了该领域。特别是,神经符号距离函数 (Neural Signed Distance Functions, SDFs) 已成为表示水密、高保真表面的黄金标准。 ...