](https://deep-paper.org/en/paper/file-1922/images/cover.png)
解决延迟难题:ALIEN 如何在任意网络延迟下预测人体动作
引言 想象一下,你正在与地球另一端的朋友进行一场高风险的虚拟现实 (VR) 乒乓球比赛。你挥动控制器,期望你的虚拟化身能瞬间模仿这个动作。但问题来了: 网络连接在波动。你的挥拍数据通过广域网 (WAN) 传输,在到达游戏服务器或对手的显示设备之前,遭遇了不可预测的延迟。 ...
](https://deep-paper.org/en/paper/file-1922/images/cover.png)
引言 想象一下,你正在与地球另一端的朋友进行一场高风险的虚拟现实 (VR) 乒乓球比赛。你挥动控制器,期望你的虚拟化身能瞬间模仿这个动作。但问题来了: 网络连接在波动。你的挥拍数据通过广域网 (WAN) 传输,在到达游戏服务器或对手的显示设备之前,遭遇了不可预测的延迟。 ...
](https://deep-paper.org/en/paper/2412.03937/images/cover.png)
时尚是人类文化内在的一部分,它既是抵御自然元素的盾牌,也是自我表达的画布。然而,时尚产业的后端——特别是缝纫版型 (sewing patterns) 的制作——仍然是一个主要依赖人工和技术的瓶颈。虽然生成式 AI 已经彻底改变了 2D 图像创作 (比如 Midjourney 或 DALL-E) ,但生成可制造的 (manufacturable) 服装完全是另一回事。 ...
](https://deep-paper.org/en/paper/file-1920/images/cover.png)
在飞速发展的 3D 计算机视觉领域,自监督预训练已成为黄金标准。无论你是构建自动驾驶车辆的感知系统,还是分析 3D 医学扫描,成功的秘诀通常都包括: 获取海量无标签数据集,在其上预训练一个深度神经网络 (DNN) ,然后针对你的特定任务进行微调。 ...
](https://deep-paper.org/en/paper/2412.04462/images/cover.png)
想象一下,你正在观看一段猫咪玩玩具的视频。在普通视频中,你只是一个被动的观察者,被限制在摄像师选择的视角中。现在,想象你可以在任何一秒暂停视频,抓住屏幕,围绕静止的猫咪旋转摄像机,从背面看那个玩具。然后,你按下播放键,视频从那个新的角度继续播放。 ...
](https://deep-paper.org/en/paper/2409.12957/images/cover.png)
对高质量 3D 资产的需求正在呈爆炸式增长。从视频游戏和虚拟现实的沉浸式世界,到建筑可视化和电影制作的实际应用,对细节丰富、逼真的 3D 模型的需求比以往任何时候都高。传统上,创建这些资产是一个劳动密集型的瓶颈,需要熟练的艺术家手动雕刻几何形状、绘制纹理并调整材质属性。 ...
](https://deep-paper.org/en/paper/2411.14974/images/cover.png)
引言 在计算机视觉这一快速发展的领域中,在计算机内部重建现实的探索在短短几年内取得了巨大的飞跃。我们从摄影测量学起步,发展到革命性的神经辐射场 (NeRF),最近又迎来了 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS)。 ...
](https://deep-paper.org/en/paper/2501.10357/images/cover.png)
引言 想象一下你正在观看一段标准的视频片段。这是一个 2D 的图像序列。你的大脑在处理这个单目 (单眼) 视角时,瞬间就能理解两件事: 场景的 3D 结构 (什么离得近,什么离得远) 以及物体的运动 (物体在 3D 空间中是如何移动的) 。 ...
](https://deep-paper.org/en/paper/2503.11651/images/cover.png)
简介 几十年来,计算机视觉领域一直在追寻一个特定的“圣杯”: 将散落在场景各处的几张扁平 2D 照片,瞬间转化为连贯的 3D 模型。 传统上,这个过程——被称为运动恢复结构 (Structure-from-Motion, SfM) ——是一个缓慢且繁琐的数学计算过程。它涉及检测特征、在图像间进行匹配、求解复杂的几何方程以找到相机位置,然后运行像光束法平差 (Bundle Adjustment) 这样的迭代优化算法来微调一切。虽然这种方法有效,但它的计算成本高昂,而且往往很脆弱。 ...
](https://deep-paper.org/en/paper/2307.16375/images/cover.png)
如果你曾经尝试过训练像 Llama 这样的大型语言模型 (LLM) 或像 ViT 这样的视觉巨型模型,你就知道其中的艰难: 单块 GPU 根本无法胜任。为了训练这些庞然大物,我们需要跨 GPU 集群进行分布式学习。 ...
](https://deep-paper.org/en/paper/2502.21201/images/cover.png)
引言 想象一下,你正在训练一个计算机视觉模型来识别正在爬树的黑猩猩。你给它输入了数千小时的视频素材。模型达到了很高的准确率,你对此感到非常兴奋。但是,当你用一段没有黑猩猩的空旷森林视频测试它时,模型却自信地预测: “正在爬树”。 ...
](https://deep-paper.org/en/paper/2504.11773/images/cover.png)
在自动驾驶和机器人技术飞速发展的世界中,感知即一切。车辆不仅需要知道周围有什么,还需要确切地知道它们有多远。虽然激光雷达 (LiDAR) 传感器能提供出色的深度数据,但其价格昂贵。一种更具成本效益的替代方案是融合来自相机 (丰富的视觉细节) 和毫米波雷达 (可靠的深度和速度信息) 的数据。 ...
](https://deep-paper.org/en/paper/2501.01423/images/cover.png)
引言 在生成式 AI 飞速发展的今天,像 Stable Diffusion 和 Sora 这样的潜在扩散模型 (Latent Diffusion Models, LDMs) 已成为创建高保真图像和视频的黄金标准。这些模型的魔力在于它们不直接处理像素,而是在一个压缩的“潜在空间 (latent space) ”中运行。这种压缩由一个称为视觉分词器 (Visual Tokenizer) 的组件处理,通常是一个变分自编码器 (VAE) 。 ...
](https://deep-paper.org/en/paper/2412.03572/images/cover.png)
引言 你如何在拥挤的房间里找到出口?你可能不会只盯着自己的脚,等到障碍物碰到脚趾时才做出反应。相反,你会进行心理模拟。你会想象一条路径,预测某人可能会挡住你的路,并在迈出一步之前调整你的轨迹。你拥有一个内部世界模型,使你能够模拟未来。 ...
](https://deep-paper.org/en/paper/2409.17146/images/cover.png)
引言 在人工智能快速发展的格局中,视觉语言模型 (Vision-Language Models, VLMs) 已经变得无处不在。像 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 这样的模型能够以惊人的准确度描述复杂的图像、解读图表并回答关于视觉世界的问题。然而,这些专有模型就像是“围墙花园”。我们可以通过 API 与它们交互,但我们并不确切知道它们是如何构建的,也不清楚它们是使用什么数据进行训练的。 ...
](https://deep-paper.org/en/paper/2412.04463/images/cover.png)
想象一下,你拿着智能手机录制朋友在沙滩上奔跑或赛车在赛道上飞驰的视频。对你来说,场景很清晰。但对于试图以 3D 形式重建该场景的计算机来说,这是一场噩梦。 ...
](https://deep-paper.org/en/paper/2501.09898/images/cover.png)
FoundationStereo: 将零样本泛化引入立体深度估计 在计算机视觉的快速演变中,我们见证了“基础模型” (Foundation Models) 彻底改变了机器理解图像的方式。像 Segment Anything (SAM) 或 DepthAnything 这样的模型展示了令人难以置信的泛化能力: 它们可以在从未见过的图像上执行任务,而无需特定的微调。 ...
](https://deep-paper.org/en/paper/file-1905/images/cover.png)
智能传感器: 像素内计算如何实现 3000 FPS 特征追踪 计算机视觉面临着一个瓶颈问题。在传统的设置中——无论是智能手机、VR 头显还是无人机——摄像头传感器仅仅充当一个“傻瓜式”的容器。它捕获数百万个光子,将其转换为数字值,然后将海量的原始数据流传输到外部处理器 (CPU 或 GPU) 以分析它看到了什么。 ...
](https://deep-paper.org/en/paper/2503.01774/images/cover.png)
引言 我们正见证着神经渲染的黄金时代。神经辐射场 (NeRF) 和 3D 高斯泼溅 (3DGS) 等技术让我们能够将少量 2D 照片转化为身临其境、可漫游的 3D 场景。其结果往往令人叹为观止——直到你偏离原始相机路径太远。 ...
](https://deep-paper.org/en/paper/2505.04788/images/cover.png)
如果你沿着长直的走廊看去,或者从街道上凝视一座摩天大楼,你会直观地理解透视现象。现实世界中的平行线——比如天花板的边缘或建筑物的侧面——在远处似乎汇聚于一点。在计算机视觉中,这些点被称为灭点 (Vanishing Points, VPs) 。 ...
](https://deep-paper.org/en/paper/2503.10148/images/cover.png)
引言 在计算机图形学和计算机视觉飞速发展的世界中,很少有技术能像 3D Gaussian Splatting (3DGS,3D 高斯溅射) 最近这样引起如此大的轰动。它为神经辐射场 (NeRFs) 提供了一个绝佳的替代方案,通过将场景表示为数百万个 3D 高斯椭球,实现了复杂场景的实时渲染。它速度快、质量高,且具有显式表达的特性。 ...