](https://deep-paper.org/en/paper/2411.17662/images/cover.png)
RoboPEPP:教 AI 通过物理直觉“看见”机器人姿态
想象一个机械臂在繁忙的厨房或生产车间里工作。为了安全地与人类或其他机器协作,这个机器人需要确切知道自己在相机视野中的空间位置。这就是所谓的机器人姿态估计 。 ...
](https://deep-paper.org/en/paper/2411.17662/images/cover.png)
想象一个机械臂在繁忙的厨房或生产车间里工作。为了安全地与人类或其他机器协作,这个机器人需要确切知道自己在相机视野中的空间位置。这就是所谓的机器人姿态估计 。 ...
](https://deep-paper.org/en/paper/2410.23132/images/cover.png)
在深度学习这个快节奏的领域,我们经常寻找“下一个风口”——一种新的 Transformer 架构、一个复杂的损失函数,或者一个革命性的优化器。然而,有时最重大的突破并非源于发明全新的事物,而是源于采用一个简单、强大的想法,并将其工程化到极致。 ...
](https://deep-paper.org/en/paper/2411.18941/images/cover.png)
引言 想象一下,看着一个人坐在桌前的剪影。他们的手臂在动。他们是在写信,还是在键盘上打字?对于普通的观察者,甚至对于许多计算机视觉算法来说,这两个动作看起来都惊人地相似。姿势是一样的;活动的身体部位 (手臂和手) 也是一样的。区别在于那些关节相对于彼此运动的微妙、细粒度的细节中。 ...
](https://deep-paper.org/en/paper/file-2195/images/cover.png)
引言 “情人眼里出西施。”这句话我们已经听过无数遍了,它意味着审美判断本质上是主观的。然而,在计算机视觉和人工智能领域,多年来我们一直在通过平均大众的观点来教机器理解“美”。这种方法被称为通用美学评估 (Generic Aesthetics Assessment, GAA) , 对于判断一张照片是否具有普遍的“高质量”——是否对焦准确?光线是否良好?构图是否标准?——非常有效。 ...
](https://deep-paper.org/en/paper/2501.05446/images/cover.png)
引言 在计算机视觉的世界里,我们正见证着单目深度估计 (Monocular Depth Estimation, MDE) 的黄金时代。得益于深度学习和海量数据,现代神经网络仅凭一张平面的 2D 图像就能预测出惊人准确的密集深度图。诸如 MiDaS、Marigold 和 Depth Anything 等模型已将 2D 图像转化为伪 3D 表征。 ...
](https://deep-paper.org/en/paper/2404.03632/images/cover.png)
想象一下你正在编辑一张照片。你想把网上找到的一张名人照片里的特定发型换给照片里的人。在 2D 图像编辑 (如 Photoshop 或标准的生成式 AI) 中,这正变得越来越容易。但如果那个人不仅仅是一张平面图像呢?如果你正在构建一个视频游戏头像、VR 体验或电影场景,其中的角色需要转头呢? ...
](https://deep-paper.org/en/paper/2412.17806/images/cover.png)
想象一下,你手里有一些不同人在派对上拍摄的照片。你想要在 3D 环境中重现那一刻: 房间的布局、每个人的站位,以及摄影师们所在的位置。 在计算机视觉中,这是一个经典的分野。我们有非常优秀的算法来重建静态场景 (墙壁、家具) ,即所谓的运动结构恢复 (SfM) 。我们也有很棒的模型来重建人物 (姿态、体型) 。但在历史上,这两个领域就像水火不容。SfM 算法将移动的人物视为需要过滤的“噪声”,而人物重建方法通常会生成“悬浮”的化身,完全没有地面的概念或房间的比例感。 ...
](https://deep-paper.org/en/paper/2503.08306/images/cover.png)
引言 想象一下教机器人穿越拥挤的办公室。过去,这是一个模块化的问题: 一个软件构建地图,另一个在地图上定位机器人,第三个计算路径。如今,具身智能 (Embodied AI) 的前沿技术使用的是“端到端” (E2E) 强化学习。你给机器人输入视觉数据 (像素) ,它输出运动指令 (动作) 。这是一种“黑盒”方法,在仿真中取得了令人印象深刻的成果。 ...
](https://deep-paper.org/en/paper/2412.11077/images/cover.png)
想象一下你在网上购物。你看到一张模特穿着漂亮的碎花连衣裙的照片,但你更想要一件纯红色的。你不能直接上传这张图片,因为搜索引擎会再次给你推荐那件碎花裙。你也不能只输入“红裙子”,因为那样会丢失原图中特定的剪裁和款式信息。 ...
](https://deep-paper.org/en/paper/2501.03729/images/cover.png)
像 CLIP 这样的视觉-语言模型 (Vision-Language Models, VLMs) 已经彻底改变了计算机视觉领域。通过在预训练期间对齐图像和文本,它们使我们能够执行“零样本” (zero-shot) 分类——即仅通过将图像与文本描述进行匹配,就能识别模型在训练中从未明确见过的物体。 ...
](https://deep-paper.org/en/paper/2504.12909/images/cover.png)
创造能够实时移动和反应的逼真数字人类,是计算机图形学领域的“圣杯”级挑战之一。无论是为了元宇宙、电子游戏还是虚拟现实远程呈现,我们都希望化身看起来真实——甚至连衬衫上的褶皱都清晰可见——并且能以高帧率渲染。 ...
](https://deep-paper.org/en/paper/2412.13183/images/cover.png)
想象一下给朋友打视频电话,但你面对的不再是手机上平面的 2D 矩形,而是一个逼真的 3D 全息图。你可以绕着他们走动,看到他们衬衫的背面,或者从任何角度观看他们跳舞。这就是远程临场 (Telepresence) 和元宇宙的“圣杯”。 ...
](https://deep-paper.org/en/paper/2412.19637/images/cover.png)
引言 如果你曾玩过像 Stable Diffusion 这样的文生图 (T2I) 模型,那你很可能熟悉“提示词工程 (prompt engineering) ”带来的挫败感。你输入了一段优美的描述,结果生成的图片里却是扭曲的面孔、多余的手指,或者阴暗的色调。为了解决这个问题,社区开发了一种变通方法: 负向提示词 (Negative Prompts) 。 ...
](https://deep-paper.org/en/paper/file-2185/images/cover.png)
当数据撒谎时: 喧嚣世界中的鲁棒多视图聚类 在机器学习研究的理想世界中,数据是干净的,标签是准确的,每一个输入都与其描述完美匹配。然而在现实世界中,数据是杂乱的。传感器会故障,标注员会犯错,数据集里充满了噪声。 ...
](https://deep-paper.org/en/paper/2405.17220/images/cover.png)
多模态大语言模型 (MLLMs) ——即能够看懂图片并进行讨论的 AI——的兴起无疑是一场革命。像 GPT-4V 和 LLaVA 这样的模型已经展示了理解视觉世界的惊人能力。然而,它们都有一个顽固且严重的缺陷: 幻觉 (Hallucination) 。 ...
](https://deep-paper.org/en/paper/2503.12886/images/cover.png)
“数字孪生”的梦想——一个外观和动作都和你一模一样、逼真且可动画化的化身——长期以来一直是计算机图形学的圣杯。无论是为了元宇宙、电子游戏还是下一代远程临场技术,对高保真头部化身的需求正在激增。 ...
](https://deep-paper.org/en/paper/2503.04459/images/cover.png)
想象你正在观看一段管弦乐队的视频。一位朋友问: “哪种乐器最先开始演奏?”为了回答这个问题,你的大脑完成了一项复杂的壮举。你不仅是看几张随机的快照;你在感知时间的连续流动。你不仅仅是整体地听音频;你在分离特定的声音,并将它们与视觉动作同步。最重要的是,在处理场景之前,你就确切地知道要看什么和听什么,因为问题引导了你的注意力。 ...
](https://deep-paper.org/en/paper/2503.19718/images/cover.png)
如果你一直关注量子计算的发展,你可能知道我们正处于 “NISQ” 时代 (含噪中型量子) 。虽然通用、容错的量子计算机尚在未来,但我们目前可以获得量子退火机 (比如 D-Wave 的那些) 。这些机器是专门设计的硬件,用于寻找系统的最低能量状态,这使它们成为组合优化的潜在强大工具。 ...
](https://deep-paper.org/en/paper/2503.09487/images/cover.png)
引言: “水鸟”问题 想象一下,你正在训练一个 AI 来对鸟类进行分类。你给它喂了数千张水鸟 (如鸭子) 和陆鸟 (如麻雀) 的图片。模型在验证集上达到了 99% 的准确率。你准备好部署了。 ...
](https://deep-paper.org/en/paper/file-2179/images/cover.png)
简介 想象一下你是一个机器人。我递给你一个你从未见过的玩具——一个形状独特、手工雕刻的木制动物。我要求你在我挥动它时,在 3D 空间中追踪它的运动。 对于人类来说,这是轻而易举的。但对于计算机视觉系统来说,这是一个噩梦般的场景。 ...