](https://deep-paper.org/en/paper/2505.21943/images/cover.png)
逃离点对点损失的陷阱:点对区域匹配如何解决半监督人群计数问题
想象一下看着一张座无虚席的体育场或熙熙攘攘的城市广场的照片。你的任务是数清每一个人。在计算机视觉中,这就是人群计数 (Crowd Counting) 任务,它对于城市规划、安全监控和交通控制至关重要。 ...
](https://deep-paper.org/en/paper/2505.21943/images/cover.png)
想象一下看着一张座无虚席的体育场或熙熙攘攘的城市广场的照片。你的任务是数清每一个人。在计算机视觉中,这就是人群计数 (Crowd Counting) 任务,它对于城市规划、安全监控和交通控制至关重要。 ...
](https://deep-paper.org/en/paper/2412.03451/images/cover.png)
如果你环顾此刻身处的房间,你会看到什么?理想情况下,你会看到墙壁、地板、天花板,或许还有一张桌子或书架。从几何角度看,你被平面包围着。 虽然人类能瞬间感知这些结构化的平坦表面,但让计算机从 2D 图像中重建它们却极其困难。传统的 3D 重建方法通常输出“点云”或“网格”,它们看起来像融化的蜡——凹凸不平、充满噪点,且缺乏真实墙壁或桌子那种清晰的几何定义。 ...
](https://deep-paper.org/en/paper/2502.07785/images/cover.png)
从自拍到影棚: Pippo 如何仅凭一张照片生成高清 3D 化身 想象一下,用智能手机快速随意地拍一张自己的照片,片刻之后,你就拥有了一个高分辨率、360 度旋转的数字孪生视频——不仅包含你背部的细节,甚至连头发的纹理和衣服的褶皱都清晰可见,而且完全符合 3D 一致性。这种能力是元宇宙、游戏、虚拟时尚和远程呈现等应用领域的“圣杯”。 ...
](https://deep-paper.org/en/paper/2403.11116/images/cover.png)
想象一下,你向一个人工智能展示一张猫睡在桌子上的照片。你问它: “这张照片里有狗吗?”AI 自信地回答: “是的,有一只狗睡在桌子上。” 这种现象被称为视觉幻觉 。 这是多模态大语言模型 (MLLMs) ——如 LLaVA、Qwen-VL 或 GPT-4V 等既能看又能说的系统——面临的最持久且令人困惑的挑战之一。虽然这些模型展现了惊人的能力,但它们经常凭空捏造物体、误解属性,或盲目同意文本提示中提供的错误前提。 ...
](https://deep-paper.org/en/paper/2503.20308/images/cover.png)
如果你玩过现代 RPG 游戏,或者看过使用 AI 生成口型同步的配音电影,你可能经历过“恐怖谷效应”。角色的嘴唇在动,从技术上讲,它们针对发音做出的形状也是对的,但总感觉有什么地方不对劲。对于元音 ‘a’,嘴巴张开的幅度可能完美无缺,但它缺乏大喊时的那种能量,或者时间上哪怕只有几毫秒的机械感偏差。 ...
](https://deep-paper.org/en/paper/2412.18608/images/cover.png)
生成式 AI 领域的发展速度惊人。我们从模糊的 2D 图像起步,迈向了高保真的照片级写实,现在已经抵达了通过简单文本提示生成 3D 资产的前沿。像 DreamFusion 和各种网格生成器这样的工具,可以在几秒钟内创造出“一只穿着侦探服的比格犬”。 ...
](https://deep-paper.org/en/paper/2412.15119/images/cover.png)
引言 在生成式 AI 的世界里,自回归 (Autoregressive, AR) 模型是中流砥柱。它们是驱动 ChatGPT 和 Claude 等大型语言模型 (LLMs) 的架构基础。其前提简单而强大: 基于之前的所有内容来预测下一条数据。当应用于文本时,它们一次写一个词。当应用于计算机视觉时,它们一次绘制图像的一个“Token” (图像的压缩块) 。 ...
](https://deep-paper.org/en/paper/2503.18420/images/cover.png)
想象一下你正站在一座宏伟的大教堂里。你用标准的智能手机相机拍了一张照片。这张照片捕捉到了“窄视场角” (Narrow Field of View, NFoV) ——本质上只是整个场景的一个小矩形。现在,想象一下要求 AI 拿走这个小矩形,并“构想”出大教堂的其余部分——天花板、地板以及你身后的所有东西——从而创建一个完美的 360 度球体,让你可以在 VR 头显中观看。 ...
](https://deep-paper.org/en/paper/2503.20779/images/cover.png)
数字服装一直是计算机图形学中的一个棘手问题。如果你玩现代电子游戏或观看视觉特效分解,你可能会注意到,虽然面部已经变得与现实难以区分,但服装往往落后一步。它要么看起来像一个僵硬的塑料外壳,要么运动方式怪异,要么缺乏真实织物那种毛茸茸的触感和“柔软度”。 ...
](https://deep-paper.org/en/paper/file-2168/images/cover.png)
想象一下你是一个正在参加考试的学生。你遇到了一道题,图片显示的是一片草地,里面有一只模糊的小动物。你并不完全确定那是什么动物,但你知道牛通常待在草地上。所以,你猜了“牛”。结果你答对了。 ...
](https://deep-paper.org/en/paper/2403.11295/images/cover.png)
如果你曾用智能手机在车窗外拍过旋转的螺旋桨或飞驰的火车,你可能目睹过“卷帘快门” (Rolling Shutter) 效应。螺旋桨看起来像弯曲的回旋镖;垂直的杆子看起来是倾斜的;汽车看起来像是向前倾倒。 ...
](https://deep-paper.org/en/paper/file-2165/images/cover.png)
打破物理定律?OpticalNet 如何利用 AI 看见不可见之物 几个世纪以来,探索“微观世界”一直是科学发展的驱动力。从古代简陋的放大镜到今天精密的显微镜,我们从未停止对更高分辨率的追求。但始终存在一堵难以逾越的墙: 衍射极限 (Diffraction Limit) 。 ...
](https://deep-paper.org/en/paper/2412.00115/images/cover.png)
如果你尝试过最近的视频生成模型,比如 Sora、Stable Video Diffusion 或 MovieGen,你可能会发现一个反复出现的模式。这些模型可以毫不费力地生成令人惊叹的风景、赛博朋克风格的城市和超现实的抽象画面。但是,一旦你要求生成一段人类说话或执行复杂动作的视频,缺陷便开始显现。 ...
](https://deep-paper.org/en/paper/2503.19199/images/cover.png)
想象一下,你是一个正在厨房里穿梭的机器人。你扫描房间,完美地识别出了冰箱、橱柜和水槽。你知道它们在 3D 空间中的确切位置。但现在,你收到了一个指令: “打开冰箱”。 ...
](https://deep-paper.org/en/paper/2407.09392/images/cover.png)
引言 如果你想知道一片森林储存了多少碳,或者一个生态系统有多健康,你需要知道树木的高度。这听起来很简单,但在全球——甚至仅仅是国家——范围内测量树冠高度是一场巨大的后勤噩梦。你不可能派出一队研究人员带着卷尺走进每一公顷的林地。 ...
](https://deep-paper.org/en/paper/file-2161/images/cover.png)
想象一下走进一家图书馆,所有的书都被随意地扔在地板上堆成一堆。想要找到《白鲸记》简直是场噩梦。现在,再想象一家图书馆,所有的书都整齐地放在书架上,书脊朝外,直立摆放,并分门别类。这本质上就是3D 对象规范化 (3D Object Canonicalization) 要解决的问题。 ...
](https://deep-paper.org/en/paper/2412.16604/images/cover.png)
想象一下,试图仅凭两张照片就重建整个 3D 房间。在计算机视觉领域,这种“稀疏视图重建”是虚拟现实 (VR) 和增强现实 (AR) 的圣杯。最近, 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 彻底改变了这一领域,提供了旧方法 (如 NeRF) 难以企及的实时渲染速度。 ...
](https://deep-paper.org/en/paper/2501.03841/images/cover.png)
通用机器人的梦想是造出一台能走进杂乱的厨房,识别出茶壶和茶杯,并在没有针对特定茶壶或茶杯进行显式编程的情况下为你倒一杯水的机器。 近年来,我们见证了 视觉语言模型 (VLMs) 的巨大飞跃。这些模型 (如 GPT-4V) 拥有令人难以置信的“常识”。它们可以看着一张图片告诉你: “那是一个茶壶,你要握住它的把手,然后从壶嘴倒出液体。”然而,知道 做什么 与知道在 3D 空间中究竟 如何做 是截然不同的。 ...
](https://deep-paper.org/en/paper/2412.09612/images/cover.png)
引言: “一体化” AI 的困境 在人工智能飞速发展的今天,构建终极“一体化” (All-in-One) 模型的竞赛正如火如荼。我们已经看到了像 GPT-4 和 LLaVA 这样能看、能读、能推理的多模态大型语言模型 (MLLM) 。我们也看到了像 Stable Diffusion 和 Sora 这样能创造惊人图像和视频的生成式模型。 ...
](https://deep-paper.org/en/paper/2503.00361/images/cover.png)
引言 想象一下,你让 AI 描述一张足球场的照片。模型自信地回答: “一名身穿绿色球衣的球员正将球踢向球门。”这句话听起来很完美,除了一点问题: 照片里根本没有球。 ...