](https://deep-paper.org/en/paper/2503.10149/images/cover.png)
少即是多——移除交叉注意力机制以解决激光雷达泛化难题
在自动驾驶和机器人技术飞速发展的世界里,传感器就是机器的眼睛。激光雷达 (LiDAR) 作为一种关键传感器脱颖而出,它能提供环境的精确 3D 地图。然而,原始的 3D 点只是一个起点。为了理解这个世界,车辆必须对这些点云进行“配准” (Registration) ——将不同时间或不同地点拍摄的扫描数据拼接在一起,以计算自身的移动并构建周围环境的地图。 ...
](https://deep-paper.org/en/paper/2503.10149/images/cover.png)
在自动驾驶和机器人技术飞速发展的世界里,传感器就是机器的眼睛。激光雷达 (LiDAR) 作为一种关键传感器脱颖而出,它能提供环境的精确 3D 地图。然而,原始的 3D 点只是一个起点。为了理解这个世界,车辆必须对这些点云进行“配准” (Registration) ——将不同时间或不同地点拍摄的扫描数据拼接在一起,以计算自身的移动并构建周围环境的地图。 ...
](https://deep-paper.org/en/paper/2412.01027/images/cover.png)
引言: 图像编辑中语言的局限性 我们正处于文本生成图像的黄金时代。像 Midjourney、DALL-E 和 Stable Diffusion 这样的模型,让通过简单的句子构建细节丰富的世界变得异常简单。然而,从零开始生成图像与精确编辑现有图像之间,仍然存在巨大的鸿沟。 ...
](https://deep-paper.org/en/paper/2503.15005/images/cover.png)
引言 想象一下,你是一个走进房间的机器人。你看到一个男人坐在沙发上。你听到有人说: “彼得正在休息。”你的深度传感器告诉你沙发是靠着墙的。 作为人类,我们会无缝地处理所有这些信息。我们不会分别为我们看到的、听到的和空间深度建立各自独立的心理模型。我们将它们整合成对场景的单一理解: 彼得坐在靠墙的沙发上。 ...
](https://deep-paper.org/en/paper/file-2279/images/cover.png)
简介 想象一下,有一台像人眼一样工作的相机。它不会一帧一帧地拍摄快照;相反,它只在发生变化时做出反应。如果你盯着一堵完全静止的墙看,你的视神经就会停止发送关于这堵墙的信号 (尽管你的眼球会做微小的、难以察觉的运动来防止这种“失明”) 。 ...
](https://deep-paper.org/en/paper/2501.13134/images/cover.png)
想象一下,你正驾驶着一辆自动驾驶汽车穿过浓重的迷雾。 对于作为驾驶员的你来说,目标是感知图像恢复 (Perceptual Image Restoration, PIR) 。 你希望清除视野中的雾气,看清风景、路面纹理,并以高保真度还原世界。你关心的是美感和清晰度。 ...
](https://deep-paper.org/en/paper/2412.07774/images/cover.png)
引言 在生成式 AI 飞速发展的今天,我们目睹了工具的碎片化。如果你想从头生成一张图像,可能会使用 Stable Diffusion 或 Midjourney;如果你想改变现有照片的风格,可能会寻找风格迁移适配器;如果你想将特定产品插入背景中,可能需要像 AnyDoor 这样的专门物体插入模型。 ...
](https://deep-paper.org/en/paper/2411.16781/images/cover.png)
引言 在计算机视觉和机器人技术飞速发展的版图中,理解人类的动作是至关重要的基础。无论是为了虚拟现实 (VR) 、医疗健康监测,还是创建数字替身,机器能够感知、描述并复刻人类肢体语言的能力都必不可少。 ...
](https://deep-paper.org/en/paper/2503.21761/images/cover.png)
想象一下,你用手机录制了一段繁忙街角的视频。你拍到了驶过的汽车、过马路的行人,以及耸立在后方静止的建筑物。对你来说,这只是一段视频。但在计算机视觉研究人员眼中,这是一个由 3D 几何和时间构成的复杂谜题——一个“4D”场景。 ...
](https://deep-paper.org/en/paper/file-2273/images/cover.png)
引言 想象一下你典型的早晨例行公事。你并不是一个只执行名为 make_breakfast.exe 程序的机器人。你会打开炉子煮燕麦片,在它炖煮的同时,你会转过身去研磨咖啡豆。也许你还会停下来打包午餐。你是在将来自多个不同任务的步骤交错组合成单一、连续的活动流。 ...
](https://deep-paper.org/en/paper/2501.11515/images/cover.png)
你是否尝试过拍摄夜间的城市景观?你通常会面临一个令人沮丧的选择: 要么为了明亮的霓虹灯曝光,导致建筑物变成黑色的剪影;要么为了建筑物曝光,导致灯光变成一片过曝的白色光斑。 ...
](https://deep-paper.org/en/paper/2411.10504/images/cover.png)
想象一下,你正试图利用安装在高速列车或竞速无人机上的相机来创建场景的 3D 模型。传统的相机在这里往往无能为力——由于固定的曝光时间,它们会产生巨大的运动模糊。这就是 脉冲相机 (Spike cameras) 发挥作用的地方。受生物视网膜的启发,这种传感器以高达 40,000 Hz 的频率将光线捕捉为连续的二进制脉冲流 (0 和 1) ,理论上消除了运动模糊。 ...
](https://deep-paper.org/en/paper/2505.09393/images/cover.png)
引言 几十年来,精确的 3D 人体动作捕捉 (MoCap) 局限于好莱坞工作室和高端研究实验室。它需要受控的环境、数十台摄像机,以及身着布满反光标记动作捕捉服的演员。 近年来,重点已转向“野外”动作捕捉——即在任何地方 (从客厅到徒步小径) 使用可穿戴传感器跟踪运动。最常见的解决方案涉及惯性测量单元 (IMU)——即智能手机或智能手表中用于跟踪加速度和旋转的传感器。 ...
](https://deep-paper.org/en/paper/2412.11441/images/cover.png)
隐形特洛伊木马: 详解 UIBDiffusion 与 AI 安全的未来 生成式 AI 从根本上改变了我们要创建数字内容的方式。走在这场革命最前沿的是扩散模型 (Diffusion Models, DMs) , 即 Stable Diffusion 和 DALL-E 等工具背后的引擎,它们可以根据简单的文本提示生成逼真的图像。这些模型非常强大,但它们的实力依赖于从网络上抓取的海量数据。 ...
](https://deep-paper.org/en/paper/2506.07087/images/cover.png)
引言 在自然界中,生存往往取决于消失的能力。从融入树皮的叶尾壁虎到消失在雪地中的北极兔,伪装是一种为了躲避捕食者而进化出的复杂生物机制。在计算机视觉领域,复制捕食者发现这些隐藏生物的能力被称为 伪装目标检测 (Camouflaged Object Detection, COD) 。 ...
](https://deep-paper.org/en/paper/2411.18159/images/cover.png)
Type-R: AI 终于能在生成图像中正确拼写了 如果你玩过 Stable Diffusion、DALL-E 3 或 Flux 等文生图模型,那你一定对一种特定的挫败感不陌生。你在提示词中要求生成一张写着“FUTURE”的酷炫赛博朋克海报,结果模型生成了一张令人惊叹的图片……但上面的文字却是“FUTRE”、“FUTUUE”,或者是某种看起来依稀像英语的外星象形文字。 ...
](https://deep-paper.org/en/paper/2407.21121/images/cover.png)
如果你一直关注计算机视觉和信号处理的前沿动态,你可能已经接触过 隐式神经表示 (Implicit Neural Representations, INRs) 。 与令人满意的离散像素或体素网格不同,INRs 将数据 (如图像、3D 形状或音频) 表示为连续的数学函数,通常由神经网络进行近似。 ...
](https://deep-paper.org/en/paper/2503.19904/images/cover.png)
如果你尝试过使用单图像 AI 模型逐帧处理视频,你可能对“闪烁”问题并不陌生。无论是深度估计、风格迁移还是视频着色,将图像模型应用于视频通常会导致画面抖动、不一致且混乱。地面震动,颜色随机变换,物体在这一秒和下一秒之间变形。 ...
](https://deep-paper.org/en/paper/2502.07601/images/cover.png)
想象一下你是工厂流水线上的质检员。每小时有成千上万个组件从你眼前经过。你的工作不仅仅是发现一个损坏的零件,你还得解释为什么它坏了。是划痕吗?是凹痕吗?是焊接处不整齐吗? ...
](https://deep-paper.org/en/paper/2505.00502/images/cover.png)
引言 我们正处于生成式 AI 的黄金时代。随着扩散模型的出现,我们可以仅凭一句话就创造出生动的世界。但随着技术的成熟,焦点正从单纯的生成 (从零开始创造图像) 转移到编辑 (修改现有图像) 。 ...
](https://deep-paper.org/en/paper/2411.15678/images/cover.png)
当你用智能手机拍照时,瞬间会进行大量的处理工作。传感器捕获原始信号,但在图像到达屏幕之前,图像信号处理器 (ISP) 会对数据进行压缩、调整颜色、平衡白平衡并对阴影进行色调映射。其结果是一张sRGB图像——这是为了人眼优化的。 ...