CVPR 2025

[Unlocking Generalization Power in LiDAR Point Cloud Registration 🔗](https://arxiv.org/abs/2503.10149)

少即是多——移除交叉注意力机制以解决激光雷达泛化难题

在自动驾驶和机器人技术飞速发展的世界里，传感器就是机器的眼睛。激光雷达 (LiDAR) 作为一种关键传感器脱颖而出，它能提供环境的精确 3D 地图。然而，原始的 3D 点只是一个起点。为了理解这个世界，车辆必须对这些点云进行“配准” (Registration) ——将不同时间或不同地点拍摄的扫描数据拼接在一起，以计算自身的移动并构建周围环境的地图。 ...

[Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation 🔗](https://arxiv.org/abs/2412.01027)

InstaManip：利用群组自注意力机制教 AI 通过示例编辑图像

引言: 图像编辑中语言的局限性我们正处于文本生成图像的黄金时代。像 Midjourney、DALL-E 和 Stable Diffusion 这样的模型，让通过简单的句子构建细节丰富的世界变得异常简单。然而，从零开始生成图像与精确编辑现有图像之间，仍然存在巨大的鸿沟。 ...

[Universal Scene Graph Generation 🔗](https://arxiv.org/abs/2503.15005)

一图统万象——用通用场景图统一视觉、文本与3D

引言想象一下，你是一个走进房间的机器人。你看到一个男人坐在沙发上。你听到有人说: “彼得正在休息。”你的深度传感器告诉你沙发是靠着墙的。作为人类，我们会无缝地处理所有这些信息。我们不会分别为我们看到的、听到的和空间深度建立各自独立的心理模型。我们将它们整合成对场景的单一理解: 彼得坐在靠墙的沙发上。 ...

[Unified Reconstruction of Static and Dynamic Scenes from Events 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Gao_Unified_Reconstruction_of_Static_and_Dynamic_Scenes_from_Events_CVPR_2025_paper.pdf)

看见未见——URSEE 如何从动态事件相机中重建静态世界

简介想象一下，有一台像人眼一样工作的相机。它不会一帧一帧地拍摄快照；相反，它只在发生变化时做出反应。如果你盯着一堵完全静止的墙看，你的视神经就会停止发送关于这堵墙的信号 (尽管你的眼球会做微小的、难以察觉的运动来防止这种“失明”) 。 ...

[UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior 🔗](https://arxiv.org/abs/2501.13134)

跨越鸿沟：UniRestore 如何统一人类视觉与 AI 感知

想象一下，你正驾驶着一辆自动驾驶汽车穿过浓重的迷雾。对于作为驾驶员的你来说，目标是感知图像恢复 (Perceptual Image Restoration, PIR) 。你希望清除视野中的雾气，看清风景、路面纹理，并以高保真度还原世界。你关心的是美感和清晰度。 ...

[UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics 🔗](https://arxiv.org/abs/2412.07774)

UniReal：通过学习视频动态统一图像生成与编辑

引言在生成式 AI 飞速发展的今天，我们目睹了工具的碎片化。如果你想从头生成一张图像，可能会使用 Stable Diffusion 或 Midjourney；如果你想改变现有照片的风格，可能会寻找风格迁移适配器；如果你想将特定产品插入背景中，可能需要像 AnyDoor 这样的专门物体插入模型。 ...

[UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing 🔗](https://arxiv.org/abs/2411.16781)

UniPose：利用 LLM 统一人类姿态的理解、生成与编辑

引言在计算机视觉和机器人技术飞速发展的版图中，理解人类的动作是至关重要的基础。无论是为了虚拟现实 (VR) 、医疗健康监测，还是创建数字替身，机器能够感知、描述并复刻人类肢体语言的能力都必不可少。 ...

[Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video 🔗](https://arxiv.org/abs/2503.21761)

Uni4D 如何在无需训练的情况下从随意拍摄的视频中重建 4D 世界

想象一下，你用手机录制了一段繁忙街角的视频。你拍到了驶过的汽车、过马路的行人，以及耸立在后方静止的建筑物。对你来说，这只是一段视频。但在计算机视觉研究人员眼中，这是一个由 3D 几何和时间构成的复杂谜题——一个“4D”场景。 ...

[Understanding Multi-Task Activities from Single-Task Videos 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Shen_Understanding_Multi-Task_Activities_from_Single-Task_Videos_CVPR_2025_paper.pdf)

一边做晚饭一边煮咖啡：AI 如何从单任务演示中学会多任务处理

引言想象一下你典型的早晨例行公事。你并不是一个只执行名为 make_breakfast.exe 程序的机器人。你会打开炉子煮燕麦片，在它炖煮的同时，你会转过身去研磨咖啡豆。也许你还会停下来打包午餐。你是在将来自多个不同任务的步骤交错组合成单一、连续的活动流。 ...

[UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion 🔗](https://arxiv.org/abs/2501.11515)

超越 HDR：UltraFusion 如何利用生成式修复技术实现 9 档动态范围

你是否尝试过拍摄夜间的城市景观？你通常会面临一个令人沮丧的选择: 要么为了明亮的霓虹灯曝光，导致建筑物变成黑色的剪影；要么为了建筑物曝光，导致灯光变成一片过曝的白色光斑。 ...

[USP-Gaussian: Unifying Spike-based Image Reconstruction, Pose Correction and Gaussian Splatting 🔗](https://arxiv.org/abs/2411.10504)

USP-Gaussian 如何解决高速 3D 视觉中的“级联误差”问题

想象一下，你正试图利用安装在高速列车或竞速无人机上的相机来创建场景的 3D 模型。传统的相机在这里往往无能为力——由于固定的曝光时间，它们会产生巨大的运动模糊。这就是脉冲相机 (Spike cameras) 发挥作用的地方。受生物视网膜的启发，这种传感器以高达 40,000 Hz 的频率将光线捕捉为连续的二进制脉冲流 (0 和 1) ，理论上消除了运动模糊。 ...

[UMotion: Uncertainty-driven Human Motion Estimation from Inertial and Ultra-wideband Units 🔗](https://arxiv.org/abs/2505.09393)

无摄像头的动作捕捉：UMotion 如何融合不确定性、物理学和 AI

引言几十年来，精确的 3D 人体动作捕捉 (MoCap) 局限于好莱坞工作室和高端研究实验室。它需要受控的环境、数十台摄像机，以及身着布满反光标记动作捕捉服的演员。近年来，重点已转向“野外”动作捕捉——即在任何地方 (从客厅到徒步小径) 使用可穿戴传感器跟踪运动。最常见的解决方案涉及惯性测量单元 (IMU)——即智能手机或智能手表中用于跟踪加速度和旋转的传感器。 ...

[UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion Models 🔗](https://arxiv.org/abs/2412.11441)

隐形特洛伊木马：详解 UIBDiffusion 与 AI 安全的未来

隐形特洛伊木马: 详解 UIBDiffusion 与 AI 安全的未来生成式 AI 从根本上改变了我们要创建数字内容的方式。走在这场革命最前沿的是扩散模型 (Diffusion Models, DMs) , 即 Stable Diffusion 和 DALL-E 等工具背后的引擎，它们可以根据简单的文本提示生成逼真的图像。这些模型非常强大，但它们的实力依赖于从网络上抓取的海量数据。 ...

[UCOD-DPL: Unsupervised Camouflaged Object Detection via Dynamic Pseudo-label Learning 🔗](https://arxiv.org/abs/2506.07087)

破解伪装：UCOD-DPL 如何通过动态学习掌握无监督检测

引言在自然界中，生存往往取决于消失的能力。从融入树皮的叶尾壁虎到消失在雪地中的北极兔，伪装是一种为了躲避捕食者而进化出的复杂生物机制。在计算机视觉领域，复制捕食者发现这些隐藏生物的能力被称为伪装目标检测 (Camouflaged Object Detection, COD) 。 ...

[Type-R: Automatically Retouching Typos for Text-to-Image Generation 🔗](https://arxiv.org/abs/2411.18159)

Type-R：AI 终于能在生成图像中正确拼写了

Type-R: AI 终于能在生成图像中正确拼写了如果你玩过 Stable Diffusion、DALL-E 3 或 Flux 等文生图模型，那你一定对一种特定的挫败感不陌生。你在提示词中要求生成一张写着“FUTURE”的酷炫赛博朋克海报，结果模型生成了一张令人惊叹的图片……但上面的文字却是“FUTRE”、“FUTUUE”，或者是某种看起来依稀像英语的外星象形文字。 ...

[Tuning the Frequencies: Robust Training for Sinusoidal Neural Networks 🔗](https://arxiv.org/abs/2407.21121)

驯服正弦波：深入解析隐式神经表示的鲁棒训练

如果你一直关注计算机视觉和信号处理的前沿动态，你可能已经接触过隐式神经表示 (Implicit Neural Representations, INRs) 。与令人满意的离散像素或体素网格不同，INRs 将数据 (如图像、3D 形状或音频) 表示为连续的数学函数，通常由神经网络进行近似。 ...

[Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better 🔗](https://arxiv.org/abs/2503.19904)

拒绝闪烁：Tracktention 如何利用点跟踪技术掌握视频一致性

如果你尝试过使用单图像 AI 模型逐帧处理视频，你可能对“闪烁”问题并不陌生。无论是深度估计、风格迁移还是视频着色，将图像模型应用于视频通常会导致画面抖动、不一致且混乱。地面震动，颜色随机变换，物体在这一秒和下一秒之间变形。 ...

[Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models 🔗](https://arxiv.org/abs/2502.07601)

AI 能发现缺陷吗？深入了解专业视觉助手 Anomaly-OneVision

想象一下你是工厂流水线上的质检员。每小时有成千上万个组件从你眼前经过。你的工作不仅仅是发现一个损坏的零件，你还得解释为什么它坏了。是划痕吗？是凹痕吗？是焊接处不整齐吗？ ...

[Towards Scalable Human-aligned Benchmark for Text-guided Image Editing 🔗](https://arxiv.org/abs/2505.00502)

超越“看着不错”：HATIE 如何实现类人的图像编辑自动评估

引言我们正处于生成式 AI 的黄金时代。随着扩散模型的出现，我们可以仅凭一句话就创造出生动的世界。但随着技术的成熟，焦点正从单纯的生成 (从零开始创造图像) 转移到编辑 (修改现有图像) 。 ...

[Towards RAW Object Detection in Diverse Conditions 🔗](https://arxiv.org/abs/2411.15678)

机器人为何应该“看”RAW格式：解锁极端天气下的目标检测

当你用智能手机拍照时，瞬间会进行大量的处理工作。传感器捕获原始信号，但在图像到达屏幕之前，图像信号处理器 (ISP) 会对数据进行压缩、调整颜色、平衡白平衡并对阴影进行色调映射。其结果是一张sRGB图像——这是为了人眼优化的。 ...