[Unlocking Generalization Power in LiDAR Point Cloud Registration 🔗](https://arxiv.org/abs/2503.10149)

少即是多——移除交叉注意力机制以解决激光雷达泛化难题

在自动驾驶和机器人技术飞速发展的世界里,传感器就是机器的眼睛。激光雷达 (LiDAR) 作为一种关键传感器脱颖而出,它能提供环境的精确 3D 地图。然而,原始的 3D 点只是一个起点。为了理解这个世界,车辆必须对这些点云进行“配准” (Registration) ——将不同时间或不同地点拍摄的扫描数据拼接在一起,以计算自身的移动并构建周围环境的地图。 ...

2025-03 · 7 分钟 · 3226 字
[Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation 🔗](https://arxiv.org/abs/2412.01027)

InstaManip:利用群组自注意力机制教 AI 通过示例编辑图像

引言: 图像编辑中语言的局限性 我们正处于文本生成图像的黄金时代。像 Midjourney、DALL-E 和 Stable Diffusion 这样的模型,让通过简单的句子构建细节丰富的世界变得异常简单。然而,从零开始生成图像与精确编辑现有图像之间,仍然存在巨大的鸿沟。 ...

2024-12 · 9 分钟 · 4097 字
[Universal Scene Graph Generation 🔗](https://arxiv.org/abs/2503.15005)

一图统万象——用通用场景图统一视觉、文本与3D

引言 想象一下,你是一个走进房间的机器人。你看到一个男人坐在沙发上。你听到有人说: “彼得正在休息。”你的深度传感器告诉你沙发是靠着墙的。 作为人类,我们会无缝地处理所有这些信息。我们不会分别为我们看到的、听到的和空间深度建立各自独立的心理模型。我们将它们整合成对场景的单一理解: 彼得坐在靠墙的沙发上。 ...

2025-03 · 7 分钟 · 3447 字
[Unified Reconstruction of Static and Dynamic Scenes from Events 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Gao_Unified_Reconstruction_of_Static_and_Dynamic_Scenes_from_Events_CVPR_2025_paper.pdf)

看见未见——URSEE 如何从动态事件相机中重建静态世界

简介 想象一下,有一台像人眼一样工作的相机。它不会一帧一帧地拍摄快照;相反,它只在发生变化时做出反应。如果你盯着一堵完全静止的墙看,你的视神经就会停止发送关于这堵墙的信号 (尽管你的眼球会做微小的、难以察觉的运动来防止这种“失明”) 。 ...

7 分钟 · 3167 字
[UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior 🔗](https://arxiv.org/abs/2501.13134)

跨越鸿沟:UniRestore 如何统一人类视觉与 AI 感知

想象一下,你正驾驶着一辆自动驾驶汽车穿过浓重的迷雾。 对于作为驾驶员的你来说,目标是感知图像恢复 (Perceptual Image Restoration, PIR) 。 你希望清除视野中的雾气,看清风景、路面纹理,并以高保真度还原世界。你关心的是美感和清晰度。 ...

2025-01 · 8 分钟 · 3699 字
[UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics 🔗](https://arxiv.org/abs/2412.07774)

UniReal:通过学习视频动态统一图像生成与编辑

引言 在生成式 AI 飞速发展的今天,我们目睹了工具的碎片化。如果你想从头生成一张图像,可能会使用 Stable Diffusion 或 Midjourney;如果你想改变现有照片的风格,可能会寻找风格迁移适配器;如果你想将特定产品插入背景中,可能需要像 AnyDoor 这样的专门物体插入模型。 ...

2024-12 · 8 分钟 · 3798 字
[UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing 🔗](https://arxiv.org/abs/2411.16781)

UniPose:利用 LLM 统一人类姿态的理解、生成与编辑

引言 在计算机视觉和机器人技术飞速发展的版图中,理解人类的动作是至关重要的基础。无论是为了虚拟现实 (VR) 、医疗健康监测,还是创建数字替身,机器能够感知、描述并复刻人类肢体语言的能力都必不可少。 ...

2024-11 · 8 分钟 · 3791 字
[Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video 🔗](https://arxiv.org/abs/2503.21761)

Uni4D 如何在无需训练的情况下从随意拍摄的视频中重建 4D 世界

想象一下,你用手机录制了一段繁忙街角的视频。你拍到了驶过的汽车、过马路的行人,以及耸立在后方静止的建筑物。对你来说,这只是一段视频。但在计算机视觉研究人员眼中,这是一个由 3D 几何和时间构成的复杂谜题——一个“4D”场景。 ...

2025-03 · 7 分钟 · 3258 字
[Understanding Multi-Task Activities from Single-Task Videos 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Shen_Understanding_Multi-Task_Activities_from_Single-Task_Videos_CVPR_2025_paper.pdf)

一边做晚饭一边煮咖啡:AI 如何从单任务演示中学会多任务处理

引言 想象一下你典型的早晨例行公事。你并不是一个只执行名为 make_breakfast.exe 程序的机器人。你会打开炉子煮燕麦片,在它炖煮的同时,你会转过身去研磨咖啡豆。也许你还会停下来打包午餐。你是在将来自多个不同任务的步骤交错组合成单一、连续的活动流。 ...

7 分钟 · 3009 字
[UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion 🔗](https://arxiv.org/abs/2501.11515)

超越 HDR:UltraFusion 如何利用生成式修复技术实现 9 档动态范围

你是否尝试过拍摄夜间的城市景观?你通常会面临一个令人沮丧的选择: 要么为了明亮的霓虹灯曝光,导致建筑物变成黑色的剪影;要么为了建筑物曝光,导致灯光变成一片过曝的白色光斑。 ...

2025-01 · 7 分钟 · 3268 字
[USP-Gaussian: Unifying Spike-based Image Reconstruction, Pose Correction and Gaussian Splatting 🔗](https://arxiv.org/abs/2411.10504)

USP-Gaussian 如何解决高速 3D 视觉中的“级联误差”问题

想象一下,你正试图利用安装在高速列车或竞速无人机上的相机来创建场景的 3D 模型。传统的相机在这里往往无能为力——由于固定的曝光时间,它们会产生巨大的运动模糊。这就是 脉冲相机 (Spike cameras) 发挥作用的地方。受生物视网膜的启发,这种传感器以高达 40,000 Hz 的频率将光线捕捉为连续的二进制脉冲流 (0 和 1) ,理论上消除了运动模糊。 ...

2024-11 · 7 分钟 · 3238 字
[UMotion: Uncertainty-driven Human Motion Estimation from Inertial and Ultra-wideband Units 🔗](https://arxiv.org/abs/2505.09393)

无摄像头的动作捕捉:UMotion 如何融合不确定性、物理学和 AI

引言 几十年来,精确的 3D 人体动作捕捉 (MoCap) 局限于好莱坞工作室和高端研究实验室。它需要受控的环境、数十台摄像机,以及身着布满反光标记动作捕捉服的演员。 近年来,重点已转向“野外”动作捕捉——即在任何地方 (从客厅到徒步小径) 使用可穿戴传感器跟踪运动。最常见的解决方案涉及惯性测量单元 (IMU)——即智能手机或智能手表中用于跟踪加速度和旋转的传感器。 ...

2025-05 · 8 分钟 · 3742 字
[UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion Models 🔗](https://arxiv.org/abs/2412.11441)

隐形特洛伊木马:详解 UIBDiffusion 与 AI 安全的未来

隐形特洛伊木马: 详解 UIBDiffusion 与 AI 安全的未来 生成式 AI 从根本上改变了我们要创建数字内容的方式。走在这场革命最前沿的是扩散模型 (Diffusion Models, DMs) , 即 Stable Diffusion 和 DALL-E 等工具背后的引擎,它们可以根据简单的文本提示生成逼真的图像。这些模型非常强大,但它们的实力依赖于从网络上抓取的海量数据。 ...

2024-12 · 7 分钟 · 3409 字
[UCOD-DPL: Unsupervised Camouflaged Object Detection via Dynamic Pseudo-label Learning 🔗](https://arxiv.org/abs/2506.07087)

破解伪装:UCOD-DPL 如何通过动态学习掌握无监督检测

引言 在自然界中,生存往往取决于消失的能力。从融入树皮的叶尾壁虎到消失在雪地中的北极兔,伪装是一种为了躲避捕食者而进化出的复杂生物机制。在计算机视觉领域,复制捕食者发现这些隐藏生物的能力被称为 伪装目标检测 (Camouflaged Object Detection, COD) 。 ...

2025-06 · 7 分钟 · 3230 字
[Type-R: Automatically Retouching Typos for Text-to-Image Generation 🔗](https://arxiv.org/abs/2411.18159)

Type-R:AI 终于能在生成图像中正确拼写了

Type-R: AI 终于能在生成图像中正确拼写了 如果你玩过 Stable Diffusion、DALL-E 3 或 Flux 等文生图模型,那你一定对一种特定的挫败感不陌生。你在提示词中要求生成一张写着“FUTURE”的酷炫赛博朋克海报,结果模型生成了一张令人惊叹的图片……但上面的文字却是“FUTRE”、“FUTUUE”,或者是某种看起来依稀像英语的外星象形文字。 ...

2024-11 · 7 分钟 · 3099 字
[Tuning the Frequencies: Robust Training for Sinusoidal Neural Networks 🔗](https://arxiv.org/abs/2407.21121)

驯服正弦波:深入解析隐式神经表示的鲁棒训练

如果你一直关注计算机视觉和信号处理的前沿动态,你可能已经接触过 隐式神经表示 (Implicit Neural Representations, INRs) 。 与令人满意的离散像素或体素网格不同,INRs 将数据 (如图像、3D 形状或音频) 表示为连续的数学函数,通常由神经网络进行近似。 ...

2024-07 · 6 分钟 · 2636 字
[Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better 🔗](https://arxiv.org/abs/2503.19904)

拒绝闪烁:Tracktention 如何利用点跟踪技术掌握视频一致性

如果你尝试过使用单图像 AI 模型逐帧处理视频,你可能对“闪烁”问题并不陌生。无论是深度估计、风格迁移还是视频着色,将图像模型应用于视频通常会导致画面抖动、不一致且混乱。地面震动,颜色随机变换,物体在这一秒和下一秒之间变形。 ...

2025-03 · 8 分钟 · 3667 字
[Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models 🔗](https://arxiv.org/abs/2502.07601)

AI 能发现缺陷吗?深入了解专业视觉助手 Anomaly-OneVision

想象一下你是工厂流水线上的质检员。每小时有成千上万个组件从你眼前经过。你的工作不仅仅是发现一个损坏的零件,你还得解释为什么它坏了。是划痕吗?是凹痕吗?是焊接处不整齐吗? ...

2025-02 · 6 分钟 · 2909 字
[Towards Scalable Human-aligned Benchmark for Text-guided Image Editing 🔗](https://arxiv.org/abs/2505.00502)

超越“看着不错”:HATIE 如何实现类人的图像编辑自动评估

引言 我们正处于生成式 AI 的黄金时代。随着扩散模型的出现,我们可以仅凭一句话就创造出生动的世界。但随着技术的成熟,焦点正从单纯的生成 (从零开始创造图像) 转移到编辑 (修改现有图像) 。 ...

2025-05 · 9 分钟 · 4085 字
[Towards RAW Object Detection in Diverse Conditions 🔗](https://arxiv.org/abs/2411.15678)

机器人为何应该“看”RAW格式:解锁极端天气下的目标检测

当你用智能手机拍照时,瞬间会进行大量的处理工作。传感器捕获原始信号,但在图像到达屏幕之前,图像信号处理器 (ISP) 会对数据进行压缩、调整颜色、平衡白平衡并对阴影进行色调映射。其结果是一张sRGB图像——这是为了人眼优化的。 ...

2024-11 · 7 分钟 · 3109 字