CVPR 2025

[Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity 🔗](https://arxiv.org/abs/2412.06171)

这很简单，亲爱的华生：Holmes-VAU 如何像侦探一样解决视频异常难题

引言想象一下，你是一名侦探，正在查看繁忙城市街道的闭路电视录像。几个小时单调的交通流逝而过: 汽车在红灯前停下，行人过马路，雨点落下。突然，有那么三秒钟，一辆车猛烈地转弯，撞上了一辆公交车，然后疾驰而去。 ...

[High-fidelity 3D Object Generation from Single Image with RGBN-Volume Gaussian Reconstruction Model 🔗](https://arxiv.org/abs/2504.01512)

从平面到立体：GS-RGBN 如何掌握单图 3D 重建

简介计算机视觉领域中最引人入胜的挑战之一就是 3D 生成的“圣杯”: 拍摄一张单一的、平面的物体照片，然后瞬间重建出一个高保真、从各个角度看都很完美的 3D 模型。想象一下，拍一张桌子上玩具的照片，然后立即将其导入视频游戏或 VR 环境中。 ...

[High-Fidelity Lightweight Mesh Reconstruction from Point Clouds 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Zhang_High-Fidelity_Lightweight_Mesh_Reconstruction_from_Point_Clouds_CVPR_2025_paper.pdf)

智能网格生成——如何从点云重建高保真轻量级 3D 模型

引言在 3D 计算机视觉和图形学领域，从点云重建表面是一项基础任务。无论你是为 AR 应用扫描房间，还是为视频游戏创建资产，目标通常都是一致的: 将一堆不连贯的点转化为一个水密 (watertight) 、平滑且细节丰富的 3D 网格。 ...

[Hardware-Rasterized Ray-Based Gaussian Splatting 🔗](https://arxiv.org/abs/2503.18682)

高帧率下的高保真度 —— 掌握硬件光栅化的基于射线的高斯泼溅

引言在 3D 重建和渲染的快速发展世界中，我们正目睹着两个关键因素之间的拉锯战: 速度与质量。一方面，我们有 3D 高斯泼溅 (3DGS) ，它以利用光栅化进行实时渲染的能力席卷了全球。另一方面，我们有基于射线的高斯泼溅 (RayGS) 等高保真方法，它们提供了卓越的视觉质量——尤其是在复杂的几何结构和视点相关效果方面——但受限于沉重的计算负担，使其难以在实时应用中运行，特别是在虚拟现实 (VR) 中。 ...

[HaWoR: World-Space Hand Motion Reconstruction from Egocentric Videos 🔗](https://arxiv.org/abs/2501.02973)

解锁世界空间手部运动：HaWoR 如何解决以自我为中心的 3D 重建

想象一下你戴着 VR 头显或 AR 眼镜。你伸出手去抓一个虚拟的咖啡杯。为了让体验感觉真实，系统需要确切知道你的手在哪里——不仅仅是在摄像头视野中，而是在真实的 3D 房间里。 ...

[HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos 🔗](https://arxiv.org/abs/2411.19167)

超越单视角：深入了解 HOT3D，以自我为中心的手物交互新基准

引言人类手部的灵巧性是我们物种的一个决定性特征。无论是组装家具、编写代码，还是搅拌鸡蛋，我们都在不断地与物理世界互动以操纵物体。对于人工智能而言，理解这些交互是具身感知 (embodied perception) 的圣杯。如果 AI 能够真正理解手和物体如何在 3D 空间中协同移动，我们将解锁无限可能——从向机器人传授操作技能，到创建能将任何表面变成虚拟键盘的增强现实 (AR) 界面。 ...

[HELVIPAD: A Real-World Dataset for Omnidirectional Stereo Depth Estimation 🔗](https://arxiv.org/abs/2411.18335)

360° 视觉：利用 HELVIPAD 解决真实场景下的深度估计问题

引言想象你是一个受命在拥挤的大学校园中导航的移动机器人。为了安全移动，你需要确切知道每个物体有多远——不仅仅是正前方的物体，还有从侧面靠近的行人、身后的柱子以及环绕你的墙壁。你需要 360 度的空间感知能力。 ...

[H-MoRe: Learning Human-centric Motion Representation for Action Analysis 🔗](https://arxiv.org/abs/2504.10676)

超越光流：H-MoRe 如何彻底改变人体运动分析

引言在计算机视觉领域，理解人类运动是一项基石任务。无论是用于医疗康复系统、安全监控，还是生成逼真的视频动画，计算机不仅需要知道人在哪里，还需要知道他们如何移动。 ...

[GroundingFace: Fine-grained Face Understanding via Pixel Grounding Multimodal Large Language Model 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Han_GroundingFace_Fine-grained_Face_Understanding_via_Pixel_Grounding_Multimodal_Large_Language_CVPR_2025_paper.pdf)

超越自拍：GroundingFace 如何教 AI 识别微表情与妆容

在计算机视觉飞速发展的今天，多模态大语言模型 (MLLMs) 已经实现了过去被认为是不可能的事情: 它们能够观察一张图片，并以近乎人类的流畅度进行描述。像 GPT-4V 或 LLaVA 这样的模型可以识别照片中的人，告诉你他们在微笑，甚至描述他们的衣着。 ...

[Graph Neural Network Combining Event Stream and Periodic Aggregation for Low-Latency Event-based Vision 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Dampfhoffer_Graph_Neural_Network_Combining_Event_Stream_and_Periodic_Aggregation_for_CVPR_2025_paper.pdf)

打破速度极限：混合事件图如何实现微秒级光流

引言想象一下你在高速驾驶汽车。你依靠眼睛瞬间检测运动。现在，想象一下如果你的大脑只能以每隔几毫秒拍摄一次的快照形式来处理视觉信息。在快照之间那极短的盲区时间内，如果突然出现障碍物，你可能无法及时做出反应。 ...

[Gradient-Guided Annealing for Domain Generalization 🔗](https://arxiv.org/abs/2502.20162)

校准指南针：梯度引导退火如何解开域泛化难题

引言想象一下，你正在训练一个机器人识别奶牛。你给它看了成千上万张奶牛站在草地上的照片。机器人在训练中得了满分。然后，你把机器人带到一片白雪皑皑的山脉，给它看一头奶牛，结果它一脸茫然，把这个目标识别成了“岩石”。 ...

[Good, Cheap, and Fast: Overfitted Image Compression with Wasserstein Distortion 🔗](https://arxiv.org/abs/2412.00505)

感知胜于像素：用 Wasserstein 失真解决图像压缩的三角难题

工程界有一句令人无奈但又无比贴切的项目管理谚语: “好、快、省。只能三选二。” 在图像压缩领域，这个“不可能三角”同样主宰着技术的极限。你可以拥有高视觉保真度 (好) 和低文件大小 (省) ，但这通常需要计算昂贵、速度缓慢的 AI 模型来解码。反之，你可以拥有一个快如闪电且生成极小文件的编解码器 (如低质量的标准 JPEG) ，但结果往往充满块状伪影、模糊不清，且带有明显的“数码味”。 ...

[Goku: Flow Based Video Generative Foundation Models 🔗](https://arxiv.org/abs/2502.04896)

深入解析 Goku：Rectified Flow 与联合训练如何彻底变革视频生成

引言在过去几年中，生成式视频领域的竞赛一直是人工智能领域最令人兴奋的发展之一。虽然扩散模型已成为生成惊艳静态图像的标准，但将其应用于视频——增加了时间维度——带来了巨大的计算瓶颈和稳定性问题。 ...

[Glossy Object Reconstruction with Cost-effective Polarized Acquisition 🔗](https://arxiv.org/abs/2504.07025)

低成本三维扫描高光物体：偏振与 AI 如何解决镜面反射难题

简介如果你曾经尝试使用摄影测量法进行 3D 重建，你很可能遇到过“高光物体”的噩梦。当你对着一个陶瓷花瓶或金属玩具拍了一系列照片，将其输入软件后，结果往往是一个融化般的、充满噪点的团块。 ...

[GigaHands: A Massive Annotated Dataset of Bimanual Hand Activities 🔗](https://arxiv.org/abs/2412.04244)

GigaHands：利用海量规模数据弥合 AI 对手部理解的差距

简介人类的双手是进化的杰作。无论是穿针引线、敲击键盘写博客，还是揉面团，你的双手都在演绎着复杂的运动交响曲。然而，对于人工智能和机器人技术而言，复制这种灵巧性是该领域的“重大挑战”之一。 ...

[Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis 🔗](https://arxiv.org/abs/2412.02168)

超越提示词：教会 AI 摄影物理学

引言我们正处于 AI 图像生成的黄金时代。像 Stable Diffusion 和 FLUX 这样的工具允许我们仅用一句话就能变幻出细节丰富的世界。然而，尽管它们拥有魔力，这些模型在一项对专业摄影至关重要的任务上往往表现失败: 理解物理相机。 ...

[Generative Omnimatte: Learning to Decompose Video into Layers 🔗](https://arxiv.org/abs/2411.16683)

解构现实：生成式全能遮罩（Generative Omnimatte）如何利用扩散模型分解视频

引言视频编辑与图像编辑有着本质的区别，这源于一个令人沮丧的原因: 视频中的像素是扁平的。当你观看电影时，你看到的是演员、阴影和背景，但计算机看到的只是一个不断变化的颜色网格。如果你想从场景中移除一个人，你不能仅仅点击“删除”。你必需一帧接一帧地填补他们身后的背景。如果你想把一辆车稍微向左移动，你必须幻想出它下方原本的路面是什么样子的。 ...

[Generative Multiview Relighting for 3D Reconstruction under Extreme Illumination Variation 🔗](https://arxiv.org/abs/2412.15211)

如何将光照不一致的照片转化为完美的 3D 模型：一种生成式重光照方法

引言在 3D 计算机视觉领域，最持久的挑战之一就是“静态世界”的假设。传统的 3D 重建技术，如摄影测量法或神经辐射场 (NeRFs) ，通常假设在相机移动的过程中，场景本身是冻结不变的。 ...

[Generative Modeling of Class Probability for Multi-Modal Representation Learning 🔗](https://arxiv.org/abs/2503.17417)

保持冷静 (CALM) - 利用类别锚点和生成式建模弥合视频与文本的鸿沟

简介在不断发展的人工智能世界中，最令人着迷的挑战之一就是教会机器通过多种感官 (特别是视觉和语言) 同时理解世界。这就是多模态表征学习 (Multi-Modal Representation Learning) 的领域。我们希望模型能够观看视频并理解其文本描述，反之亦然。 ...

[Generative Densification: Learning to Densify Gaussians for High-Fidelity Generalizable 3D Reconstruction 🔗](https://arxiv.org/abs/2412.06234)

生成式致密化：如何为前馈 3D 模型添加细节

如果你最近关注过 3D 计算机视觉领域的爆发式发展，那你很可能对 3D 高斯泼溅 (3D Gaussian Splatting, 3D-GS) 不会感到陌生。它通过将场景表示为 3D 高斯体 (椭球体) 云，彻底改变了该领域，实现了实时渲染和高质量重建。 ...