CVPR 2025

解决延迟难题：ALIEN 如何在任意网络延迟下预测人体动作

引言想象一下，你正在与地球另一端的朋友进行一场高风险的虚拟现实 (VR) 乒乓球比赛。你挥动控制器，期望你的虚拟化身能瞬间模仿这个动作。但问题来了: 网络连接在波动。你的挥拍数据通过广域网 (WAN) 传输，在到达游戏服务器或对手的显示设备之前，遭遇了不可预测的延迟。 ...

[AIpparel: A Multimodal Foundation Model for Digital Garments 🔗](https://arxiv.org/abs/2412.03937)

AIpparel：首个用于数字时尚设计的基础模型

时尚是人类文化内在的一部分，它既是抵御自然元素的盾牌，也是自我表达的画布。然而，时尚产业的后端——特别是缝纫版型 (sewing patterns) 的制作——仍然是一个主要依赖人工和技术的瓶颈。虽然生成式 AI 已经彻底改变了 2D 图像创作 (比如 Midjourney 或 DALL-E) ，但生成可制造的 (manufacturable) 服装完全是另一回事。 ...

[A Unified Approach to Interpreting Self-supervised Pre-training Methods for 3D Point Clouds via Interactions 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Li_A_Unified_Approach_to_Interpreting_Self-supervised_Pre-training_Methods_for_3D_CVPR_2025_paper.pdf)

3D 预训练为何有效？利用博弈论解开黑盒之谜

在飞速发展的 3D 计算机视觉领域，自监督预训练已成为黄金标准。无论你是构建自动驾驶车辆的感知系统，还是分析 3D 医学扫描，成功的秘诀通常都包括: 获取海量无标签数据集，在其上预训练一个深度神经网络 (DNN) ，然后针对你的特定任务进行微调。 ...

[4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion 🔗](https://arxiv.org/abs/2412.04462)

超越 2D：4Real-Video 如何在数秒内生成一致的 4D 世界

想象一下，你正在观看一段猫咪玩玩具的视频。在普通视频中，你只是一个被动的观察者，被限制在摄像师选择的视角中。现在，想象你可以在任何一秒暂停视频，抓住屏幕，围绕静止的猫咪旋转摄像机，从背面看那个玩具。然后，你按下播放键，视频从那个新的角度继续播放。 ...

[3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion 🔗](https://arxiv.org/abs/2409.12957)

3DTopia-XL：通过图元扩散实现高保真 3D 资产生成的未来

对高质量 3D 资产的需求正在呈爆炸式增长。从视频游戏和虚拟现实的沉浸式世界，到建筑可视化和电影制作的实际应用，对细节丰富、逼真的 3D 模型的需求比以往任何时候都高。传统上，创建这些资产是一个劳动密集型的瓶颈，需要熟练的艺术家手动雕刻几何形状、绘制纹理并调整材质属性。 ...

[3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes 🔗](https://arxiv.org/abs/2411.14974)

超越高斯：为什么 3D 光滑凸包是辐射场的未来

引言在计算机视觉这一快速发展的领域中，在计算机内部重建现实的探索在短短几年内取得了巨大的飞跃。我们从摄影测量学起步，发展到革命性的神经辐射场 (NeRF)，最近又迎来了 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS)。 ...

[Zero-Shot Monocular Scene Flow Estimation in the Wild 🔗](https://arxiv.org/abs/2501.10357)

驯服荒野——零样本单目场景流估计的新标准

引言想象一下你正在观看一段标准的视频片段。这是一个 2D 的图像序列。你的大脑在处理这个单目 (单眼) 视角时，瞬间就能理解两件事: 场景的 3D 结构 (什么离得近，什么离得远) 以及物体的运动 (物体在 3D 空间中是如何移动的) 。 ...

[VGGT: Visual Geometry Grounded Transformer 🔗](https://arxiv.org/abs/2503.11651)

一次前向传递搞定一切：深入解析 VGGT 及其即时 3D 重建能力

简介几十年来，计算机视觉领域一直在追寻一个特定的“圣杯”: 将散落在场景各处的几张扁平 2D 照片，瞬间转化为连贯的 3D 模型。传统上，这个过程——被称为运动恢复结构 (Structure-from-Motion, SfM) ——是一个缓慢且繁琐的数学计算过程。它涉及检测特征、在图像间进行匹配、求解复杂的几何方程以找到相机位置，然后运行像光束法平差 (Bundle Adjustment) 这样的迭代优化算法来微调一切。虽然这种方法有效，但它的计算成本高昂，而且往往很脆弱。 ...

[UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming 🔗](https://arxiv.org/abs/2307.16375)

打破分布式瓶颈：UniAP 如何统一并行训练策略

如果你曾经尝试过训练像 Llama 这样的大型语言模型 (LLM) 或像 ViT 这样的视觉巨型模型，你就知道其中的艰难: 单块 GPU 根本无法胜任。为了训练这些庞然大物，我们需要跨 GPU 集群进行分布式学习。 ...

[The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition 🔗](https://arxiv.org/abs/2502.21201)

AI 能透过树木看见黑猩猩吗？缓解野生动物监测中的背景偏差

引言想象一下，你正在训练一个计算机视觉模型来识别正在爬树的黑猩猩。你给它输入了数千小时的视频素材。模型达到了很高的准确率，你对此感到非常兴奋。但是，当你用一段没有黑猩猩的空旷森林视频测试它时，模型却自信地预测: “正在爬树”。 ...

[TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion 🔗](https://arxiv.org/abs/2504.11773)

TacoDepth：突破雷达-相机深度估计的速度极限

在自动驾驶和机器人技术飞速发展的世界中，感知即一切。车辆不仅需要知道周围有什么，还需要确切地知道它们有多远。虽然激光雷达 (LiDAR) 传感器能提供出色的深度数据，但其价格昂贵。一种更具成本效益的替代方案是融合来自相机 (丰富的视觉细节) 和毫米波雷达 (可靠的深度和速度信息) 的数据。 ...

[Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models 🔗](https://arxiv.org/abs/2501.01423)

打破权衡：如何通过将 VAE 与基础模型对齐来大幅增强扩散模型训练

引言在生成式 AI 飞速发展的今天，像 Stable Diffusion 和 Sora 这样的潜在扩散模型 (Latent Diffusion Models, LDMs) 已成为创建高保真图像和视频的黄金标准。这些模型的魔力在于它们不直接处理像素，而是在一个压缩的“潜在空间 (latent space) ”中运行。这种压缩由一个称为视觉分词器 (Visual Tokenizer) 的组件处理，通常是一个变分自编码器 (VAE) 。 ...

[Navigation World Models 🔗](https://arxiv.org/abs/2412.03572)

机器人会梦见走路吗？深入解读导航世界模型

引言你如何在拥挤的房间里找到出口？你可能不会只盯着自己的脚，等到障碍物碰到脚趾时才做出反应。相反，你会进行心理模拟。你会想象一条路径，预测某人可能会挡住你的路，并在迈出一步之前调整你的轨迹。你拥有一个内部世界模型，使你能够模拟未来。 ...

[Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models 🔗](https://arxiv.org/abs/2409.17146)

打破蒸馏的循环：Molmo 如何从零构建最先进的视觉语言模型

引言在人工智能快速发展的格局中，视觉语言模型 (Vision-Language Models, VLMs) 已经变得无处不在。像 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 这样的模型能够以惊人的准确度描述复杂的图像、解读图表并回答关于视觉世界的问题。然而，这些专有模型就像是“围墙花园”。我们可以通过 API 与它们交互，但我们并不确切知道它们是如何构建的，也不清楚它们是使用什么数据进行训练的。 ...

[MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos 🔗](https://arxiv.org/abs/2412.04463)

驯服混乱：MegaSaM 如何解决随手拍动态视频的 3D 重建难题

想象一下，你拿着智能手机录制朋友在沙滩上奔跑或赛车在赛道上飞驰的视频。对你来说，场景很清晰。但对于试图以 3D 形式重建该场景的计算机来说，这是一场噩梦。 ...

[FoundationStereo: Zero-Shot Stereo Matching 🔗](https://arxiv.org/abs/2501.09898)

FoundationStereo：将零样本泛化引入立体深度估计

FoundationStereo: 将零样本泛化引入立体深度估计在计算机视觉的快速演变中，我们见证了“基础模型” (Foundation Models) 彻底改变了机器理解图像的方式。像 Segment Anything (SAM) 或 DepthAnything 这样的模型展示了令人难以置信的泛化能力: 它们可以在从未见过的图像上执行任务，而无需特定的微调。 ...

[Descriptor-In-Pixel : Point-Feature Tracking for Pixel Processor Arrays 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Bose_Descriptor-In-Pixel__Point-Feature_Tracking_For_Pixel_Processor_Arrays_CVPR_2025_paper.pdf)

智能传感器：像素内计算如何实现 3000 FPS 特征追踪

智能传感器: 像素内计算如何实现 3000 FPS 特征追踪计算机视觉面临着一个瓶颈问题。在传统的设置中——无论是智能手机、VR 头显还是无人机——摄像头传感器仅仅充当一个“傻瓜式”的容器。它捕获数百万个光子，将其转换为数字值，然后将海量的原始数据流传输到外部处理器 (CPU 或 GPU) 以分析它看到了什么。 ...

[DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models 🔗](https://arxiv.org/abs/2503.01774)

清理乱局：单步扩散模型如何彻底改变 3D 重建

引言我们正见证着神经渲染的黄金时代。神经辐射场 (NeRF) 和 3D 高斯泼溅 (3DGS) 等技术让我们能够将少量 2D 照片转化为身临其境、可漫游的 3D 场景。其结果往往令人叹为观止——直到你偏离原始相机路径太远。 ...

[Convex Relaxation for Robust Vanishing Point Estimation in Manhattan World 🔗](https://arxiv.org/abs/2505.04788)

通过松弛法求解——一种全新的灭点估计全局方法

如果你沿着长直的走廊看去，或者从街道上凝视一座摩天大楼，你会直观地理解透视现象。现实世界中的平行线——比如天花板的边缘或建筑物的侧面——在远处似乎汇聚于一点。在计算机视觉中，这些点被称为灭点 (Vanishing Points, VPs) 。 ...

[3D Student Splatting and Scooping 🔗](https://arxiv.org/abs/2503.10148)

超越高斯：Student-t 分布与负密度如何革新神经渲染

引言在计算机图形学和计算机视觉飞速发展的世界中，很少有技术能像 3D Gaussian Splatting (3DGS，3D 高斯溅射) 最近这样引起如此大的轰动。它为神经辐射场 (NeRFs) 提供了一个绝佳的替代方案，通过将场景表示为数百万个 3D 高斯椭球，实现了复杂场景的实时渲染。它速度快、质量高，且具有显式表达的特性。 ...