CVPR 2025

[MesgGen: Generating PBR Textured Mesh with Render-Enhanced Auto-Encoder and Generative Data Augmentation 🔗](https://arxiv.org/abs/2505.04656)

MeshGen：高保真 3D 网格与 PBR 纹理生成的新标准

引言弥合 2D 图像与 3D 内容创作之间鸿沟的竞赛正在飞速发展。我们已经见证了扩散模型在凭空生成图像方面的巨大飞跃，自然而然地，研究人员正在将这些原理应用于第三维度。然而，从单张图像生成高质量、可用于生产环境的 3D 资产仍然是一个巨大的挑战。 ...

[Matrix3D: Large Photogrammetry Model All-in-One 🔗](https://arxiv.org/abs/2502.07685)

Matrix3D：彻底改变摄影测量的一体化生成模型

引言几十年来，计算机视觉领域一直在追逐一个特定的梦想: 将几张扁平的 2D 照片瞬间转化为完美、可漫游的 3D 世界。这一过程被称为摄影测量 (Photogrammetry) , 它是现代 3D 内容创作、测绘和特效的基石。然而，传统的 3D 重建之路颇为坎坷。它通常涉及一个由不同算法组成的碎片化流水线——一个用来计算摄像机的朝向，另一个用来估计深度，还有一个用来将所有内容拼接在一起。 ...

[Material Anything: Generating Materials for Any 3D Object via Diffusion 🔗](https://arxiv.org/abs/2411.15138)

Material Anything：自动化 3D 材质生成的新标准

在计算机图形学的世界里，创建 3D 模型只是成功了一半。形状——或者说几何体 (geometry) ——赋予了物体形态，但材质赋予了它灵魂。物体是闪亮的黄金、暗淡的木头，还是生锈的铁？光线如何在它的划痕上反射？ ...

[ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping 🔗](https://arxiv.org/abs/2412.16212)

解密无形之手：ManiVideo 如何攻克视频生成中的 3D 遮挡难题

解密无形之手: ManiVideo 如何攻克视频生成中的 3D 遮挡难题如果你试过画手，你应该知道这有多难。仅仅是把比例画对就已经很费劲了，但当手指开始卷曲、重叠并抓取物体时，真正的噩梦才刚刚开始。突然间，手的一部分消失在物体后面，或者被其他手指挡住了。 ...

[MangaNinja: Line Art Colorization with Precise Reference Following 🔗](https://arxiv.org/abs/2501.08332)

赋予草图生命：MangaNinja 如何掌握线稿上色

将黑白草图转变为全彩角色是动画和漫画制作中最耗时的步骤之一。几十年来，艺术家们一直手工填充颜色，确保角色的头发、眼睛和服装在数千帧画面中保持一致。虽然自动化工具试图加快这一过程，但它们往往在面对动画的一个简单现实时受阻: 角色是会动的。 ...

[MammAlps: A multi-view video behavior monitoring dataset of wild mammals in the Swiss Alps 🔗](https://arxiv.org/abs/2503.18223)

解码荒野：多模态人工智能如何彻底变革瑞士阿尔卑斯山的野生动物监测

解码荒野: 多模态人工智能如何彻底变革瑞士阿尔卑斯山的野生动物监测想象一下，试图记录难以捉摸的山区生物——马鹿、狼或雪兔——的日常生活，却从未踏足森林半步。几十年来，生态学家一直依赖红外相机陷阱 (camera traps) 作为他们在野外的眼睛。这些动作激活的传感器捕捉了数百万张图像和视频，为生物多样性提供了前所未有的视角。 ...

[MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking 🔗](https://arxiv.org/abs/2411.15459)

Mamba 能击败 Transformer 吗？深入解读视觉语言跟踪模型 MambaVLT

引言想象一下，你试图在一个拥挤的视频画面中跟踪一位朋友。有时你知道他们长什么样 (视觉参考) ，有时你只知道一段描述，比如“戴红帽子的那个人”。再想象一下视频很长。你的朋友可能会变换姿势，走到树后，或者摘掉帽子。为了有效地跟踪他们，你需要记忆。你需要记住他们的历史轨迹，以预测他们现在的位置。 ...

[Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation 🔗](https://arxiv.org/abs/2504.03193)

填补鸿沟：Mamba 如何融合视觉与语言模型以实现鲁棒的语义分割

想象一下，完全在视频游戏《侠盗猎车手5》 (Grand Theft Auto V) 中训练自动驾驶汽车算法。游戏中的道路看起来很逼真，光照完美，天气也是受控的。现在，把同一辆车投放到伦敦雨夜的街道上。它会撞车吗？ ...

[Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters 🔗](https://arxiv.org/abs/2411.18197)

从雕像到演员：'Make-It-Animatable' 如何在一秒内完成角色绑定

在视频游戏、VR 和元宇宙飞速发展的世界中，3D 内容创作正在蓬勃兴起。我们拥有令人难以置信的工具，可以从文本或图像生成静态 3D 模型，从而产生数以百万计的数字资产。然而，一个巨大的瓶颈依然存在: 运动。 ...

[MUSt3R: Multi-view Network for Stereo 3D Reconstruction 🔗](https://arxiv.org/abs/2503.01661)

打破成对限制：MUSt3R 如何将 3D 重建扩展至任意视角

想象一下，将一个装满随机照片的文件夹——这些照片是用不同的相机、从不同的角度拍摄的，没有任何元数据——丢进一个系统，然后在这个系统的另一端得到一个完美的、密集的 3D 模型。这就是几何计算机视觉的“圣杯”: 无约束运动恢复结构 (SfM)。 ...

[MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving 🔗](https://arxiv.org/abs/2504.00379)

弥合差距：MPDrive 如何教会自动驾驶汽车这一“空间语言”

简介想象一下你正开车行驶在繁忙的高速公路上。你看到一辆车从右侧汇入，前方一辆卡车正在刹车，还有一个行人在路口等待。你的大脑瞬间会在三维空间中映射出这些物体，为它们分配重要性，并制定计划: “为卡车减速，留意汇入的车辆。”你不会去思考原始的 GPS 坐标或像素值，而是通过物体及其相互关系来思考。 ...

[MLLM-as-a-Judge for Image Safety without Human Labeling 🔗](https://arxiv.org/abs/2501.00192)

AI 能自我审查吗？构建无需人类标签的零样本图像安全裁判

简介在人工智能生成内容 (AIGC) 时代，在线创建和分享的视觉媒体数量呈现爆炸式增长。从社交媒体信息流到生成艺术平台，图像的流动无穷无尽。但这种创造力也伴随着巨大的风险: 从血腥暴力到色情内容，有害内容的泛滥成灾。 ...

[MITracker: Multi-View Integration for Visual Object Tracking 🔗](https://arxiv.org/abs/2502.20111)

透视墙壁：MITracker 如何利用多视角融合解决遮挡问题

想象一下你在看一场足球比赛。如果一名球员跑到了裁判身后，你不会惊慌失措地认为这名球员从世界上消失了。你的大脑会利用上下文、运动轨迹，或者 (如果你在看多机位转播) 利用不同角度的视野来准确预测该球员会从哪里出现。 ...

[MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views 🔗](https://arxiv.org/abs/2412.06767)

MAtCha Gaussians 如何仅用几张图像解决 3D 重建问题

计算机视觉的梦想很简单，通过极其困难: 只需拍摄几张物体或场景的照片，就能瞬间生成完美、逼真的 3D 模型。近年来，我们见证了“神经渲染”技术的爆炸式增长。诸如神经辐射场 (NeRF) 和 3D 高斯溅射 (3D Gaussian Splatting, 3DGS) 等方法彻底改变了我们合成新视角的能力。它们能够利用一组图像，让你以惊人的清晰度从新的角度观察场景。然而，这里有个陷阱。虽然这些方法能产生美丽的图像，但它们生成的底层 3D 几何结构往往杂乱、嘈杂或模糊。它们的设计初衷是欺骗眼睛，而不是构建坚实的网格。 ...

[MATCHA: Towards Matching Anything 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Xue_MATCHA_Towards_Matching_Anything_CVPR_2025_paper.pdf)

一个特征统御所有：深入理解 MATCHA 统一图像对应模型

引言 “在计算机视觉中，只有一个问题: 对应，对应，还是对应。” Takeo Kanade 的这句名言揭示了机器“看”世界的一个基本真理。无论是机器人在房间中导航、AI 编辑照片，还是系统跟踪行驶中的汽车，其核心任务几乎总是一样的: 识别图像 A 中的哪个像素对应于图像 B 中的哪个像素。 ...

[MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors 🔗](https://arxiv.org/abs/2412.12392)

我们能在不校准的情况下解决 SLAM 问题吗？深度解析 MASt3R-SLAM

视觉同时定位与地图构建 (SLAM) 通常被视为空间智能的“圣杯”。理想情况下，我们要让机器人或一副 AR 眼镜张开“眼睛” (相机) ，观察场景，并立即了解它在哪里以及世界的 3D 样貌——无需任何手动设置。 ...

[MASH-VLM: Mitigating Action-Scene Hallucination in Video-LLMs through Disentangled Spatial-Temporal Representations 🔗](https://arxiv.org/abs/2503.15871)

视频 AI 为何会产生幻觉：利用 MASH-VLM 解耦动作与场景

想象一下，给 AI 展示一段某人在拳击的视频。问题在于？他们是在图书馆里打拳。典型的视频大语言模型 (Video-LLM) 可能会看着书架和安静的氛围，完全忽略拳击动作，将场景描述为“学生在阅读”。或者，它可能会看到拳击动作，然后凭空捏造 (幻觉) 出一个背景中的“拳击台”，完全无视了书籍。 ...

[MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation 🔗](https://arxiv.org/abs/2503.20519)

突破3D壁垒：深入解析 MAR-3D 与渐进式掩码自回归生成

从 2D 图像生成到 3D 内容创作的转变，是现代 AI 领域最令人兴奋但也最具技术挑战性的前沿方向之一。虽然像 Midjourney 或 Stable Diffusion 这样的模型可以在几秒钟内构想出照片般逼真的图像，但生成一个从各个角度看都完美的高质量、水密 (watertight) 3D 网格，是一个难得多的问题。 ...

[Light3R-SfM: Towards Feed-forward Structure-from-Motion 🔗](https://arxiv.org/abs/2501.14914)

光速 3D 重建：深入解读 Light3R-SfM

计算机视觉的梦想之一，就是将散落在场景各处的几张照片——无论是一座雕像、一栋建筑还是一个房间——瞬间编织成一个完美的 3D 模型。这个过程被称为运动恢复结构 (Structure-from-Motion，简称 SfM) 。 ...

[Light Transport-aware Diffusion Posterior Sampling for Single-View Reconstruction of 3D Volumes 🔗](https://arxiv.org/abs/2501.05226)

如何利用扩散模型和物理学从单张图像重建 3D 云层

你是否曾注视着一张云的照片，并好奇它在三维空间中究竟长什么样？这听起来像是一个简单的问题，但对计算机来说，这却是一个噩梦般的场景。云不是固体对象；它们是体积性的、半透明的，并且以复杂的方式散射光线。 ...