[MesgGen: Generating PBR Textured Mesh with Render-Enhanced Auto-Encoder and Generative Data Augmentation 🔗](https://arxiv.org/abs/2505.04656)

MeshGen:高保真 3D 网格与 PBR 纹理生成的新标准

引言 弥合 2D 图像与 3D 内容创作之间鸿沟的竞赛正在飞速发展。我们已经见证了扩散模型在凭空生成图像方面的巨大飞跃,自然而然地,研究人员正在将这些原理应用于第三维度。然而,从单张图像生成高质量、可用于生产环境的 3D 资产仍然是一个巨大的挑战。 ...

2025-05 · 8 分钟 · 3770 字
[Matrix3D: Large Photogrammetry Model All-in-One 🔗](https://arxiv.org/abs/2502.07685)

Matrix3D:彻底改变摄影测量的一体化生成模型

引言 几十年来,计算机视觉领域一直在追逐一个特定的梦想: 将几张扁平的 2D 照片瞬间转化为完美、可漫游的 3D 世界。这一过程被称为摄影测量 (Photogrammetry) , 它是现代 3D 内容创作、测绘和特效的基石。然而,传统的 3D 重建之路颇为坎坷。它通常涉及一个由不同算法组成的碎片化流水线——一个用来计算摄像机的朝向,另一个用来估计深度,还有一个用来将所有内容拼接在一起。 ...

2025-02 · 7 分钟 · 3195 字
[Material Anything: Generating Materials for Any 3D Object via Diffusion 🔗](https://arxiv.org/abs/2411.15138)

Material Anything:自动化 3D 材质生成的新标准

在计算机图形学的世界里,创建 3D 模型只是成功了一半。形状——或者说几何体 (geometry) ——赋予了物体形态,但材质赋予了它灵魂。物体是闪亮的黄金、暗淡的木头,还是生锈的铁?光线如何在它的划痕上反射? ...

2024-11 · 6 分钟 · 2943 字
[ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping 🔗](https://arxiv.org/abs/2412.16212)

解密无形之手:ManiVideo 如何攻克视频生成中的 3D 遮挡难题

解密无形之手: ManiVideo 如何攻克视频生成中的 3D 遮挡难题 如果你试过画手,你应该知道这有多难。仅仅是把比例画对就已经很费劲了,但当手指开始卷曲、重叠并抓取物体时,真正的噩梦才刚刚开始。突然间,手的一部分消失在物体后面,或者被其他手指挡住了。 ...

2024-12 · 7 分钟 · 3121 字
[MangaNinja: Line Art Colorization with Precise Reference Following 🔗](https://arxiv.org/abs/2501.08332)

赋予草图生命:MangaNinja 如何掌握线稿上色

将黑白草图转变为全彩角色是动画和漫画制作中最耗时的步骤之一。几十年来,艺术家们一直手工填充颜色,确保角色的头发、眼睛和服装在数千帧画面中保持一致。虽然自动化工具试图加快这一过程,但它们往往在面对动画的一个简单现实时受阻: 角色是会动的。 ...

2025-01 · 6 分钟 · 2991 字
[MammAlps: A multi-view video behavior monitoring dataset of wild mammals in the Swiss Alps 🔗](https://arxiv.org/abs/2503.18223)

解码荒野:多模态人工智能如何彻底变革瑞士阿尔卑斯山的野生动物监测

解码荒野: 多模态人工智能如何彻底变革瑞士阿尔卑斯山的野生动物监测 想象一下,试图记录难以捉摸的山区生物——马鹿、狼或雪兔——的日常生活,却从未踏足森林半步。几十年来,生态学家一直依赖红外相机陷阱 (camera traps) 作为他们在野外的眼睛。这些动作激活的传感器捕捉了数百万张图像和视频,为生物多样性提供了前所未有的视角。 ...

2025-03 · 6 分钟 · 2896 字
[MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking 🔗](https://arxiv.org/abs/2411.15459)

Mamba 能击败 Transformer 吗?深入解读视觉语言跟踪模型 MambaVLT

引言 想象一下,你试图在一个拥挤的视频画面中跟踪一位朋友。有时你知道他们长什么样 (视觉参考) ,有时你只知道一段描述,比如“戴红帽子的那个人”。再想象一下视频很长。你的朋友可能会变换姿势,走到树后,或者摘掉帽子。为了有效地跟踪他们,你需要记忆 。 你需要记住他们的历史轨迹,以预测他们现在的位置。 ...

2024-11 · 7 分钟 · 3448 字
[Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation 🔗](https://arxiv.org/abs/2504.03193)

填补鸿沟:Mamba 如何融合视觉与语言模型以实现鲁棒的语义分割

想象一下,完全在视频游戏《侠盗猎车手5》 (Grand Theft Auto V) 中训练自动驾驶汽车算法。游戏中的道路看起来很逼真,光照完美,天气也是受控的。现在,把同一辆车投放到伦敦雨夜的街道上。它会撞车吗? ...

2025-04 · 7 分钟 · 3284 字
[Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters 🔗](https://arxiv.org/abs/2411.18197)

从雕像到演员:'Make-It-Animatable' 如何在一秒内完成角色绑定

在视频游戏、VR 和元宇宙飞速发展的世界中,3D 内容创作正在蓬勃兴起。我们拥有令人难以置信的工具,可以从文本或图像生成静态 3D 模型,从而产生数以百万计的数字资产。然而,一个巨大的瓶颈依然存在: 运动 。 ...

2024-11 · 7 分钟 · 3043 字
[MUSt3R: Multi-view Network for Stereo 3D Reconstruction 🔗](https://arxiv.org/abs/2503.01661)

打破成对限制:MUSt3R 如何将 3D 重建扩展至任意视角

想象一下,将一个装满随机照片的文件夹——这些照片是用不同的相机、从不同的角度拍摄的,没有任何元数据——丢进一个系统,然后在这个系统的另一端得到一个完美的、密集的 3D 模型。这就是几何计算机视觉的“圣杯”: 无约束运动恢复结构 (SfM)。 ...

2025-03 · 7 分钟 · 3114 字
[MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving 🔗](https://arxiv.org/abs/2504.00379)

弥合差距:MPDrive 如何教会自动驾驶汽车这一“空间语言”

简介 想象一下你正开车行驶在繁忙的高速公路上。你看到一辆车从右侧汇入,前方一辆卡车正在刹车,还有一个行人在路口等待。你的大脑瞬间会在三维空间中映射出这些物体,为它们分配重要性,并制定计划: “为卡车减速,留意汇入的车辆。”你不会去思考原始的 GPS 坐标或像素值,而是通过物体及其相互关系来思考。 ...

2025-04 · 8 分钟 · 3603 字
[MLLM-as-a-Judge for Image Safety without Human Labeling 🔗](https://arxiv.org/abs/2501.00192)

AI 能自我审查吗?构建无需人类标签的零样本图像安全裁判

简介 在人工智能生成内容 (AIGC) 时代,在线创建和分享的视觉媒体数量呈现爆炸式增长。从社交媒体信息流到生成艺术平台,图像的流动无穷无尽。但这种创造力也伴随着巨大的风险: 从血腥暴力到色情内容,有害内容的泛滥成灾。 ...

2025-01 · 8 分钟 · 3631 字
[MITracker: Multi-View Integration for Visual Object Tracking 🔗](https://arxiv.org/abs/2502.20111)

透视墙壁:MITracker 如何利用多视角融合解决遮挡问题

想象一下你在看一场足球比赛。如果一名球员跑到了裁判身后,你不会惊慌失措地认为这名球员从世界上消失了。你的大脑会利用上下文、运动轨迹,或者 (如果你在看多机位转播) 利用不同角度的视野来准确预测该球员会从哪里出现。 ...

2025-02 · 8 分钟 · 3705 字
[MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views 🔗](https://arxiv.org/abs/2412.06767)

MAtCha Gaussians 如何仅用几张图像解决 3D 重建问题

计算机视觉的梦想很简单,通过极其困难: 只需拍摄几张物体或场景的照片,就能瞬间生成完美、逼真的 3D 模型。 近年来,我们见证了“神经渲染”技术的爆炸式增长。诸如神经辐射场 (NeRF) 和 3D 高斯溅射 (3D Gaussian Splatting, 3DGS) 等方法彻底改变了我们合成新视角的能力。它们能够利用一组图像,让你以惊人的清晰度从新的角度观察场景。然而,这里有个陷阱。虽然这些方法能产生美丽的图像,但它们生成的底层 3D 几何结构往往杂乱、嘈杂或模糊。它们的设计初衷是欺骗眼睛,而不是构建坚实的网格。 ...

2024-12 · 8 分钟 · 3797 字
[MATCHA: Towards Matching Anything 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Xue_MATCHA_Towards_Matching_Anything_CVPR_2025_paper.pdf)

一个特征统御所有:深入理解 MATCHA 统一图像对应模型

引言 “在计算机视觉中,只有一个问题: 对应,对应,还是对应。” Takeo Kanade 的这句名言揭示了机器“看”世界的一个基本真理。无论是机器人在房间中导航、AI 编辑照片,还是系统跟踪行驶中的汽车,其核心任务几乎总是一样的: 识别图像 A 中的哪个像素对应于图像 B 中的哪个像素。 ...

7 分钟 · 3023 字
[MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors 🔗](https://arxiv.org/abs/2412.12392)

我们能在不校准的情况下解决 SLAM 问题吗?深度解析 MASt3R-SLAM

视觉同时定位与地图构建 (SLAM) 通常被视为空间智能的“圣杯”。理想情况下,我们要让机器人或一副 AR 眼镜张开“眼睛” (相机) ,观察场景,并立即了解它在哪里以及世界的 3D 样貌——无需任何手动设置。 ...

2024-12 · 7 分钟 · 3411 字
[MASH-VLM: Mitigating Action-Scene Hallucination in Video-LLMs through Disentangled Spatial-Temporal Representations 🔗](https://arxiv.org/abs/2503.15871)

视频 AI 为何会产生幻觉:利用 MASH-VLM 解耦动作与场景

想象一下,给 AI 展示一段某人在拳击的视频。问题在于?他们是在图书馆里打拳。典型的视频大语言模型 (Video-LLM) 可能会看着书架和安静的氛围,完全忽略拳击动作,将场景描述为“学生在阅读”。或者,它可能会看到拳击动作,然后凭空捏造 (幻觉) 出一个背景中的“拳击台”,完全无视了书籍。 ...

2025-03 · 6 分钟 · 2627 字
[MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation 🔗](https://arxiv.org/abs/2503.20519)

突破3D壁垒:深入解析 MAR-3D 与渐进式掩码自回归生成

从 2D 图像生成到 3D 内容创作的转变,是现代 AI 领域最令人兴奋但也最具技术挑战性的前沿方向之一。虽然像 Midjourney 或 Stable Diffusion 这样的模型可以在几秒钟内构想出照片般逼真的图像,但生成一个从各个角度看都完美的高质量、水密 (watertight) 3D 网格,是一个难得多的问题。 ...

2025-03 · 7 分钟 · 3490 字
[Light3R-SfM: Towards Feed-forward Structure-from-Motion 🔗](https://arxiv.org/abs/2501.14914)

光速 3D 重建:深入解读 Light3R-SfM

计算机视觉的梦想之一,就是将散落在场景各处的几张照片——无论是一座雕像、一栋建筑还是一个房间——瞬间编织成一个完美的 3D 模型。这个过程被称为运动恢复结构 (Structure-from-Motion,简称 SfM) 。 ...

2025-01 · 9 分钟 · 4039 字
[Light Transport-aware Diffusion Posterior Sampling for Single-View Reconstruction of 3D Volumes 🔗](https://arxiv.org/abs/2501.05226)

如何利用扩散模型和物理学从单张图像重建 3D 云层

你是否曾注视着一张云的照片,并好奇它在三维空间中究竟长什么样?这听起来像是一个简单的问题,但对计算机来说,这却是一个噩梦般的场景。云不是固体对象;它们是体积性的、半透明的,并且以复杂的方式散射光线。 ...

2025-01 · 7 分钟 · 3263 字