CVPR 2025

[v-CLR: View-Consistent Learning for Open-World Instance Segmentation 🔗](https://arxiv.org/abs/2504.01383)

打破纹理偏差：v-CLR 如何征服开放世界实例分割

想象一下，你给一个孩子看一个红苹果。他们学会了什么是“苹果”。随后，你给他们看一个绿苹果，或者是一个被涂成蓝色的塑料玩具苹果。孩子能立刻认出它是苹果，因为他们理解它的形状和结构 , 而不仅仅是颜色或纹理。 ...

[Encoder-only Mask Transformer: Your ViT is Secretly an Image Segmentation Model 🔗](https://arxiv.org/abs/2503.19108)

少即是多：为何你的普通 Vision Transformer 本身就是图像分割专家

引言在计算机视觉领域飞速发展的今天，人们普遍倾向于通过增加架构的复杂性来解决复杂问题。当 Vision Transformer (ViT) 横空出世时，它彻底改变了图像分类任务。然而，当研究人员试图将其应用于更细粒度的任务 (如图像分割，即对每个像素进行分类) 时，业界的共识是: “普通”的 ViT 并不够用。 ...

[Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding 🔗](https://arxiv.org/abs/2503.06287)

解锁 LVLM 的隐藏视界：冻结模型如何无需训练即可定位物体

引言在人工智能快速发展的格局中，大型视觉语言模型 (LVLM) ，如 LLaVA、GPT-4V 和 DeepSeek-VL，已成为多模态理解领域的超级巨星。这些模型拥有惊人的能力，可以描述复杂的场景，回答有关图像的问题，甚至执行以前被认为是不可能的推理任务。 ...

[We see it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale 🔗](https://arxiv.org/abs/2412.06699)

See3D：AI 如何仅通过观看视频学习 3D 几何

引言你是如何理解世界的三维结构的？你不会带着尺子和量角器四处走动，去测量你看到的每一个物体的精确坐标。你也不依赖于植入大脑中的“黄金标准” 3D 网格数据。相反，你是通过观察来理解的。你转动头部，绕着雕像走一圈，或者开车穿过街道。你的大脑将这些连续的 2D 观察结果拼接成了一个连贯的 3D 模型。 ...

[XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery? 🔗](https://arxiv.org/abs/2503.23771)

AI 真的能看清世界吗？为何遥感是多模态大模型的最后疆域

我们生活在一个多模态大语言模型 (MLLMs) 如 GPT-4o 和 Gemini 能够用诗意的细节描述沙发上猫咪照片的时代。它们可以解释表情包，阅读图表，甚至通过截图帮你修复代码错误。但是，当你要求这些模型从两万英尺的高空俯瞰世界时，会发生什么呢？ ...

[X-Dyna: Expressive Dynamic Human Image Animation 🔗](https://arxiv.org/abs/2501.10021)

为像素注入生命：深入解析 X-Dyna 动态人物图像动画

几十年来，拥有“哈利·波特”风格的会动的照片一直是计算机视觉领域的梦想。我们希望通过一张静态的人物照片，利用驱动视频使其动起来——让画中人跳舞、说话或行走，同时保留他们的身份特征。 ...

[World-consistent Video Diffusion with Explicit 3D Modeling 🔗](https://arxiv.org/abs/2412.01821)

超越 RGB：WVD 如何为视频扩散模型引入显式 3D 一致性

近期生成式 AI 的爆发让我们拥有了能够通过简单的文本提示构想出独特图像和超现实视频的模型。我们见证了扩散模型的巨大进步，从生成静态肖像发展到了合成动态短片。然而，如果你仔细观察 AI 生成的视频，通常会发现一个微妙且令人困扰的问题: 世界并不总是保持“稳固”。 ...

[WonderWorld: Interactive 3D Scene Generation from a Single Image 🔗](https://arxiv.org/abs/2406.09394)

在几秒钟内构建无限 3D 世界：深入解析 WonderWorld

想象一下，你正在玩视频游戏或设计一个虚拟环境。你拍下一张街角的照片，然后希望这张照片能瞬间扩展成一个完全可导航、无限的 3D 世界。你想沿着那条街走下去，转过拐角，看到实时生成的、完全符合你想象的新建筑、公园和天空。 ...

[Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos 🔗](https://arxiv.org/abs/2411.08753)

如何教 AI 执导电影：利用语言寻找最佳摄影角度

引言想象一下，你正试图学习如何修理自行车轮或练习完美的篮球跳投。你在网上找到了一个视频教程，但这不仅仅是一个普通的视频——它是通过五个不同摄像机录制的多视角体验。其中一个摄像头绑在教练的头上 (第一人称视角) ，而其他四个则放置在房间周围的三脚架上 (第三人称视角) 。 ...

[WISH: Weakly Supervised Instance Segmentation using Heterogeneous Labels 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Kweon_WISH_Weakly_Supervised_Instance_Segmentation_using_Heterogeneous_Labels_CVPR_2025_paper.pdf)

WISH：利用 Segment Anything Model 统一实例分割的弱监督方法

引言在计算机视觉领域，数据就是新的石油，但提炼这种石油——具体来说是标注图像——却极其昂贵。对于实例分割 (Instance Segmentation) 任务而言尤其如此，该任务旨在识别并像素级地勾勒出图像中每一个独特的对象。与简单的边界框或图像标签不同，为数据集中的每一个行人、汽车或杯子创建精确的掩膜 (mask) 需要耗费大量的人力和时间。 ...

[Volumetrically Consistent 3D Gaussian Rasterization 🔗](https://arxiv.org/abs/2412.03378)

修正高斯泼溅的物理原理：一种体积一致的方法

引言在神经渲染这一快速发展的领域，我们经常被迫在两条路之间做出选择: 物理准确性还是渲染速度。一方面，我们有像 NeRF (神经辐射场) 这样的光线追踪方法。它们一丝不苟地模拟光线穿过体积的过程，沿着光线积分密度。它们基于物理原理，能产生极其逼真的图像，但训练和渲染速度可能极其缓慢。 ...

[Volume Tells: Dual Cycle-Consistent Diffusion for 3D Fluorescence Microscopy De-noising and Super-Resolution 🔗](https://arxiv.org/abs/2503.02261)

“Volume Tells” 如何解决 3D 显微成像难题：无真值情况下的去噪与超分辨率

引言在细胞生物学的世界里，眼见为实。3D 荧光共聚焦 (FC) 显微镜已成为科学家们不可或缺的工具，使他们能够深入生物体内部，在细胞层面上通过可视化的方式观察复杂且立体的生命舞动。从研究胚胎发育到理解神经连接，捕捉 3D 数据的能力具有革命性意义。 ...

[Visual Representation Learning through Causal Intervention for Controllable Image Editing 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Huang_Visual_Representation_Learning_through_Causal_Intervention_for_Controllable_Image_Editing_CVPR_2025_paper.pdf)

当扩散模型遇上因果推断：修复 AI 图像编辑中的虚假相关性

引言想象一下，你正在使用生成式 AI 工具编辑一张年轻人的照片。你调整“年龄”滑块想让他们看起来老一点。模型成功地添加了皱纹并让头发变白，但奇怪的是，它还给这个人戴上了一副眼镜。你并没有要求加眼镜。你再试一次，结果还是一样。 ...

[VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step 🔗](https://arxiv.org/abs/2504.01956)

从平面照片到 3D 世界仅需眨眼之间：解读 VideoScene

想象一下，随意拍两张房间的照片——也许一张是书桌，一张是书架——然后瞬间生成整个空间的完全可导航 3D 视频。无需昂贵的扫描设备，无需数小时的处理时间，也没有那种墙壁扭曲进家具里的“几何幻觉”。 ...

[Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis 🔗](https://arxiv.org/abs/2405.21075)

超越静态图像：利用 Video-MME 评估多模态大语言模型对长视频的理解

引言在通往通用人工智能 (AGI) 的竞赛中，多模态大语言模型 (MLLMs) 已成为舞台的焦点。我们已经目睹了像 GPT-4V 和 Gemini 这样的模型在理解静态图像方面表现出令人难以置信的熟练程度——它们能够描述复杂的场景、阅读手写文字，甚至解释网络迷因 (memes) 。然而，现实世界并非一系列凝固的快照；它是一个由视觉、听觉和文本信息组成的动态、连续的流。 ...

[Video Depth Anything: Consistent Depth Estimation for Super-Long Videos 🔗](https://arxiv.org/abs/2501.12375)

解决闪烁问题：Video Depth Anything 如何掌握长视频深度估计

引言在计算机视觉领域，单目深度估计 (Monocular Depth Estimation, MDE) ——即从单张图像判断每个像素的距离——已经取得了革命性的进展。像 Depth Anything V2 这样的模型，仅仅通过观察一张平面照片，就能以惊人的准确度直观地理解场景的 3D 几何结构。然而，在理解静态图像与理解视频之间，仍然存在着巨大的鸿沟。 ...

[VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models 🔗](https://arxiv.org/abs/2411.17451)

AI 能评判 AI 吗？深入解读 VL-RewardBench 及探索可靠的视觉语言评估器

引言在人工智能飞速发展的世界里，我们达成了一个有趣的递归式里程碑: 我们正越来越多地依赖 AI 模型来评估其他 AI 模型。随着像 GPT-4o 和 Claude 3.5 Sonnet 这样的大型视觉语言模型 (LVLMs) 能力日益增强，人工评估变得极其昂贵且缓慢。为了解决这个问题，研究人员使用“生成式奖励模型” (GenRMs) ——本质上是利用强大的 LVLM 作为裁判来对回复进行排名、提供反馈，并通过人类反馈强化学习 (RLHF) 来指导新模型的训练。 ...

[VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge 🔗](https://arxiv.org/abs/2411.12915)

AI 医生会使用工具吗？VILA-M3 如何通过咨询专家击败万亿参数模型

引言: 通才的悖论在人工智能的快速演进中，我们见证了像 GPT-4o 和 Gemini 这样的大型“通才”视觉-语言模型 (VLMs) 的崛起。这些模型令人印象深刻——它们能写诗、分析图表，甚至能对着一张照片开玩笑。然而，当涉及医疗保健等高风险领域时，“样样通”往往意味着“样样稀松”。 ...

[VEU-Bench: Towards Comprehensive Understanding of Video Editing 🔗](https://arxiv.org/abs/2504.17828)

AI 能读懂电影语言吗？深度解析 VEU-Bench 与 Oscars 模型

当我们看电影时，我们看到的不仅仅是一连串的图像；我们看到的是一个通过特定语言讲述的故事。“低角度镜头 (Low-angle shot) ”让角色看起来充满力量；“猛然剪辑 (Smash cut) ”制造突如其来的震惊；“匹配剪辑 (Match cut) ”则在两个不同的时间或地点之间建立主题联系。作为人类，我们直觉地理解这种视觉语法。 ...

[Unveiling Differences in Generative Models: A Scalable Differential Clustering Approach 🔗](https://arxiv.org/abs/2405.02700)

超越分数：FINC 如何以可扩展的方式揭示生成模型的真实创作

引言在人工智能飞速发展的版图中，从 GAN 到扩散模型 (Diffusion models) ，生成模型在创造逼真图像方面已经变得极其娴熟。当研究人员发布新模型时，他们通常会附上一张“记分卡”: Fréchet Inception Distance (FID) 或 Inception Score (IS)。这些指标提供了一个单一的数字，表明生成的图像与参考数据集相比有多“好”。 ...