CVPR 2025

[Comprehensive Information Bottleneck for Unveiling Universal Attribution to Interpret Vision Transformers 🔗](https://arxiv.org/abs/2507.04388)

解锁黑盒：CoIBA 如何利用综合信息瓶颈解释视觉 Transformer

引言在计算机视觉快速发展的格局中，视觉 Transformer (ViT) 已成为一股强大的力量。从自动驾驶汽车到医学成像，ViT 正在取得令人瞩目的性能，往往超越传统的卷积神经网络 (CNN)。然而，像许多深度学习模型一样，它们也有一个显著的缺陷: 它们就像“黑盒”。我们输入一张图像，输出一个分类结果，但我们往往对其做出该决定的原因知之甚少。 ...

[Compositional Caching for Training-free Open-vocabulary Attribute Detection 🔗](https://arxiv.org/abs/2503.19145)

超越标签：组合缓存如何革新免训练属性检测

引言: “简单”描述的复杂性在计算机视觉领域，识别一个物体——比如一辆“汽车”——是一个在很大程度上已经解决的问题。我们拥有强大的模型，可以在拥挤的街道上高精度地发现汽车。但是，如果我们想更进一步呢？如果我们需要知道这辆车是生锈的、湿润的、金属质感的还是复古的呢？ ...

[Coeff-Tuning: A Graph Filter Subspace View for Tuning Attention-Based Large Models 🔗](https://arxiv.org/abs/2503.18337)

超越权重：通过重组注意力头微调 Transformer

如果你曾经尝试过微调大语言模型 (LLM) 或大型视觉 Transformer (ViT) ，你肯定知道其中的痛苦: 这些模型非常笨重。全参数微调既昂贵又极其消耗内存。为了解决这个问题，社区转向了参数高效微调 (PEFT) 。最著名的例子是 LoRA (低秩自适应) , 它冻结预训练模型并注入小的、可训练的秩分解矩阵。这些方法大多集中在这一线性投影层上——即转换数据的权重 (\(W_q, W_k, W_v\)) 。 ...

[CoSER: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Li_CoSER_Towards_Consistent_Dense_Multiview_Text-to-Image_Generator_for_3D_Creation_CVPR_2025_paper.pdf)

已解决：双面神难题？CoSER 如何为文本生成 3D 带来一致性

想象一下，在电脑中输入“一只穿着中世纪盔甲的熊”，几秒钟后，你就得到了一个完全可旋转、高质量的游戏级 3D 资产。这就是 Text-to-3D (文本生成 3D) 的梦想。虽然我们已经掌握了 2D 图像生成 (多亏了 Midjourney 和 Stable Diffusion 等工具) ，但将这种能力提升到 3D 维度仍然出奇地困难。一个常见的失败模式是“双面神问题” (Janus problem) ——以罗马神话中的双面神命名——即生成的模型可能在头部的正面和背面都有脸，因为模型无法理解背面视图不应该看起来像正面视图。 ...

[CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation 🔗](https://arxiv.org/abs/2406.10462)

魔鬼藏在数据中：CoMM 如何修正多模态 AI 生成

魔鬼藏在数据中: CoMM 如何修正多模态 AI 生成如果你曾经尝试让 AI 写一本连贯的绘本或制作一个带有连贯插图的分步教程，你可能已经发现了一个问题。虽然现代多模态大型语言模型 (MLLM) 在描述单张图像或根据文本生成单张图片方面表现出色，但它们往往难以讲述一个连续的故事。角色在不同的画面之间外貌发生变化，逻辑跳跃，或者文字和图像似乎根本不在同一个频道上。 ...

[ClimbingCap: Multi-Modal Dataset and Method for Rock Climbing in World Coordinate 🔗](https://arxiv.org/abs/2503.21268)

勇攀高峰：AI 与 LiDAR 如何掌握攀岩动作捕捉

引言在计算机视觉领域，教机器理解人类运动一直是一个长期的目标。我们已经非常擅长追踪跑道上的跑步者、人行道上的行人或练功房里的舞者。这些被称为“地面运动 (ground-based motions) ”。其物理规律在某种程度上是可以预测的: 重力向下，双脚与平坦的地面相互作用。 ...

[Circumventing shortcuts in audio-visual deepfake detection datasets with unsupervised learning 🔗](https://arxiv.org/abs/2412.00175)

寂静之声：隐蔽捷径如何攻破深度伪造检测器（及修复之道）

引言在深度伪造 (Deepfake) 检测的这场猫鼠游戏中，我们通常假设: 随着生成模型变得越来越好，检测模型只需要变得更复杂就能跟上步伐。我们依靠包含真实视频和篡改视频的海量数据集来训练这些检测器，相信神经网络正在学习识别微妙的伪造痕迹——不匹配的嘴唇运动、不自然的眨眼，或像素级的数字残留。 ...

[CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation 🔗](https://arxiv.org/abs/2506.09343)

读说明书！为什么机器人需要指南才能掌握家用电器

读说明书！为什么机器人需要指南才能掌握家用电器想象一下，你刚买了一台高端浓缩咖啡机。它有四个旋钮、一个拉杆和一个数字屏幕。你想做一杯双份浓缩拿铁。你会随机乱按按钮吗？大概不会。你会拿出用户手册，找到“入门指南”部分，确认哪个按钮控制蒸汽棒，然后照着步骤操作。 ...

[Change3D: Revisiting Change Detection and Captioning from a Video Modeling Perspective 🔗](https://arxiv.org/abs/2503.18803)

把时间当成时间：Change3D 如何利用视频建模彻底改变遥感技术

变化检测是遥感计算机视觉领域最基础的任务之一。无论是评估自然灾害后的损失、监测城市扩张，还是追踪森林砍伐，核心目标始终如一: 对比在不同时间拍摄的两张图像，并识别出其中的差异。 ...

[Can Machines Understand Composition? Dataset and Benchmark for Photographic Image Composition Embedding and Understanding 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Zhao_Can_Machines_Understand_Composition_Dataset_and_Benchmark_for_Photographic_Image_CVPR_2025_paper.pdf)

三分法 vs. AI：机器真能看懂摄影构图吗？

我们经常听到 AI 能“看”东西的说法。计算机视觉模型可以以超越人类的准确率识别图像中的狗、汽车或人。生成式模型能够从零开始创造出照片般逼真的场景。但在摄影中，除了单纯识别物体之外，还有一个微妙的艺术层面: 构图。 ...

[Can Generative Video Models Help Pose Estimation? 🔗](https://arxiv.org/abs/2412.16155)

跨越鸿沟 —— 生成式视频模型如何解决不可能的姿态估计问题

引言: 人类“构想”几何结构的能力想象一下你正站在一间教室里。你拍了一张前方黑板的照片。然后，你转身走到教室后面，拍了一张学生课桌的照片。这两张照片没有任何重叠——它们之间没有共同的视觉特征。 ...

[CRISP: Object Pose and Shape Estimation with Test-Time Adaptation 🔗](https://arxiv.org/abs/2412.01052)

跨越现实鸿沟：CRISP 如何通过测试时适应掌握 3D 物体感知

跨越现实鸿沟: CRISP 如何通过测试时适应掌握 3D 物体感知想象一下，一个机械臂的任务是清理太空碎片。它看到一颗卫星漂浮在轨道上。为了安全地抓取它，机器人需要非常精确地知道两件事: 卫星在哪里 (它的位姿) 以及它长什么样 (它的几何形状) 。 ...

[COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts 🔗](https://arxiv.org/abs/2504.10158)

当模型走出实验室：利用 COUNTS 在真实场景中评估 AI

引言想象一下，你正在训练一个自动驾驶汽车系统。你使用了在阳光明媚的加利福尼亚拍摄的数千小时视频素材来训练它。该模型在检测行人、其他车辆和停车标志方面达到了 99% 的准确率。然后，你将这辆车部署到了一个白雪皑皑的加拿大城镇，或者一个昏暗的隧道中。突然之间，系统无法识别出一个在白色背景下穿着冬装的行人。 ...

[CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering 🔗](https://arxiv.org/abs/2503.00413)

如何教 AI 新技能却不忘旧本领：深度解读 CL-MoE

想象一下你在学习第二语言。你花了几个月的时间精通了法语。然后，你转而学习西班牙语。几个月后，当你再次尝试说法语时，你发现自己夹杂着西班牙语单词，或者更糟糕的是，你完全忘记了法语语法。 ...

[CH3Depth: Efficient and Flexible Depth Foundation Model with Flow Matching 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Li_CH3Depth_Efficient_and_Flexible_Depth_Foundation_Model_with_Flow_Matching_CVPR_2025_paper.pdf)

解决深度估计的“三难困境”：深入解析 CH3Depth

深度估计——即观察 2D 图像并理解其中 3D 几何结构的能力——是计算机视觉的基石。它是自动驾驶、机器人导航、混合现实和内容生成的前提条件。然而，构建一个“理想的”深度估计模型历来是一场权衡博弈。 ...

[CCIN: Compositional Conflict Identification and Neutralization for Composed Image Retrieval 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Tian_CCIN_Compositional_Conflict_Identification_and_Neutralization_for_Composed_Image_Retrieval_CVPR_2025_paper.pdf)

当图片与文字冲突时：利用 CCIN 解决图像检索中的组合冲突

引言想象一下，你正在网上买衬衫。你发现了一张照片，上面的衬衫剪裁和面料都很完美，但它是蓝色的，而你真心想要灰色的。在标准的文本搜索中，准确描述你想要的东西是很困难的 (例如搜索“像这件但要是灰色的衬衫”) 。这正是组合图像检索 (Composed Image Retrieval, CIR) 大显身手的地方。 ...

[CASP: Compression of Large Multimodal Models Based on Attention Sparsity 🔗](https://arxiv.org/abs/2503.05936)

突破 2-Bit 壁垒：注意力稀疏性如何解锁多模态模型的极致压缩

引言在人工智能快速发展的世界中，大型多模态模型 (LMMs) 已成为新的巨头。像 LLaVA 和 GPT-4V 这样的模型能够看、读和推理，弥合了视觉数据与文本数据之间的鸿沟。然而，这种能力伴随着高昂的代价: 计算资源。 ...

[CASAGPT: Cuboid Arrangement and Scene Assembly for Interior Design 🔗](https://arxiv.org/abs/2504.19478)

解开室内设计的俄罗斯方块难题：CASAGPT 如何利用立方体实现无碰撞场景合成

简介想象一下，你正试图布置一套虚拟公寓。你在角落里放了一张时尚的 L 型沙发，并在“L”型的夹角处放了一张茶几。对你来说，这是一个完美、舒适的布置。但对于使用传统 3D 理解技术的计算机来说，你可能刚刚制造了一场灾难。 ...

[CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction 🔗](https://arxiv.org/abs/2411.16170)

解锁移动视觉：CARE Transformer 如何平衡速度与精度

解锁移动视觉: CARE Transformer 如何平衡速度与精度在计算机视觉飞速发展的世界中，视觉 Transformer (Vision Transformer，简称 ViT) 已成为一股革命性的力量。通过通过调整最初为自然语言处理 (NLP) 设计的自注意力机制，ViT 在图像分类、目标检测和分割方面取得了最先进的成果。 ...

[CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image 🔗](https://arxiv.org/abs/2504.11230)

突破部件壁垒：CAP-Net 如何掌握关节物体感知

突破部件壁垒: CAP-Net 如何掌握关节物体感知想象你是一个机器人，接到了一个看似简单的家务任务: 打开笔记本电脑。对人类来说，这轻而易举。你认出盖子，找到边缘，然后把它掀开。但对机器人来说，这是一个几何噩梦。笔记本电脑不是一个实心的砖块；它是一个关节物体 (articulated object) ——由关节连接的刚性部件组成的结构。盖子相对于底座移动，改变了物体的整体形状。 ...