CVPR 2025

别再对数据取平均了：最优传输如何彻底改变数据集蒸馏

别再对数据取平均了: 最优传输如何彻底改变数据集蒸馏在深度学习的当今时代，我们目睹了对数据的极度渴求。像 CLIP 或现代大型语言模型 (LLM) 这样的模型会消耗数百万，有时甚至是数十亿个数据点。虽然效果显著，但这种规模在存储和计算方面造成了巨大的瓶颈。在这些海量数据集上从头开始训练模型，正逐渐成为只有那些拥有超级计算集群的人才能享有的特权。 ...

[O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models 🔗](https://arxiv.org/abs/2503.12096)

解决 VLM 中的过度自信：正交性如何校准测试时提示微调

在飞速发展的人工智能世界中，像 CLIP 这样的视觉语言模型 (VLM) 已成为明星。它们拥有一种惊人的能力，可以同时理解图像和文本，这使得它们能够在训练期间从未见过的物体上进行分类——这种能力被称为零样本推理。 ...

[Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models 🔗](https://arxiv.org/abs/2503.17142)

解码视觉：如何在图像嵌入中发现组合结构

解码视觉: 如何在图像嵌入中发现组合结构人类天生善于组合。当你看到“红色汽车”时，你不仅将其视为一个独特的、原子的实体；你会本能地将其理解为一个对象 (“汽车”) 和一个属性 (“红色”) 的结合。这种将复杂的概念分解为更简单、可重用部分的能力被称为组合性 (Compositionality) 。它使我们能够理解以前从未见过的东西。如果你知道“蓝色”是什么样子的，也知道“香蕉”是什么样子的，你就可以想象出一个“蓝色的香蕉”，即使你从未见过它。 ...

[No Pains, More Gains: Recycling Sub-Salient Patches for Efficient High-Resolution Image Recognition 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Qin_No_Pains_More_Gains_Recycling_Sub-Salient_Patches_for_Efficient_High-Resolution_CVPR_2025_paper.pdf)

回收像素上下文：如何在不撑爆显存的情况下训练高分辨率视觉模型

引言在计算机视觉领域，我们一直在与硬件限制进行着一场持久战。我们想要处理海量的十亿像素级图像——比如卫星地图、4K 医疗扫描图、细节丰富的路面检测图——但我们的 GPU 显存 (VRAM) 却是有限的。 ...

[NexusGS: Sparse View Synthesis with Epipolar Depth Priors in 3D Gaussian Splatting 🔗](https://arxiv.org/abs/2503.18794)

解决少样本难题：NexusGS 如何为 3D 高斯泼溅引入几何严谨性

引言在计算机视觉快速发展的领域中，梦想始终如一: 拍摄几张物体或场景的照片，然后立即生成一个照片级真实、可漫游的 3D 模型。很长一段时间以来，这是一项困难且计算量巨大的任务。随后出现了神经辐射场 (NeRFs)，它彻底改变了视图合成的质量，但渲染速度却极其缓慢。最近, 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 异军突起，提供了可与 NeRF 媲美甚至超越其质量的实时渲染速度。 ...

[NeRFPrior: Learning Neural Radiance Field as a Prior for Indoor Scene Reconstruction 🔗](https://arxiv.org/abs/2503.18361)

NeRFPrior：自监督 NeRF 如何解决室内 3D 重建难题

引言从一组 2D 图像重建高质量的 3D 表面是计算机视觉领域的“终极难题”之一。这听起来很简单——人类用双眼就能轻松做到——但对于算法来说，将一系列照片转换成一个水密 (watertight) 、平滑的 3D 网格却异常困难。对于室内场景而言尤其如此，因为那里充满了无纹理的墙壁、复杂的遮挡和反射表面。 ...

[NTClick: Achieving Precise Interactive Segmentation With Noise-tolerant Clicks 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Zhang_NTClick_Achieving_Precise_Interactive_Segmentation_With_Noise-tolerant_Clicks_CVPR_2025_paper.pdf)

超越像素级精确点击：NTClick 如何掌握细粒度分割

引言我们都有过这样的经历。你正试着编辑一张照片，也许是想把主体抠出来放到新的背景上。你使用智能选择工具，点击物体，大多数时候，它像魔术一样神奇。但当你遇到头发、自行车辐条或风筝上细细的线时，魔法消失了。你发现自己把图片放大到 400%，试图精确点击那一像素宽的线条，结果工具却选中了整片天空。 ...

[NSD-Imagery: A benchmark dataset for extending fMRI vision decoding methods to mental imagery 🔗](https://arxiv.org/abs/2506.06898)

解码心灵之眼：AI 如何学会可视化我们的思维

引言能够窥探人类思想并看到一个人正在想象什么，长期以来一直是科幻小说的范畴。从《盗梦空间》 (Inception) 到《黑镜》 (Black Mirror) ，“梦境记录仪”的概念抓住了我们的集体想象力。然而，在计算神经科学领域，这并非虚构——这是一个活跃且快速发展的研究领域，被称为 fMRI 图像重建 (fMRI-to-image reconstruction) 。 ...

[NLPrompt: Noise-Label Prompt Learning for Vision-Language Models 🔗](https://arxiv.org/abs/2412.01256)

标签值得信赖吗？基于 NLPrompt 的鲁棒提示学习

像 CLIP 这样的视觉-语言模型 (VLMs) 的兴起，从根本上改变了我们处理计算机视觉的方式。我们不再需要从头开始训练庞大的网络，而是拥有了“提示”预训练模型来识别其已学概念的便利。通过给模型输入一张图像和一段如“一张狗的照片”这样的文本描述，我们就能以令人印象深刻的准确率实现零样本分类。 ...

[Multitwine: Multi-Object Compositing with Text and Layout Control 🔗](https://arxiv.org/abs/2502.05165)

超越简单的复制粘贴：利用 Multitwine 掌握多对象合成技术

超越简单的复制粘贴: 利用 Multitwine 掌握多对象合成技术在快速发展的生成式 AI 世界中，图像编辑早已超越了简单的像素操作。我们正处于“主体驱动生成 (subject-driven generation) ”的时代，我们可以要求模型将特定的物体插入到特定的场景中。然而，虽然像 Stable Diffusion 这样的工具已经掌握了生成单个对象的艺术，但当任务变得复杂时，它们就会遇到瓶颈。 ...

[Multirate Neural Image Compression with Adaptive Lattice Vector Quantization 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Xu_Multirate_Neural_Image_Compression_with_Adaptive_Lattice_Vector_Quantization_CVPR_2025_paper.pdf)

打破网格限制——自适应格点如何彻底改变神经图像压缩

打破网格限制: 自适应格点如何彻底改变神经图像压缩我们生活在一个由视觉数据主导的世界里。从流媒体播放 4K 视频到在 Instagram 上滑动浏览，图像压缩是维持互联网运转的隐形引擎。几十年来，像 JPEG 这样的标准定义了这一领域。但在过去五年中，利用深度神经网络 (DNN) 对图像进行编码的神经图像压缩 (Neural Image Compression) 技术迅速超越了传统的人工设计方法。 ...

[Multi-modal Vision Pre-training for Medical Image Analysis 🔗](https://arxiv.org/abs/2410.10604)

BrainMVP：利用多模态预训练掌握医学图像分析

在医学人工智能飞速发展的世界里，标注数据的稀缺一直是一个持续存在的瓶颈。虽然深度学习模型在海量数据上表现出色，但获取医学扫描的完美像素级标注——例如逐层勾勒脑肿瘤——需要受过高度训练的放射科医生付出数小时的手工劳动。 ...

[Multilabel Prototype Visual Spatial Search for Weakly Supervised Semantic Segmentation 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Duan_Multi-Label_Prototype_Visual_Spatial_Search_for_Weakly_Supervised_Semantic_Segmentation_CVPR_2025_paper.pdf)

停止分类，开始搜索：弱监督语义分割的新方法

引言: 知道“物体在哪里”的高昂代价在计算机视觉领域，语义分割 (Semantic Segmentation) 是各项任务中的“圣杯”之一。仅仅说“这张照片里有一只猫”是不够的；我们想确切知道哪些像素属于这只猫。这种细节程度对于自动驾驶 (区分道路和人行道) 和医学成像 (将肿瘤与健康组织分离) 至关重要。 ...

[MotionPRO: Exploring the Role of Pressure in Human MoCap and Beyond 🔗](https://arxiv.org/abs/2504.05046)

压力为何至关重要：通过 MotionPRO 和 FRAPPE 将物理学融入人体动作捕捉

你是否曾看过电影里的 CGI 角色或者一个试图行走的人形机器人，总觉得哪里有点……不对劲？画面可能完美无瑕，机器人的关节可能闪烁着金属光泽，但脚似乎在地面上轻微滑动，就像在滑冰一样，或者身体看起来没有重量感，仿佛漂浮着。 ...

[MonSter: Marry Monodepth to Stereo Unleashes Power 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Cheng_MonSter_Marry_Monodepth_to_Stereo_Unleashes_Power_CVPR_2025_paper.pdf)

MonSter：当单目深度估计遇上立体匹配

引言在计算机视觉的世界里，感知深度至关重要。无论是自动驾驶汽车在繁忙的街道上穿梭，还是机械臂伸手去拿杯子，机器都需要确切知道物体有多远。多年来, 立体匹配 (Stereo Matching) 一直是这一领域的黄金标准。它模仿人类的双眼，利用左右图像之间的视差 (Disparity) 来进行三角测量以确定距离。但这里有一个陷阱: 立体匹配依赖于在左图和右图中找到完全相同的特征。当汽车驶入纹理缺失的白色隧道，或是面对高反光的玻璃建筑时，那些匹配线索就会消失。立体视觉本质上就变成了“盲人”。 ...

[Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identification 🔗](https://arxiv.org/abs/2503.09962)

如何教 AI 像成千上万的人类一样写作：一种用于行人重识别的合成数据新方法

如何教 AI 像成千上万的人类一样写作: 一种用于行人重识别的合成数据新方法在计算机视觉快速发展的世界里，数据就是新的石油。但对于像文本到图像行人重识别 (ReID) 这样的特定任务来说，这口油井正在枯竭。手工标注数百万张图像并提供详细文本描述的成本是天文数字。 ...

[MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds 🔗](https://arxiv.org/abs/2405.17421)

让视频栩栩如生：MoSca 如何从随手拍的片段中重建 4D 场景

想象一下，你用智能手机随手拍了一段街头表演或者朋友跳入泳池的视频。现在，想象一下你能够将这段视频定格在任何时刻，旋转摄像机从全新的角度观看动作，甚至在保持背景完好无损的情况下将某个人从场景中完全移除。 ...

[Mind the Trojan Horse: Image Prompt Adapter Enabling Scalable and Deceptive Jailbreaking 🔗](https://arxiv.org/abs/2504.05838)

像素中的特洛伊木马：图像适配器如何开启新一波 AI 越狱攻击

像素中的特洛伊木马: 图像适配器如何开启新一波 AI 越狱攻击文本生成图像扩散模型 (T2I-DMs) 如 Stable Diffusion、Midjourney 和 DALL-E 的迅速崛起彻底改变了数字创意领域。我们现在仅凭一句话就能变幻出精妙的世界。然而，能力越大，随之而来的安全斗争也不可避免: 越狱 (Jailbreaking) 。 ...

[MetricGrids: Arbitrary Nonlinear Approximation with Elementary Metric Grids based Implicit Neural Representation 🔗](https://arxiv.org/abs/2503.10000)

逃离线性陷阱：MetricGrids 如何利用泰勒展开增强神经场

简介在计算机视觉和计算机图形学快速发展的世界中，隐式神经表示 (Implicit Neural Representations, INRs) 已成为一项基石技术。无论是用于 3D 场景重建的神经辐射场 (NeRFs) ，还是图像的新型压缩方法，INRs——将信号表示为由神经网络参数化的连续函数——无处不在。 ...

[Meta-Learning Hyperparameters for Parameter Efficient Fine-Tuning 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Tian_Meta-Learning_Hyperparameters_for_Parameter_Efficient_Fine-Tuning_CVPR_2025_paper.pdf)

别再靠猜了，开始学习吧：利用元学习自动化 PEFT 超参数

别再靠猜了，开始学习吧: 利用元学习自动化 PEFT 超参数在 GPT-4、CLIP 和 Stable Diffusion 等大规模基础模型盛行的时代，机器学习的范式已经发生了转变。我们现在很少从头开始训练模型。相反，我们采用一个预训练好的巨型模型，并针对我们的特定需求对其进行“微调”。 ...