[OPTICAL: Leveraging Optimal Transport for Contribution Allocation in Dataset Distillation 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Cui_OPTICAL_Leveraging_Optimal_Transport_for_Contribution_Allocation_in_Dataset_Distillation_CVPR_2025_paper.pdf)

别再对数据取平均了:最优传输如何彻底改变数据集蒸馏

别再对数据取平均了: 最优传输如何彻底改变数据集蒸馏 在深度学习的当今时代,我们目睹了对数据的极度渴求。像 CLIP 或现代大型语言模型 (LLM) 这样的模型会消耗数百万,有时甚至是数十亿个数据点。虽然效果显著,但这种规模在存储和计算方面造成了巨大的瓶颈。在这些海量数据集上从头开始训练模型,正逐渐成为只有那些拥有超级计算集群的人才能享有的特权。 ...

7 分钟 · 3048 字
[O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models 🔗](https://arxiv.org/abs/2503.12096)

解决 VLM 中的过度自信:正交性如何校准测试时提示微调

在飞速发展的人工智能世界中,像 CLIP 这样的视觉语言模型 (VLM) 已成为明星。它们拥有一种惊人的能力,可以同时理解图像和文本,这使得它们能够在训练期间从未见过的物体上进行分类——这种能力被称为零样本推理 。 ...

2025-03 · 7 分钟 · 3109 字
[Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models 🔗](https://arxiv.org/abs/2503.17142)

解码视觉:如何在图像嵌入中发现组合结构

解码视觉: 如何在图像嵌入中发现组合结构 人类天生善于组合。当你看到“红色汽车”时,你不仅将其视为一个独特的、原子的实体;你会本能地将其理解为一个对象 (“汽车”) 和一个属性 (“红色”) 的结合。这种将复杂的概念分解为更简单、可重用部分的能力被称为组合性 (Compositionality) 。 它使我们能够理解以前从未见过的东西。如果你知道“蓝色”是什么样子的,也知道“香蕉”是什么样子的,你就可以想象出一个“蓝色的香蕉”,即使你从未见过它。 ...

2025-03 · 7 分钟 · 3217 字
[No Pains, More Gains: Recycling Sub-Salient Patches for Efficient High-Resolution Image Recognition 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Qin_No_Pains_More_Gains_Recycling_Sub-Salient_Patches_for_Efficient_High-Resolution_CVPR_2025_paper.pdf)

回收像素上下文:如何在不撑爆显存的情况下训练高分辨率视觉模型

引言 在计算机视觉领域,我们一直在与硬件限制进行着一场持久战。我们想要处理海量的十亿像素级图像——比如卫星地图、4K 医疗扫描图、细节丰富的路面检测图——但我们的 GPU 显存 (VRAM) 却是有限的。 ...

7 分钟 · 3136 字
[NexusGS: Sparse View Synthesis with Epipolar Depth Priors in 3D Gaussian Splatting 🔗](https://arxiv.org/abs/2503.18794)

解决少样本难题:NexusGS 如何为 3D 高斯泼溅引入几何严谨性

引言 在计算机视觉快速发展的领域中,梦想始终如一: 拍摄几张物体或场景的照片,然后立即生成一个照片级真实、可漫游的 3D 模型。很长一段时间以来,这是一项困难且计算量巨大的任务。随后出现了神经辐射场 (NeRFs),它彻底改变了视图合成的质量,但渲染速度却极其缓慢。最近, 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 异军突起,提供了可与 NeRF 媲美甚至超越其质量的实时渲染速度。 ...

2025-03 · 8 分钟 · 3983 字
[NeRFPrior: Learning Neural Radiance Field as a Prior for Indoor Scene Reconstruction 🔗](https://arxiv.org/abs/2503.18361)

NeRFPrior:自监督 NeRF 如何解决室内 3D 重建难题

引言 从一组 2D 图像重建高质量的 3D 表面是计算机视觉领域的“终极难题”之一。这听起来很简单——人类用双眼就能轻松做到——但对于算法来说,将一系列照片转换成一个水密 (watertight) 、平滑的 3D 网格却异常困难。对于室内场景而言尤其如此,因为那里充满了无纹理的墙壁、复杂的遮挡和反射表面。 ...

2025-03 · 7 分钟 · 3149 字
[NTClick: Achieving Precise Interactive Segmentation With Noise-tolerant Clicks 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Zhang_NTClick_Achieving_Precise_Interactive_Segmentation_With_Noise-tolerant_Clicks_CVPR_2025_paper.pdf)

超越像素级精确点击:NTClick 如何掌握细粒度分割

引言 我们都有过这样的经历。你正试着编辑一张照片,也许是想把主体抠出来放到新的背景上。你使用智能选择工具,点击物体,大多数时候,它像魔术一样神奇。但当你遇到头发、自行车辐条或风筝上细细的线时,魔法消失了。你发现自己把图片放大到 400%,试图精确点击那一像素宽的线条,结果工具却选中了整片天空。 ...

6 分钟 · 3005 字
[NSD-Imagery: A benchmark dataset for extending fMRI vision decoding methods to mental imagery 🔗](https://arxiv.org/abs/2506.06898)

解码心灵之眼:AI 如何学会可视化我们的思维

引言 能够窥探人类思想并看到一个人正在想象什么,长期以来一直是科幻小说的范畴。从《盗梦空间》 (Inception) 到《黑镜》 (Black Mirror) ,“梦境记录仪”的概念抓住了我们的集体想象力。然而,在计算神经科学领域,这并非虚构——这是一个活跃且快速发展的研究领域,被称为 fMRI 图像重建 (fMRI-to-image reconstruction) 。 ...

2025-06 · 7 分钟 · 3095 字
[NLPrompt: Noise-Label Prompt Learning for Vision-Language Models 🔗](https://arxiv.org/abs/2412.01256)

标签值得信赖吗?基于 NLPrompt 的鲁棒提示学习

像 CLIP 这样的视觉-语言模型 (VLMs) 的兴起,从根本上改变了我们处理计算机视觉的方式。我们不再需要从头开始训练庞大的网络,而是拥有了“提示”预训练模型来识别其已学概念的便利。通过给模型输入一张图像和一段如“一张狗的照片”这样的文本描述,我们就能以令人印象深刻的准确率实现零样本分类。 ...

2024-12 · 8 分钟 · 3561 字
[Multitwine: Multi-Object Compositing with Text and Layout Control 🔗](https://arxiv.org/abs/2502.05165)

超越简单的复制粘贴:利用 Multitwine 掌握多对象合成技术

超越简单的复制粘贴: 利用 Multitwine 掌握多对象合成技术 在快速发展的生成式 AI 世界中,图像编辑早已超越了简单的像素操作。我们正处于“主体驱动生成 (subject-driven generation) ”的时代,我们可以要求模型将特定的物体插入到特定的场景中。然而,虽然像 Stable Diffusion 这样的工具已经掌握了生成单个对象的艺术,但当任务变得复杂时,它们就会遇到瓶颈。 ...

2025-02 · 7 分钟 · 3287 字
[Multirate Neural Image Compression with Adaptive Lattice Vector Quantization 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Xu_Multirate_Neural_Image_Compression_with_Adaptive_Lattice_Vector_Quantization_CVPR_2025_paper.pdf)

打破网格限制——自适应格点如何彻底改变神经图像压缩

打破网格限制: 自适应格点如何彻底改变神经图像压缩 我们生活在一个由视觉数据主导的世界里。从流媒体播放 4K 视频到在 Instagram 上滑动浏览,图像压缩是维持互联网运转的隐形引擎。几十年来,像 JPEG 这样的标准定义了这一领域。但在过去五年中,利用深度神经网络 (DNN) 对图像进行编码的神经图像压缩 (Neural Image Compression) 技术迅速超越了传统的人工设计方法。 ...

6 分钟 · 2957 字
[Multi-modal Vision Pre-training for Medical Image Analysis 🔗](https://arxiv.org/abs/2410.10604)

BrainMVP:利用多模态预训练掌握医学图像分析

在医学人工智能飞速发展的世界里,标注数据的稀缺一直是一个持续存在的瓶颈。虽然深度学习模型在海量数据上表现出色,但获取医学扫描的完美像素级标注——例如逐层勾勒脑肿瘤——需要受过高度训练的放射科医生付出数小时的手工劳动。 ...

2024-10 · 7 分钟 · 3450 字
[Multilabel Prototype Visual Spatial Search for Weakly Supervised Semantic Segmentation 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Duan_Multi-Label_Prototype_Visual_Spatial_Search_for_Weakly_Supervised_Semantic_Segmentation_CVPR_2025_paper.pdf)

停止分类,开始搜索:弱监督语义分割的新方法

引言: 知道“物体在哪里”的高昂代价 在计算机视觉领域,语义分割 (Semantic Segmentation) 是各项任务中的“圣杯”之一。仅仅说“这张照片里有一只猫”是不够的;我们想确切知道哪些像素属于这只猫。这种细节程度对于自动驾驶 (区分道路和人行道) 和医学成像 (将肿瘤与健康组织分离) 至关重要。 ...

7 分钟 · 3289 字
[MotionPRO: Exploring the Role of Pressure in Human MoCap and Beyond 🔗](https://arxiv.org/abs/2504.05046)

压力为何至关重要:通过 MotionPRO 和 FRAPPE 将物理学融入人体动作捕捉

你是否曾看过电影里的 CGI 角色或者一个试图行走的人形机器人,总觉得哪里有点……不对劲?画面可能完美无瑕,机器人的关节可能闪烁着金属光泽,但脚似乎在地面上轻微滑动,就像在滑冰一样,或者身体看起来没有重量感,仿佛漂浮着。 ...

2025-04 · 7 分钟 · 3130 字
[MonSter: Marry Monodepth to Stereo Unleashes Power 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Cheng_MonSter_Marry_Monodepth_to_Stereo_Unleashes_Power_CVPR_2025_paper.pdf)

MonSter:当单目深度估计遇上立体匹配

引言 在计算机视觉的世界里,感知深度至关重要。无论是自动驾驶汽车在繁忙的街道上穿梭,还是机械臂伸手去拿杯子,机器都需要确切知道物体有多远。 多年来, 立体匹配 (Stereo Matching) 一直是这一领域的黄金标准。它模仿人类的双眼,利用左右图像之间的视差 (Disparity) 来进行三角测量以确定距离。但这里有一个陷阱: 立体匹配依赖于在左图和右图中找到完全相同的特征。当汽车驶入纹理缺失的白色隧道,或是面对高反光的玻璃建筑时,那些匹配线索就会消失。立体视觉本质上就变成了“盲人”。 ...

7 分钟 · 3050 字
[Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identification 🔗](https://arxiv.org/abs/2503.09962)

如何教 AI 像成千上万的人类一样写作:一种用于行人重识别的合成数据新方法

如何教 AI 像成千上万的人类一样写作: 一种用于行人重识别的合成数据新方法 在计算机视觉快速发展的世界里,数据就是新的石油。但对于像文本到图像行人重识别 (ReID) 这样的特定任务来说,这口油井正在枯竭。手工标注数百万张图像并提供详细文本描述的成本是天文数字。 ...

2025-03 · 7 分钟 · 3103 字
[MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds 🔗](https://arxiv.org/abs/2405.17421)

让视频栩栩如生:MoSca 如何从随手拍的片段中重建 4D 场景

想象一下,你用智能手机随手拍了一段街头表演或者朋友跳入泳池的视频。现在,想象一下你能够将这段视频定格在任何时刻,旋转摄像机从全新的角度观看动作,甚至在保持背景完好无损的情况下将某个人从场景中完全移除。 ...

2024-05 · 7 分钟 · 3384 字
[Mind the Trojan Horse: Image Prompt Adapter Enabling Scalable and Deceptive Jailbreaking 🔗](https://arxiv.org/abs/2504.05838)

像素中的特洛伊木马:图像适配器如何开启新一波 AI 越狱攻击

像素中的特洛伊木马: 图像适配器如何开启新一波 AI 越狱攻击 文本生成图像扩散模型 (T2I-DMs) 如 Stable Diffusion、Midjourney 和 DALL-E 的迅速崛起彻底改变了数字创意领域。我们现在仅凭一句话就能变幻出精妙的世界。然而,能力越大,随之而来的安全斗争也不可避免: 越狱 (Jailbreaking) 。 ...

2025-04 · 8 分钟 · 3751 字
[MetricGrids: Arbitrary Nonlinear Approximation with Elementary Metric Grids based Implicit Neural Representation 🔗](https://arxiv.org/abs/2503.10000)

逃离线性陷阱:MetricGrids 如何利用泰勒展开增强神经场

简介 在计算机视觉和计算机图形学快速发展的世界中,隐式神经表示 (Implicit Neural Representations, INRs) 已成为一项基石技术。无论是用于 3D 场景重建的神经辐射场 (NeRFs) ,还是图像的新型压缩方法,INRs——将信号表示为由神经网络参数化的连续函数——无处不在。 ...

2025-03 · 8 分钟 · 3622 字
[Meta-Learning Hyperparameters for Parameter Efficient Fine-Tuning 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Tian_Meta-Learning_Hyperparameters_for_Parameter_Efficient_Fine-Tuning_CVPR_2025_paper.pdf)

别再靠猜了,开始学习吧:利用元学习自动化 PEFT 超参数

别再靠猜了,开始学习吧: 利用元学习自动化 PEFT 超参数 在 GPT-4、CLIP 和 Stable Diffusion 等大规模基础模型盛行的时代,机器学习的范式已经发生了转变。我们现在很少从头开始训练模型。相反,我们采用一个预训练好的巨型模型,并针对我们的特定需求对其进行“微调”。 ...

7 分钟 · 3295 字