CVPR 2025

超越决策边界：DiffCAM 如何通过特征对比开启 AI 可解释性

引言在人工智能快速发展的格局中，深度神经网络 (DNN) 在从医疗诊断到自动驾驶等各类任务中都取得了超越人类的表现。然而，这些模型有一个众所周知的缺陷: 它们就像“黑盒”。我们输入数据，它们给出答案，但很少告诉我们为什么会得出这个结论。 ...

[DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness 🔗](https://arxiv.org/abs/2503.08257)

解决“黄油手”难题：物理感知扩散模型如何掌握通用机器人灵巧抓取

如果你曾观察过机器人尝试抓取形状不规则的物体——比如喷雾瓶或毛绒玩具——你可能会注意到它的迟疑。这与人类不同，人类会本能地调整手型以适应物体的几何形状，而机器人往往在“灵巧抓取”方面表现挣扎。 ...

[Detection-Friendly Nonuniformity Correction: A Union Framework for Infrared UAV Target Detection 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Fang_Detection-Friendly_Nonuniformity_Correction_A_Union_Framework_for_Infrared_UAV_Target_CVPR_2025_paper.pdf)

透过噪点看清真相：UniCD 如何彻底改变红外无人机检测

简介在快速发展的监控和安防领域，无人机 (UAV) 带来了一个独特的挑战。它们体积小、动作敏捷，而且往往难以被发现。红外 (热) 成像已成为检测这些目标的首选解决方案，无论光照条件如何，都能提供昼夜可见性。然而，这里面有个问题: 硬件本身往往会成为阻碍。 ...

[Detecting Backdoor Attacks in Federated Learning via Direction Alignment Inspection 🔗](https://arxiv.org/abs/2503.07978)

AlignIns：一种抵御联邦学习后门攻击的细粒度方向防御机制

引言联邦学习 (Federated Learning, FL) 彻底改变了我们训练机器学习模型的方式。通过允许设备在本地进行训练并仅共享模型更新而非原始数据，FL 承诺在数据效用与用户隐私之间找到最佳平衡点。它目前正为医疗保健、金融以及智能手机上的预测文本输入等应用提供动力。 ...

[DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos 🔗](https://arxiv.org/abs/2409.02095)

DepthCrafter：掌握开放世界视频深度估计的时间一致性

想象一下试图从普通的 2D 视频中重建 3D 世界。对于人类来说，这很直观；我们明白随着汽车向前移动，它会变近，或者路过的树木与背景中的山脉是截然不同的。然而，对于计算机来说，这项任务——即单目视频深度估计——却极其困难。 ...

[DefectFill: Realistic Defect Generation with Inpainting Diffusion Model for Visual Inspection 🔗](https://arxiv.org/abs/2503.13985)

如何在缺失数据上训练 AI：深入剖析 DefectFill

想象一下，你正在经营一条用于生产半导体芯片或精密汽车零部件的高科技生产线。你想利用 AI 自动化质量控制流程。为了训练一个能够发现缺陷 (比如镜头上的划痕或榛子上的裂纹) 的模型，你通常需要成千上万个此类缺陷的示例。 ...

[Deep Fair Multi-View Clustering with Attention KAN 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Xu_Deep_Fair_Multi-View_Clustering_with_Attention_KAN_CVPR_2025_paper.pdf)

利用 Attention KAN 打破 AI 聚类中的偏见

在机器学习的世界里，数据很少只来源于单一渠道。想象一下医生诊断病人的场景: 他们不仅仅看验血报告，还会结合 X 光片、MRI 扫描、病史以及基因标记。这就是多视图数据 (Multi-View Data) ——即同一底层对象的不同视角。 ...

[Deep Change Monitoring: A Hyperbolic Representative Learning Framework and a Dataset for Long-term Fine-grained Tree Change Detection 🔗](https://arxiv.org/abs/2503.00643)

超越欧几里得空间：利用双曲深度学习监测森林

森林是地球的肺。有效的林业管理不仅对木材工业至关重要，对气候稳定和生态健康也同样重要。要管理森林，你需要对其进行监测——测量生长情况、评估健康状况并识别受损情况。 ...

[Decoupled Distillation to Erase: A General Unlearning Method for Any Class-centric Tasks 🔗](https://arxiv.org/abs/2503.23751)

如何让 AI 遗忘：深入解析解耦蒸馏（DELETE）

在大规模人工智能时代，模型是贪婪的学习者。它们吞噬海量数据集，从网络爬取的图像到敏感的面部数据，无所不学。但当一个模型知道得太多时会发生什么？ ...

[Dataset Distillation with Neural Characteristic Function: A Minmax Perspective 🔗](https://arxiv.org/abs/2502.20653)

缩减大数据：神经特征函数如何革新数据集蒸馏

引言在深度学习时代，数据就是新的石油。但管理这些石油正变成一场日益昂贵的后勤噩梦。现代神经网络需要海量数据集进行训练，导致存储成本高昂，训练时间动辄长达数周。这造成了极高的准入门槛，往往将无法访问工业级计算集群的学生和研究人员拒之门外。 ...

[DashGaussian: Optimizing 3D Gaussian Splatting in 200 Seconds 🔗](https://arxiv.org/abs/2503.18402)

从几分钟到几秒钟：利用 DashGaussian 加速 3D 高斯泼溅

如果你一直关注 3D 场景重建领域，你可能很熟悉从神经辐射场 (NeRFs) 到 3D 高斯泼溅 (3DGS) 的快速演变。虽然 NeRFs 以其照片级真实感的视图合成震惊了世界，但它们的训练速度也是出了名的慢，通常需要数小时甚至数天。3DGS 通过使用显式的高斯基元来表示场景，彻底改变了这一点，将优化时间缩短到了数十分钟。 ...

[DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection 🔗](https://arxiv.org/abs/2411.08227)

你的 AI 能相信自己的眼睛吗？解决多模态 OOD 检测中的一致性问题

想象一辆在繁忙城市街道上行驶的自动驾驶汽车。它已经接受过数千小时驾驶视频的训练——包括汽车、行人、骑自行车的人和交通信号灯。突然，一个人穿着巨大的充气恐龙服装跑过人行横道。 ...

[DIV-FF: Dynamic Image-Video Feature Fields For Environment Understanding in Egocentric Videos 🔗](https://arxiv.org/abs/2503.08344)

超越静态场景：DIV-FF 如何解锁动态自我中心视觉理解

如果你曾经试过把 GoPro 绑在头上进行烹饪或工作，你就知道拍出来的画面有多混乱。相机在晃动，你的双手遮挡了视线，物体在移动，环境状态也在不断变化 (洋葱变成了切碎的洋葱) 。对于计算机视觉系统来说，理解这种“自我中心” (第一视角) 的画面简直是一场噩梦。 ...

[DAMM-Diffusion: Learning Divergence-Aware Multi-Modal Diffusion Model for Nanoparticles Distribution Prediction 🔗](https://arxiv.org/abs/2503.09491)

数据越多未必越好：利用 DAMM-Diffusion 掌握纳米粒子预测

引言在抗癌斗争中，纳米粒子 (Nanoparticles, NPs) 代表了一种极具未来感且充满希望的武器。这些微观载体被设计用于直接将药物输送到肿瘤部位，利用肿瘤血管的“渗漏”特性，精确地聚集在需要的地方——这种现象被称为高通透性和滞留效应 (EPR effect) 。 ...

[Cubify Anything: Scaling Indoor 3D Object Detection 🔗](https://arxiv.org/abs/2412.04458)

超越点云：利用 Cubify Anything 扩展室内 3D 目标检测

超越点云: 利用 Cubify Anything 扩展室内 3D 目标检测想象一下走进一个房间。你看到的不仅仅是“椅子”、“桌子”和“地板”。你感知到的是丰富多样的物品: 杯垫上的咖啡杯、书架上的一本特定的书、藏在柜子后面的电源板。人类以高保真度理解场景。然而，室内 3D 目标检测领域长期以来一直停留在以低分辨率看世界的阶段，主要关注大型的、界定房间的家具，而忽略了日常生活中的杂物。 ...

[CrossOver: 3D Scene Cross-Modal Alignment 🔗](https://arxiv.org/abs/2502.15011)

超越完美数据：CrossOver 如何实现缺失模态下的 3D 场景对齐

在计算机视觉飞速发展的世界里，教会机器理解 3D 空间是一项巨大的挑战。我们希望机器人能在建筑工地上导航，增强现实 (AR) 眼镜能在家具上叠加信息，数字助手能理解像“找到带岛台的厨房”这样复杂的空间查询。 ...

[Cross-modal Causal Relation Alignment for Video Question Grounding 🔗](https://arxiv.org/abs/2503.07635)

超越捷径：因果推理如何提升视频问题定位

引言: AI 中的“作弊”学生问题想象一个学生正在参加历史考试。题目问: “为什么工业革命始于英国？”学生其实不知道答案，但他注意到以往考试中有一个规律: 只要“英国”和“革命”这两个词出现，答案通常是“选项 C”。于是他选了 C，并且答对了。 ...

[Cross-View Completion Models are Zero-shot Correspondence Estimators 🔗](https://arxiv.org/abs/2412.09072)

为何你的补全模型其实是对应关系专家：ZeroCo 揭秘

为何你的补全模型其实是对应关系专家: ZeroCo 揭秘如果你最近一直在关注计算机视觉研究，你一定知道“掩码图像建模” (Masked Image Modeling，如 MAE) 已经彻底改变了模型学习表征的方式。其核心思想很简单: 遮蔽图像的一部分，然后要求模型填补空白。 ...

解锁照片级 3D 化身编辑：深入解析 TetGS

引言在 AR/VR 和元宇宙飞速发展的背景下，对个性化、照片级真实的 3D 化身 (Avatar) 的需求正在激增。我们都渴望拥有一个数字孪生体，它不仅看起来像我们，还能像我们在现实世界中一样轻松更换服装。 ...

[Context-Aware Multimodal Pretraining 🔗](https://arxiv.org/abs/2411.15099)

弥合鸿沟——上下文感知预训练如何释放少样本学习潜力

在计算机视觉和多模态学习快速发展的格局中，像 CLIP 和 SigLIP 这样的模型已经确立了标准。通过在海量图像-文本对数据集上进行训练，这些模型学习到了稳健的表征，在“零样本” (Zero-Shot) 任务上表现出色——即只需将图片与文本描述进行匹配，就能对从未见过的图像进行分类。 ...