CVPR 2025

[Filter Images First, Generate Instructions Later: Pre-Instruction Data Selection for Visual Instruction Tuning 🔗](https://arxiv.org/abs/2503.07591)

大幅削减 AI 训练成本：视觉指令微调的新范式

如果你一直在关注 LLaVA、GPT-4V 或 Gemini 等大型视觉语言模型 (LVLM) 的爆发式增长，你会知道它们理解和推理图像的能力令人印象深刻。然而，在每一个强大的模型背后，都存在一个巨大且昂贵的瓶颈: 视觉指令微调 (Visual Instruction Tuning, VIT) 。 ...

[Few-shot Implicit Function Generation via Equivariance 🔗](https://arxiv.org/abs/2501.01601)

面向神经网络权重的生成式 AI：对称性如何解决小样本难题

在当前的人工智能领域，我们已经习惯了生成数据的模型: 用于图像的像素、用于文本的 Token，或用于音频的波形。但一个新的前沿领域正在兴起——生成模型本身。 ...

[F3OCUS - Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Saha_F3OCUS_-_Federated_Finetuning_of_Vision-Language_Foundation_Models_with_Optimal_CVPR_2025_paper.pdf)

平衡的艺术：利用 F3OCUS 优化视觉语言模型的联邦微调

引言在人工智能快速发展的领域中，像 LLaVA 和 BLIP 这样的视觉语言模型 (VLMs) 已成为强大的工具，能够基于视觉和文本输入理解并生成内容。这些模型在医疗保健等专业领域前景广阔，例如，模型可能需要分析胸部 X 光片并回答医生提出的自然语言问题。 ...

[FRESA: Feedforward Reconstruction of Personalized Skinned Avatars from Few Images 🔗](https://arxiv.org/abs/2503.19207)

从手机照片到可动画化身只需几秒：深入解析 FRESA

引言想象一下，用智能手机快速拍几张自己的照片——正面、背面，也许还有侧面——几秒钟内，你就拥有了一个完全 3D 的数字替身。这不仅仅是一个静态雕像，而是一个完全绑定、可动画的化身，穿着和你一模一样的衣服，随时可以被放入 VR 聊天室或视频游戏中。 ...

让化身脚踏实地：几何先验与海量数据如何解决以自我为中心的动作捕捉

让化身脚踏实地: 几何先验与海量数据如何解决以自我为中心的动作捕捉如果你使用过现代虚拟现实 (VR) 头显，你可能已经注意到了缺了点什么: 你的腿。大多数当前的 VR 化身 (Avatar) 都是带着双手的漂浮躯干，像是在数字虚空中漂移的幽灵。这并非风格选择，而是一种技术限制。 ...

[FICTION: 4D Future Interaction Prediction from Video 🔗](https://arxiv.org/abs/2412.00932)

超越 2D：预测人类在 3D 空间交互的“位置”与“方式”

超越 2D: 预测人类在 3D 空间交互的“位置”与“方式” 想象一下，厨房里有一个机器人助手在观察你。你正在泡茶。你刚烧好水。一个真正有用的助手不仅应该识别出你当前是“站立”状态，还应该预判在接下来的几秒钟内，你会走向橱柜，伸手去拿马克杯，然后走向冰箱拿牛奶。 ...

[FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation 🔗](https://arxiv.org/abs/2506.11543)

FIMA-Q：通过更智能的费雪信息近似解锁低比特视觉 Transformer

引言视觉 Transformer (Vision Transformers, ViTs) 彻底改变了计算机视觉领域，挑战了卷积神经网络 (CNN) 长期以来的统治地位。通过利用自注意力机制，ViT、DeiT 和 Swin Transformer 等模型在分类和检测任务中取得了显著成果。然而，这种高性能伴随着巨大的代价: 庞大的参数量和高昂的计算开销。 ...

[Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think 🔗](https://arxiv.org/abs/2503.00948)

运动建模比你想象的更简单：利用模型合并解锁动态视频生成

图生视频 (Image-to-Video, I2V) 生成是计算机视觉领域最令人兴奋的前沿方向之一。它的前提充满魔力: 拍摄一张静止的照片——无论是路上的汽车、草地上的狗，还是山丘上的城堡——并为其注入生命。你希望汽车行驶，狗打滚，摄像机从城堡拉远。 ...

[EventPSR: Surface Normal and Reflectance Estimation from Photometric Stereo Using an Event Camera 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Yu_EventPSR_Surface_Normal_and_Reflectance_Estimation_from_Photometric_Stereo_Using_CVPR_2025_paper.pdf)

事件相机如何彻底改变 3D 材质扫描

创建现实世界物体的逼真“数字孪生”是现代计算机图形学的基石，它为从电影视觉特效到沉浸式 VR/AR 体验的一切提供动力。要让一个数字物体看起来真实，你需要两样东西: 它的形状 (表面法线) 和它的材质属性 (它有多亮或多粗糙) 。 ...

[Event fields: Capturing light fields at high speed, resolution, and dynamic range 🔗](https://arxiv.org/abs/2412.06191)

事件场：当高速视觉遇上光场成像

引言想象一下试图拍摄一颗在空中飞行的子弹。现在，想象一下在拍完照片后 , 你决定实际上想要聚焦在子弹背后的目标上，而不是子弹本身。在传统摄影中，这是不可能的。你需要一台高速摄像机来冻结动作，以及一台光场相机来改变焦点。但是，高速摄像机是极度依赖数据的庞然大物，几秒钟的素材通常就需要千兆字节的存储空间，而光场相机通常速度慢且体积笨重。 ...

[Event Ellipsometer: Event-based Mueller-Matrix Video Imaging 🔗](https://arxiv.org/abs/2411.17313)

看见不可见：利用事件相机实现高速偏振视频

引言在计算机视觉的世界里，我们通常沉迷于光的强度——即一个像素有多亮或多暗。但光还携带了另一层隐藏的信息: 偏振 (Polarization) 。当光线从物体上反弹时，其电磁波的方向会发生变化。这些变化编码了标准相机根本无法捕捉到的关于物体形状、材料成分和表面纹理的丰富细节。 ...

[EvEnhancer: Empowering Effectiveness, Efficiency and Generalizability for Continuous Space-Time Video Super-Resolution with Events 🔗](https://arxiv.org/abs/2505.04657)

超越帧界：事件相机如何彻底改变连续时空视频超分辨率

1. 引言我们生活在一个由视频内容主导的世界，但我们往往受限于拍摄设备的硬件条件。大多数视频都以固定的分辨率 (如 1080p) 和固定的帧率 (通常是 30 或 60 fps) 进行归档。但是，如果你想放大远处的细节而不想看到一团像素化的模糊画面呢？或者，如果你想放慢一个快速移动的动作镜头，而不希望它看起来像幻灯片呢？ ...

[Ev-3DOD: Pushing the Temporal Boundaries of 3D Object Detection with Event Cameras 🔗](https://arxiv.org/abs/2502.19630)

看见不可见：事件相机如何解决自动驾驶中的“盲时”危机

引言想象一下，你正以每小时60英里的速度在高速公路上行驶。在一瞬间，你闭上了眼睛。就在这短暂的时刻，你前方的车猛踩刹车。这一瞬间——当你没有任何视觉信息时——是令人恐惧的。 ...

[Estimating Body and Hand Motion in an Ego-sensed World 🔗](https://arxiv.org/abs/2410.03665)

EgoAllo：智能眼镜如何看见你的全身

引言想象一下你戴着一副智能眼镜。你正走过客厅，伸手去拿咖啡杯，或者在键盘上打字。眼镜上装有摄像头，但它们是向外拍摄以通过地图构建世界的。它们能看到杯子、桌子，或许还能看到你的手进入画面。但它们看不见你——或者至少看不见你的躯干、腿或脚。 ...

[Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways 🔗](https://arxiv.org/abs/2503.07026)

学会“视而不见”：EraDiff 如何教导扩散模型正确擦除物体

简介想象一下，你有一张完美的意大利辣香肠披萨照片，但你想移除其中一片，以露出下面的木制托盘。你启动了最先进的 AI 图像修补 (Inpainting) 工具，掩膜选区选中那片香肠，然后点击“生成”。 ...

[Enhanced Visual-Semantic Interaction with Tailored Prompts for Pedestrian Attribute Recognition 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Wu_Enhanced_Visual-Semantic_Interaction_with_Tailored_Prompts_for_Pedestrian_Attribute_Recognition_CVPR_2025_paper.pdf)

超越静态标签——为更智能的行人识别量身定制提示词

引言想象一下，浏览数小时的监控录像，试图定位某个特定的人。你找的不仅仅是一张脸，而是描述特征: “一位穿红裙子的女士”、“一个背着背包的男人”或“戴眼镜的人”。在计算机视觉领域，这项任务被称为行人属性识别 (Pedestrian Attribute Recognition, PAR) 。 ...

[ENERGYMOGEN: Compositional Human Motion Generation with Energy-Based Diffusion Model in Latent Space 🔗](https://arxiv.org/abs/2412.14706)

掌控动作：基于能量的模型如何实现复杂 AI 编舞

引言想象一下，让 AI 生成一段一个人“向前走”的动画。以今天的标准来看，这是一个已经解决的问题。现代扩散模型可以在几秒钟内生成逼真的行走循环。但是，如果你增加了复杂性会发生什么？如果你要求一个人“向前走并且挥动双手，但不要转身”呢？ ...

[Enduring, Efficient and Robust Trajectory Prediction Attack in Autonomous Driving via Optimization-Driven Multi-Frame Perturbation Framework 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Yu_Enduring_Efficient_and_Robust_Trajectory_Prediction_Attack_in_Autonomous_Driving_CVPR_2025_paper.pdf)

纸板箱如何迷惑自动驾驶汽车：深入解析 OMP-Attack

自动驾驶 (AD) 的承诺建立在信任之上——相信车辆能够感知环境、预测他人行为并规划安全路线。但是，如果几个策略性放置的纸板箱就能粉碎这种信任呢？在对抗性机器学习领域，研究人员不断探索系统的弱点以构建更安全的系统。最近一篇题为 Enduring, Efficient and Robust Trajectory Prediction Attack in Autonomous Driving via Optimization-Driven Multi-Frame Perturbation Framework 的论文揭示了自动驾驶汽车预测其他车辆运动方式的一个重大漏洞。作者介绍了一种名为 OMP-Attack 的新方法，该方法利用简单的物理物体欺骗自动驾驶汽车 (AV) ，使其为了避免一场并不存在的“幽灵”碰撞而紧急刹车。 ...

[End-to-End HOI Reconstruction Transformer with Graph-based Encoding 🔗](https://arxiv.org/abs/2503.06012)

HOI-TG 如何解决 3D 人物-物体重建中的全局与局部冲突

在快速发展的计算机视觉领域，从 2D 图像重建 3D 人物是一个经过充分研究的问题。但人类很少存在于真空中。我们拿着手机，坐在椅子上，骑着自行车，搬运箱子。当方程中加入物体时，复杂性便会呈爆炸式增长。 ...

[Empowering Vector Graphics with Consistently Arbitrary Viewing and View-dependent Visibility 🔗](https://arxiv.org/abs/2505.21377)

Dream3DVG：跨越文本到3D与矢量图形之间的鸿沟

Dream3DVG: 跨越文本到3D与矢量图形之间的鸿沟在数字设计领域，矢量图形是清晰度和可扩展性的黄金标准。与基于像素的图像 (光栅图形) 在放大时会变模糊不同，矢量图形由数学路径——线条、曲线和形状——定义，无论分辨率如何都能保持清晰。它们是徽标、图标和概念艺术的基石。 ...