[Filter Images First, Generate Instructions Later: Pre-Instruction Data Selection for Visual Instruction Tuning 🔗](https://arxiv.org/abs/2503.07591)

大幅削减 AI 训练成本:视觉指令微调的新范式

如果你一直在关注 LLaVA、GPT-4V 或 Gemini 等大型视觉语言模型 (LVLM) 的爆发式增长,你会知道它们理解和推理图像的能力令人印象深刻。然而,在每一个强大的模型背后,都存在一个巨大且昂贵的瓶颈: 视觉指令微调 (Visual Instruction Tuning, VIT) 。 ...

2025-03 · 7 分钟 · 3277 字
[Few-shot Implicit Function Generation via Equivariance 🔗](https://arxiv.org/abs/2501.01601)

面向神经网络权重的生成式 AI:对称性如何解决小样本难题

在当前的人工智能领域,我们已经习惯了生成数据的模型: 用于图像的像素、用于文本的 Token,或用于音频的波形。但一个新的前沿领域正在兴起——生成模型本身。 ...

2025-01 · 7 分钟 · 3297 字
[F3OCUS - Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Saha_F3OCUS_-_Federated_Finetuning_of_Vision-Language_Foundation_Models_with_Optimal_CVPR_2025_paper.pdf)

平衡的艺术:利用 F3OCUS 优化视觉语言模型的联邦微调

引言 在人工智能快速发展的领域中,像 LLaVA 和 BLIP 这样的视觉语言模型 (VLMs) 已成为强大的工具,能够基于视觉和文本输入理解并生成内容。这些模型在医疗保健等专业领域前景广阔,例如,模型可能需要分析胸部 X 光片并回答医生提出的自然语言问题。 ...

8 分钟 · 3795 字
[FRESA: Feedforward Reconstruction of Personalized Skinned Avatars from Few Images 🔗](https://arxiv.org/abs/2503.19207)

从手机照片到可动画化身只需几秒:深入解析 FRESA

引言 想象一下,用智能手机快速拍几张自己的照片——正面、背面,也许还有侧面——几秒钟内,你就拥有了一个完全 3D 的数字替身。这不仅仅是一个静态雕像,而是一个完全绑定、可动画的化身,穿着和你一模一样的衣服,随时可以被放入 VR 聊天室或视频游戏中。 ...

2025-03 · 7 分钟 · 3340 字
[FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video 🔗](https://arxiv.org/abs/2503.23094)

让化身脚踏实地:几何先验与海量数据如何解决以自我为中心的动作捕捉

让化身脚踏实地: 几何先验与海量数据如何解决以自我为中心的动作捕捉 如果你使用过现代虚拟现实 (VR) 头显,你可能已经注意到了缺了点什么: 你的腿。大多数当前的 VR 化身 (Avatar) 都是带着双手的漂浮躯干,像是在数字虚空中漂移的幽灵。这并非风格选择,而是一种技术限制。 ...

2025-03 · 7 分钟 · 3312 字
[FICTION: 4D Future Interaction Prediction from Video 🔗](https://arxiv.org/abs/2412.00932)

超越 2D:预测人类在 3D 空间交互的“位置”与“方式”

超越 2D: 预测人类在 3D 空间交互的“位置”与“方式” 想象一下,厨房里有一个机器人助手在观察你。你正在泡茶。你刚烧好水。一个真正有用的助手不仅应该识别出你当前是“站立”状态,还应该预判在接下来的几秒钟内,你会走向橱柜,伸手去拿马克杯,然后走向冰箱拿牛奶。 ...

2024-12 · 7 分钟 · 3104 字
[FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation 🔗](https://arxiv.org/abs/2506.11543)

FIMA-Q:通过更智能的费雪信息近似解锁低比特视觉 Transformer

引言 视觉 Transformer (Vision Transformers, ViTs) 彻底改变了计算机视觉领域,挑战了卷积神经网络 (CNN) 长期以来的统治地位。通过利用自注意力机制,ViT、DeiT 和 Swin Transformer 等模型在分类和检测任务中取得了显著成果。然而,这种高性能伴随着巨大的代价: 庞大的参数量和高昂的计算开销。 ...

2025-06 · 7 分钟 · 3098 字
[Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think 🔗](https://arxiv.org/abs/2503.00948)

运动建模比你想象的更简单:利用模型合并解锁动态视频生成

图生视频 (Image-to-Video, I2V) 生成是计算机视觉领域最令人兴奋的前沿方向之一。它的前提充满魔力: 拍摄一张静止的照片——无论是路上的汽车、草地上的狗,还是山丘上的城堡——并为其注入生命。你希望汽车行驶,狗打滚,摄像机从城堡拉远。 ...

2025-03 · 7 分钟 · 3204 字
[EventPSR: Surface Normal and Reflectance Estimation from Photometric Stereo Using an Event Camera 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Yu_EventPSR_Surface_Normal_and_Reflectance_Estimation_from_Photometric_Stereo_Using_CVPR_2025_paper.pdf)

事件相机如何彻底改变 3D 材质扫描

创建现实世界物体的逼真“数字孪生”是现代计算机图形学的基石,它为从电影视觉特效到沉浸式 VR/AR 体验的一切提供动力。要让一个数字物体看起来真实,你需要两样东西: 它的形状 (表面法线) 和它的材质属性 (它有多亮或多粗糙) 。 ...

7 分钟 · 3022 字
[Event fields: Capturing light fields at high speed, resolution, and dynamic range 🔗](https://arxiv.org/abs/2412.06191)

事件场:当高速视觉遇上光场成像

引言 想象一下试图拍摄一颗在空中飞行的子弹。现在,想象一下在拍完照片后 , 你决定实际上想要聚焦在子弹背后的目标上,而不是子弹本身。在传统摄影中,这是不可能的。你需要一台高速摄像机来冻结动作,以及一台光场相机来改变焦点。但是,高速摄像机是极度依赖数据的庞然大物,几秒钟的素材通常就需要千兆字节的存储空间,而光场相机通常速度慢且体积笨重。 ...

2024-12 · 7 分钟 · 3453 字
[Event Ellipsometer: Event-based Mueller-Matrix Video Imaging 🔗](https://arxiv.org/abs/2411.17313)

看见不可见:利用事件相机实现高速偏振视频

引言 在计算机视觉的世界里,我们通常沉迷于光的强度——即一个像素有多亮或多暗。但光还携带了另一层隐藏的信息: 偏振 (Polarization) 。 当光线从物体上反弹时,其电磁波的方向会发生变化。这些变化编码了标准相机根本无法捕捉到的关于物体形状、材料成分和表面纹理的丰富细节。 ...

2024-11 · 8 分钟 · 3608 字
[EvEnhancer: Empowering Effectiveness, Efficiency and Generalizability for Continuous Space-Time Video Super-Resolution with Events 🔗](https://arxiv.org/abs/2505.04657)

超越帧界:事件相机如何彻底改变连续时空视频超分辨率

1. 引言 我们生活在一个由视频内容主导的世界,但我们往往受限于拍摄设备的硬件条件。大多数视频都以固定的分辨率 (如 1080p) 和固定的帧率 (通常是 30 或 60 fps) 进行归档。但是,如果你想放大远处的细节而不想看到一团像素化的模糊画面呢?或者,如果你想放慢一个快速移动的动作镜头,而不希望它看起来像幻灯片呢? ...

2025-05 · 7 分钟 · 3451 字
[Ev-3DOD: Pushing the Temporal Boundaries of 3D Object Detection with Event Cameras 🔗](https://arxiv.org/abs/2502.19630)

看见不可见:事件相机如何解决自动驾驶中的“盲时”危机

引言 想象一下,你正以每小时60英里的速度在高速公路上行驶。在一瞬间,你闭上了眼睛。就在这短暂的时刻,你前方的车猛踩刹车。这一瞬间——当你没有任何视觉信息时——是令人恐惧的。 ...

2025-02 · 7 分钟 · 3280 字
[Estimating Body and Hand Motion in an Ego-sensed World 🔗](https://arxiv.org/abs/2410.03665)

EgoAllo:智能眼镜如何看见你的全身

引言 想象一下你戴着一副智能眼镜。你正走过客厅,伸手去拿咖啡杯,或者在键盘上打字。眼镜上装有摄像头,但它们是向外拍摄以通过地图构建世界的。它们能看到杯子、桌子,或许还能看到你的手进入画面。但它们看不见你——或者至少看不见你的躯干、腿或脚。 ...

2024-10 · 9 分钟 · 4373 字
[Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways 🔗](https://arxiv.org/abs/2503.07026)

学会“视而不见”:EraDiff 如何教导扩散模型正确擦除物体

简介 想象一下,你有一张完美的意大利辣香肠披萨照片,但你想移除其中一片,以露出下面的木制托盘。你启动了最先进的 AI 图像修补 (Inpainting) 工具,掩膜选区选中那片香肠,然后点击“生成”。 ...

2025-03 · 7 分钟 · 3339 字
[Enhanced Visual-Semantic Interaction with Tailored Prompts for Pedestrian Attribute Recognition 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Wu_Enhanced_Visual-Semantic_Interaction_with_Tailored_Prompts_for_Pedestrian_Attribute_Recognition_CVPR_2025_paper.pdf)

超越静态标签——为更智能的行人识别量身定制提示词

引言 想象一下,浏览数小时的监控录像,试图定位某个特定的人。你找的不仅仅是一张脸,而是描述特征: “一位穿红裙子的女士”、“一个背着背包的男人”或“戴眼镜的人”。在计算机视觉领域,这项任务被称为行人属性识别 (Pedestrian Attribute Recognition, PAR) 。 ...

8 分钟 · 3632 字
[ENERGYMOGEN: Compositional Human Motion Generation with Energy-Based Diffusion Model in Latent Space 🔗](https://arxiv.org/abs/2412.14706)

掌控动作:基于能量的模型如何实现复杂 AI 编舞

引言 想象一下,让 AI 生成一段一个人“向前走”的动画。以今天的标准来看,这是一个已经解决的问题。现代扩散模型可以在几秒钟内生成逼真的行走循环。但是,如果你增加了复杂性会发生什么?如果你要求一个人“向前走并且挥动双手,但不要转身”呢? ...

2024-12 · 9 分钟 · 4238 字
[Enduring, Efficient and Robust Trajectory Prediction Attack in Autonomous Driving via Optimization-Driven Multi-Frame Perturbation Framework 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Yu_Enduring_Efficient_and_Robust_Trajectory_Prediction_Attack_in_Autonomous_Driving_CVPR_2025_paper.pdf)

纸板箱如何迷惑自动驾驶汽车:深入解析 OMP-Attack

自动驾驶 (AD) 的承诺建立在信任之上——相信车辆能够感知环境、预测他人行为并规划安全路线。但是,如果几个策略性放置的纸板箱就能粉碎这种信任呢? 在对抗性机器学习领域,研究人员不断探索系统的弱点以构建更安全的系统。最近一篇题为 Enduring, Efficient and Robust Trajectory Prediction Attack in Autonomous Driving via Optimization-Driven Multi-Frame Perturbation Framework 的论文揭示了自动驾驶汽车预测其他车辆运动方式的一个重大漏洞。作者介绍了一种名为 OMP-Attack 的新方法,该方法利用简单的物理物体欺骗自动驾驶汽车 (AV) ,使其为了避免一场并不存在的“幽灵”碰撞而紧急刹车。 ...

8 分钟 · 3669 字
[End-to-End HOI Reconstruction Transformer with Graph-based Encoding 🔗](https://arxiv.org/abs/2503.06012)

HOI-TG 如何解决 3D 人物-物体重建中的全局与局部冲突

在快速发展的计算机视觉领域,从 2D 图像重建 3D 人物是一个经过充分研究的问题。但人类很少存在于真空中。我们拿着手机,坐在椅子上,骑着自行车,搬运箱子。当方程中加入物体时,复杂性便会呈爆炸式增长。 ...

2025-03 · 6 分钟 · 2824 字
[Empowering Vector Graphics with Consistently Arbitrary Viewing and View-dependent Visibility 🔗](https://arxiv.org/abs/2505.21377)

Dream3DVG:跨越文本到3D与矢量图形之间的鸿沟

Dream3DVG: 跨越文本到3D与矢量图形之间的鸿沟 在数字设计领域,矢量图形是清晰度和可扩展性的黄金标准。与基于像素的图像 (光栅图形) 在放大时会变模糊不同,矢量图形由数学路径——线条、曲线和形状——定义,无论分辨率如何都能保持清晰。它们是徽标、图标和概念艺术的基石。 ...

2025-05 · 7 分钟 · 3482 字