[LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis 🔗](https://arxiv.org/abs/2412.15214)

超越平面视频:利用 LeviTor 掌握生成式 AI 中的 3D 轨迹控制

引言 在生成式 AI 飞速发展的今天,我们已经从生成静态图像迅速迈向了生成全动态视频。像 Sora、Runway 和 Stable Video Diffusion 这样的工具向我们展示了 AI 构想动态场景的能力。然而,要让这些工具在专业工作流 (如电影制作、游戏设计或 VR) 中真正发挥作用,仅仅依靠随机生成是不够的。我们需要控制 。 ...

2024-12 · 7 分钟 · 3217 字
[Lessons and Insights from a Unifying Study of Parameter-Efficient Fine-Tuning (PEFT) in Visual Recognition 🔗](https://arxiv.org/abs/2409.16434)

PEFT 漫游指南:用微小的更新解锁视觉 Transformer

PEFT 漫游指南: 用微小的更新解锁视觉 Transformer 如果你今天身处计算机视觉领域,你很可能生活在“下载、预训练、微调”的时代。我们可以访问像 Vision Transformers (ViT) 或 CLIP 这样在数百万 (甚至数十亿) 张图像上训练出来的海量基础模型。但这里有个陷阱: 这些模型太大了。 ...

2024-09 · 6 分钟 · 2957 字
[Less is More: Efficient Model Merging with Binary Task Switch 🔗](https://arxiv.org/abs/2412.00054)

如何将模型存储减少 97%:T-Switch 方法

在快速发展的人工智能领域,我们已经从从头开始训练模型,迈向了一个新的范式: 利用海量的预训练模型,并针对特定任务对其进行微调 (fine-tuning) 。无论是训练识别卫星图像的视觉模型,还是微调用于法律咨询的语言模型,我们都被“通用”模型的“专家”版本所包围。 ...

2024-12 · 6 分钟 · 2823 字
[Learning to Filter Outlier Edges in Global SfM 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Damblon_Learning_to_Filter_Outlier_Edges_in_Global_SfM_CVPR_2025_paper.pdf)

收拾烂摊子——图神经网络和线图如何彻底改变 3D 重建

引言 从杂乱无章的 2D 照片集中重建 3D 世界是计算机视觉的“魔术”之一。这一过程被称为运动恢复结构 (Structure-from-Motion,简称 SfM) ,它支撑着从 Google Earth 3D 视图到自动驾驶汽车测绘以及数字遗产保护等各种应用。 ...

8 分钟 · 3790 字
[Learning Phase Distortion with Selective State Space Models for Video Turbulence Mitigation 🔗](https://arxiv.org/abs/2504.02697)

透视热浪:MambaTM 和学习型相位失真如何解决大气湍流问题

引言 想象一下,在炎炎夏日俯视一条长长的柏油路。空气在闪烁,导致景色摇晃、模糊和扭曲。这种现象被称为大气湍流,是由于温度变化影响空气折射率而产生的模糊和几何变形的混沌组合。虽然这种“热浪”在肉眼看来可能具有某种艺术感,但对于用于监控、遥感和天文学的远距离成像系统来说,它简直是一场噩梦。 ...

2025-04 · 8 分钟 · 3709 字
[Learning Conditional Space-Time Prompt Distributions for Video Class-Incremental Learning 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Zou_Learning_Conditional_Space-Time_Prompt_Distributions_for_Video_Class-Incremental_Learning_CVPR_2025_paper.pdf)

通过教模型“构想”提示词来掌握视频持续学习

简介 想象一下教一个孩子识别狗。一旦他们学会了,你再教他们识别猫。理想情况下,学习关于猫的知识不应让他们忘记狗的样子。这就是 持续学习 (Continual Learning, CL) 的本质。人类天生擅长这一点;然而,人工神经网络却并非如此。当深度学习模型按顺序在新的数据类别上进行训练时,它们往往会遭遇“灾难性遗忘 (Catastrophic Forgetting)”——它们会为了新任务优化权重,从而覆盖掉旧任务所需的权重。 ...

9 分钟 · 4063 字
[Learning Class Prototypes for Unified Sparse Supervised 3D Object Detection 🔗](https://arxiv.org/abs/2503.21099)

利用类原型弥合室内外 3D 目标检测的差距

引言 在计算机视觉飞速发展的世界里,3D 目标检测是自动驾驶和具身智能 (embodied robotics) 等技术的支柱。为了在世界中导航,机器必须以三维的方式感知它。然而,驱动这些感知的深度学习模型对数据有着巨大的渴望——特别是精确的 3D 边界框标注。 ...

2025-03 · 8 分钟 · 3625 字
[Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene 🔗](https://arxiv.org/abs/2503.15019)

如何训练你的 4D 模型:从静态 2D 图像中学习动态场景图

想象一下教机器人理解世界。如果你给它看一张厨房的照片,它可能会认出“杯子”和“桌子”。但现实世界并不是一张静态的照片;它是一个连续、动态的事件流。一个人走进来,拿起杯子,然后喝水。为了真正感知现实,人工智能不仅需要理解事物是什么,还需要理解它们如何在时间和空间上进行交互。 ...

2025-03 · 7 分钟 · 3323 字
[Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis 🔗](https://arxiv.org/abs/2412.20651)

跨越鸿沟:Latent Drifting 如何让 Stable Diffusion 适应医学影像

引言 在过去几年里,计算机视觉领域已经被生成式 AI 完全颠覆。像 Stable Diffusion 和 DALL-E 这样的模型展示了从简单的文本提示生成逼真图像的惊人能力。它们“知道”狗长什么样,夕阳如何在水面上反射,以及宇航员骑马是什么样子。这是通过在包含数十亿图像-文本对 (如 LAION-5B) 的海量数据集上进行训练实现的。 ...

2024-12 · 7 分钟 · 3374 字
[Label Shift Meets Online Learning: Ensuring Consistent Adaptation with Universal Dynamic Regret 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Dai_Label_Shift_Meets_Online_Learning_Ensuring_Consistent_Adaptation_with_Universal_CVPR_2025_paper.pdf)

驯服数据流:通用动态遗憾如何解决在线标签偏移

在机器学习的理想世界中,数据是静态的。我们在数据集上训练模型,对其进行验证,然后部署,假设世界将永远像我们的训练集一样运行。但在现实世界中,数据是一股躁动不安的流。趋势在变,行为在变,我们要预测的类别的分布也会随时间剧烈波动。 ...

7 分钟 · 3325 字
[LATEXBLEND: Scaling Multi-concept Customized Generation with Latent Textual Blending 🔗](https://arxiv.org/abs/2503.06956)

混合记忆:LATEXBLEND 如何扩展个性化 AI 艺术创作

文本到图像生成的时代已经超越了仅仅输入“一只猫”并获得一只通用猫的阶段。如今,用户想要的是他们的猫——具体来说,就是那只正坐在他们沙发上的毛茸茸的斑纹猫。这被称为定制化生成 (Customized Generation) 。 ...

2025-03 · 6 分钟 · 2653 字
[LP-Diff: Towards Improved Restoration of Real-World Degraded License Plate 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Gong_LP-Diff_Towards_Improved_Restoration_of_Real-World_Degraded_License_Plate_CVPR_2025_paper.pdf)

让模糊变得清晰:LP-Diff 如何修复真实世界的车牌

介绍 我们在犯罪侦查剧中都见过这样的老套路: 播放一段从逃逸车辆上拍摄的粗糙、马赛克化的视频,探员说一句“增强”,突然间车牌就变得清晰可见。在现实中,车牌图像修复 (LPIR) 要困难得多。高速运动、光线不足、距离过远以及相机抖动等因素结合在一起,造成了严重的退化,即使是最好的光学字符识别 (OCR) 系统也会感到困惑。 ...

7 分钟 · 3067 字
[LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models 🔗](https://arxiv.org/abs/2501.18954)

超越类别名称:LLMDet 如何利用详细描述彻底改变目标检测

引言 多年来,目标检测领域一直受限于一种“闭集 (closed-set) ”思维。传统模型被训练用于识别特定的类别列表——通常是 COCO 数据集中的 80 个类别 (如“人”、“车”或“狗”) 。如果你向这些模型展示一只“鸭嘴兽”或一架“无人机”,它们会保持沉默或将其错误分类,因为它们根本没有相应的词汇量。 ...

2025-01 · 7 分钟 · 3158 字
[KAC: Kolmogorov-Arnold Classifier for Continual Learning 🔗](https://arxiv.org/abs/2503.21076)

给 AI 更好的记忆力:初识 Kolmogorov-Arnold 分类器

深度学习模型在学习特定任务方面表现出色。训练一个模型来分类狗,它能完美完成任务。但如果随后要求同一个模型学习如何分类汽车,你就会遇到一个臭名昭著的问题: 灾难性遗忘 (Catastrophic Forgetting) 。 在学习关于汽车的知识的过程中,模型完全忘记了狗长什么样。 ...

2025-03 · 7 分钟 · 3382 字
[Just Dance with pi! A Poly-modal Inductor for Weakly-supervised Video Anomaly Detection 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Majhi_Just_Dance_with_pi_A_Poly-modal_Inductor_for_Weakly-supervised_Video_CVPR_2025_paper.pdf)

AI 能通过“脑补”深度和姿态来抓捕犯罪吗?深入解析 PI-VAD

AI 能通过“脑补”深度和姿态来抓捕犯罪吗?深入解析 PI-VAD 想象一下,你正注视着一家繁忙商店的监控画面。你看到一位顾客拿起一件商品,看了看,然后把它放进包里。这是正常的购物行为,还是入店行窃? ...

7 分钟 · 3311 字
[Is this Generated Person Exist in Real-world? Fine-grained Detecting and Calibrating Abnormal Human-body 🔗](https://arxiv.org/abs/2411.14205)

修复 AI 幻觉:HumanCalibrator 如何检测并修复人体解剖结构噩梦

引言 我们正处于视觉合成的黄金时代。像 Stable Diffusion、Midjourney 和 DALL-E 这样的文生图模型彻底改变了我们创造内容的方式,让我们只需一句话就能从无到有地变出逼真的场景。然而,如果你花过时间尝试这些工具,你很可能遇到过 AI 生成的“恐怖谷”: 解剖结构问题。 ...

2024-11 · 7 分钟 · 3379 字
[Interpreting Object-level Foundation Models via Visual Precision Search 🔗](https://arxiv.org/abs/2411.16198)

利用视觉精确搜索解锁视觉语言模型的黑盒

引言 想象一辆自动驾驶汽车驶过繁忙的十字路口。它突然因为一个行人刹车了。作为一名工程师或用户,你可能会问: 它真的看到那个行人了吗?还是它只是对路面上一个看起来像人的阴影做出了反应? ...

2024-11 · 7 分钟 · 3112 字
[InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing 🔗](https://arxiv.org/abs/2505.24315)

AI 如何学会抓取:深入解读 InteractAnything

想象一下你正在构建一个虚拟世界。你有一个椅子的 3D 模型和一个人物的 3D 模型。现在,你想让人坐在椅子上。在传统动画中,这是一个手动的、枯燥的过程。你必须拖动角色,弯曲他们的膝盖,确保他们不会穿模 (clip through) 穿过木头,并把他们的手自然地放在扶手上。 ...

2025-05 · 8 分钟 · 3573 字
[INTERMIMIC: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions 🔗](https://arxiv.org/abs/2502.20390)

掌握交互物理学:InterMimic 如何教虚拟人应对真实世界

简介 在计算机动画和机器人领域,行走已经是一个被解决的问题。我们可以以令人印象深刻的保真度模拟双足运动。然而,一旦你要求虚拟角色与世界进行交互——拿起盒子、坐在椅子上或推手推车——这种错觉往往会破灭。手漂浮在物体上方几英寸处,脚滑过桌腿,或者角色干脆乱动一番然后摔倒。 ...

2025-02 · 6 分钟 · 2944 字
[Instruction-based Image Manipulation by Watching How Things Move 🔗](https://arxiv.org/abs/2412.12087)

InstructMove - 观看视频如何教会 AI 执行复杂的图像编辑

InstructMove: 观看视频如何教会 AI 执行复杂的图像编辑 近年来,文本到图像生成领域呈现爆炸式增长。我们现在可以通过一个简单的句子变幻出超写实的场景。然而,一个巨大的挑战依然存在: 编辑 。 一旦图像生成完毕 (或者你有一张真实照片) ,如何在不破坏图像其他部分身份特征的前提下,改变特定的元素——比如让一个人微笑或旋转一辆车? ...

2024-12 · 7 分钟 · 3461 字