](https://deep-paper.org/en/paper/2503.07591/images/cover.png)
大幅削减 AI 训练成本:视觉指令微调的新范式
如果你一直在关注 LLaVA、GPT-4V 或 Gemini 等大型视觉语言模型 (LVLM) 的爆发式增长,你会知道它们理解和推理图像的能力令人印象深刻。然而,在每一个强大的模型背后,都存在一个巨大且昂贵的瓶颈: 视觉指令微调 (Visual Instruction Tuning, VIT) 。 ...
](https://deep-paper.org/en/paper/2503.07591/images/cover.png)
如果你一直在关注 LLaVA、GPT-4V 或 Gemini 等大型视觉语言模型 (LVLM) 的爆发式增长,你会知道它们理解和推理图像的能力令人印象深刻。然而,在每一个强大的模型背后,都存在一个巨大且昂贵的瓶颈: 视觉指令微调 (Visual Instruction Tuning, VIT) 。 ...
](https://deep-paper.org/en/paper/2501.01601/images/cover.png)
在当前的人工智能领域,我们已经习惯了生成数据的模型: 用于图像的像素、用于文本的 Token,或用于音频的波形。但一个新的前沿领域正在兴起——生成模型本身。 ...
](https://deep-paper.org/en/paper/file-2026/images/cover.png)
引言 在人工智能快速发展的领域中,像 LLaVA 和 BLIP 这样的视觉语言模型 (VLMs) 已成为强大的工具,能够基于视觉和文本输入理解并生成内容。这些模型在医疗保健等专业领域前景广阔,例如,模型可能需要分析胸部 X 光片并回答医生提出的自然语言问题。 ...
](https://deep-paper.org/en/paper/2503.19207/images/cover.png)
引言 想象一下,用智能手机快速拍几张自己的照片——正面、背面,也许还有侧面——几秒钟内,你就拥有了一个完全 3D 的数字替身。这不仅仅是一个静态雕像,而是一个完全绑定、可动画的化身,穿着和你一模一样的衣服,随时可以被放入 VR 聊天室或视频游戏中。 ...
](https://deep-paper.org/en/paper/2503.23094/images/cover.png)
让化身脚踏实地: 几何先验与海量数据如何解决以自我为中心的动作捕捉 如果你使用过现代虚拟现实 (VR) 头显,你可能已经注意到了缺了点什么: 你的腿。大多数当前的 VR 化身 (Avatar) 都是带着双手的漂浮躯干,像是在数字虚空中漂移的幽灵。这并非风格选择,而是一种技术限制。 ...
](https://deep-paper.org/en/paper/2412.00932/images/cover.png)
超越 2D: 预测人类在 3D 空间交互的“位置”与“方式” 想象一下,厨房里有一个机器人助手在观察你。你正在泡茶。你刚烧好水。一个真正有用的助手不仅应该识别出你当前是“站立”状态,还应该预判在接下来的几秒钟内,你会走向橱柜,伸手去拿马克杯,然后走向冰箱拿牛奶。 ...
](https://deep-paper.org/en/paper/2506.11543/images/cover.png)
引言 视觉 Transformer (Vision Transformers, ViTs) 彻底改变了计算机视觉领域,挑战了卷积神经网络 (CNN) 长期以来的统治地位。通过利用自注意力机制,ViT、DeiT 和 Swin Transformer 等模型在分类和检测任务中取得了显著成果。然而,这种高性能伴随着巨大的代价: 庞大的参数量和高昂的计算开销。 ...
](https://deep-paper.org/en/paper/2503.00948/images/cover.png)
图生视频 (Image-to-Video, I2V) 生成是计算机视觉领域最令人兴奋的前沿方向之一。它的前提充满魔力: 拍摄一张静止的照片——无论是路上的汽车、草地上的狗,还是山丘上的城堡——并为其注入生命。你希望汽车行驶,狗打滚,摄像机从城堡拉远。 ...
](https://deep-paper.org/en/paper/file-2019/images/cover.png)
创建现实世界物体的逼真“数字孪生”是现代计算机图形学的基石,它为从电影视觉特效到沉浸式 VR/AR 体验的一切提供动力。要让一个数字物体看起来真实,你需要两样东西: 它的形状 (表面法线) 和它的材质属性 (它有多亮或多粗糙) 。 ...
](https://deep-paper.org/en/paper/2412.06191/images/cover.png)
引言 想象一下试图拍摄一颗在空中飞行的子弹。现在,想象一下在拍完照片后 , 你决定实际上想要聚焦在子弹背后的目标上,而不是子弹本身。在传统摄影中,这是不可能的。你需要一台高速摄像机来冻结动作,以及一台光场相机来改变焦点。但是,高速摄像机是极度依赖数据的庞然大物,几秒钟的素材通常就需要千兆字节的存储空间,而光场相机通常速度慢且体积笨重。 ...
](https://deep-paper.org/en/paper/2411.17313/images/cover.png)
引言 在计算机视觉的世界里,我们通常沉迷于光的强度——即一个像素有多亮或多暗。但光还携带了另一层隐藏的信息: 偏振 (Polarization) 。 当光线从物体上反弹时,其电磁波的方向会发生变化。这些变化编码了标准相机根本无法捕捉到的关于物体形状、材料成分和表面纹理的丰富细节。 ...
](https://deep-paper.org/en/paper/2505.04657/images/cover.png)
1. 引言 我们生活在一个由视频内容主导的世界,但我们往往受限于拍摄设备的硬件条件。大多数视频都以固定的分辨率 (如 1080p) 和固定的帧率 (通常是 30 或 60 fps) 进行归档。但是,如果你想放大远处的细节而不想看到一团像素化的模糊画面呢?或者,如果你想放慢一个快速移动的动作镜头,而不希望它看起来像幻灯片呢? ...
](https://deep-paper.org/en/paper/2502.19630/images/cover.png)
引言 想象一下,你正以每小时60英里的速度在高速公路上行驶。在一瞬间,你闭上了眼睛。就在这短暂的时刻,你前方的车猛踩刹车。这一瞬间——当你没有任何视觉信息时——是令人恐惧的。 ...
](https://deep-paper.org/en/paper/2410.03665/images/cover.png)
引言 想象一下你戴着一副智能眼镜。你正走过客厅,伸手去拿咖啡杯,或者在键盘上打字。眼镜上装有摄像头,但它们是向外拍摄以通过地图构建世界的。它们能看到杯子、桌子,或许还能看到你的手进入画面。但它们看不见你——或者至少看不见你的躯干、腿或脚。 ...
](https://deep-paper.org/en/paper/2503.07026/images/cover.png)
简介 想象一下,你有一张完美的意大利辣香肠披萨照片,但你想移除其中一片,以露出下面的木制托盘。你启动了最先进的 AI 图像修补 (Inpainting) 工具,掩膜选区选中那片香肠,然后点击“生成”。 ...
](https://deep-paper.org/en/paper/file-2012/images/cover.png)
引言 想象一下,浏览数小时的监控录像,试图定位某个特定的人。你找的不仅仅是一张脸,而是描述特征: “一位穿红裙子的女士”、“一个背着背包的男人”或“戴眼镜的人”。在计算机视觉领域,这项任务被称为行人属性识别 (Pedestrian Attribute Recognition, PAR) 。 ...
](https://deep-paper.org/en/paper/2412.14706/images/cover.png)
引言 想象一下,让 AI 生成一段一个人“向前走”的动画。以今天的标准来看,这是一个已经解决的问题。现代扩散模型可以在几秒钟内生成逼真的行走循环。但是,如果你增加了复杂性会发生什么?如果你要求一个人“向前走并且挥动双手,但不要转身”呢? ...
](https://deep-paper.org/en/paper/file-2010/images/cover.png)
自动驾驶 (AD) 的承诺建立在信任之上——相信车辆能够感知环境、预测他人行为并规划安全路线。但是,如果几个策略性放置的纸板箱就能粉碎这种信任呢? 在对抗性机器学习领域,研究人员不断探索系统的弱点以构建更安全的系统。最近一篇题为 Enduring, Efficient and Robust Trajectory Prediction Attack in Autonomous Driving via Optimization-Driven Multi-Frame Perturbation Framework 的论文揭示了自动驾驶汽车预测其他车辆运动方式的一个重大漏洞。作者介绍了一种名为 OMP-Attack 的新方法,该方法利用简单的物理物体欺骗自动驾驶汽车 (AV) ,使其为了避免一场并不存在的“幽灵”碰撞而紧急刹车。 ...
](https://deep-paper.org/en/paper/2503.06012/images/cover.png)
在快速发展的计算机视觉领域,从 2D 图像重建 3D 人物是一个经过充分研究的问题。但人类很少存在于真空中。我们拿着手机,坐在椅子上,骑着自行车,搬运箱子。当方程中加入物体时,复杂性便会呈爆炸式增长。 ...
](https://deep-paper.org/en/paper/2505.21377/images/cover.png)
Dream3DVG: 跨越文本到3D与矢量图形之间的鸿沟 在数字设计领域,矢量图形是清晰度和可扩展性的黄金标准。与基于像素的图像 (光栅图形) 在放大时会变模糊不同,矢量图形由数学路径——线条、曲线和形状——定义,无论分辨率如何都能保持清晰。它们是徽标、图标和概念艺术的基石。 ...