](https://deep-paper.org/en/paper/file-2155/images/cover.png)
别再对数据取平均了:最优传输如何彻底改变数据集蒸馏
别再对数据取平均了: 最优传输如何彻底改变数据集蒸馏 在深度学习的当今时代,我们目睹了对数据的极度渴求。像 CLIP 或现代大型语言模型 (LLM) 这样的模型会消耗数百万,有时甚至是数十亿个数据点。虽然效果显著,但这种规模在存储和计算方面造成了巨大的瓶颈。在这些海量数据集上从头开始训练模型,正逐渐成为只有那些拥有超级计算集群的人才能享有的特权。 ...
](https://deep-paper.org/en/paper/file-2155/images/cover.png)
别再对数据取平均了: 最优传输如何彻底改变数据集蒸馏 在深度学习的当今时代,我们目睹了对数据的极度渴求。像 CLIP 或现代大型语言模型 (LLM) 这样的模型会消耗数百万,有时甚至是数十亿个数据点。虽然效果显著,但这种规模在存储和计算方面造成了巨大的瓶颈。在这些海量数据集上从头开始训练模型,正逐渐成为只有那些拥有超级计算集群的人才能享有的特权。 ...
](https://deep-paper.org/en/paper/2503.12096/images/cover.png)
在飞速发展的人工智能世界中,像 CLIP 这样的视觉语言模型 (VLM) 已成为明星。它们拥有一种惊人的能力,可以同时理解图像和文本,这使得它们能够在训练期间从未见过的物体上进行分类——这种能力被称为零样本推理 。 ...
](https://deep-paper.org/en/paper/2503.17142/images/cover.png)
解码视觉: 如何在图像嵌入中发现组合结构 人类天生善于组合。当你看到“红色汽车”时,你不仅将其视为一个独特的、原子的实体;你会本能地将其理解为一个对象 (“汽车”) 和一个属性 (“红色”) 的结合。这种将复杂的概念分解为更简单、可重用部分的能力被称为组合性 (Compositionality) 。 它使我们能够理解以前从未见过的东西。如果你知道“蓝色”是什么样子的,也知道“香蕉”是什么样子的,你就可以想象出一个“蓝色的香蕉”,即使你从未见过它。 ...
](https://deep-paper.org/en/paper/file-2152/images/cover.png)
引言 在计算机视觉领域,我们一直在与硬件限制进行着一场持久战。我们想要处理海量的十亿像素级图像——比如卫星地图、4K 医疗扫描图、细节丰富的路面检测图——但我们的 GPU 显存 (VRAM) 却是有限的。 ...
](https://deep-paper.org/en/paper/2503.18794/images/cover.png)
引言 在计算机视觉快速发展的领域中,梦想始终如一: 拍摄几张物体或场景的照片,然后立即生成一个照片级真实、可漫游的 3D 模型。很长一段时间以来,这是一项困难且计算量巨大的任务。随后出现了神经辐射场 (NeRFs),它彻底改变了视图合成的质量,但渲染速度却极其缓慢。最近, 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 异军突起,提供了可与 NeRF 媲美甚至超越其质量的实时渲染速度。 ...
](https://deep-paper.org/en/paper/2503.18361/images/cover.png)
引言 从一组 2D 图像重建高质量的 3D 表面是计算机视觉领域的“终极难题”之一。这听起来很简单——人类用双眼就能轻松做到——但对于算法来说,将一系列照片转换成一个水密 (watertight) 、平滑的 3D 网格却异常困难。对于室内场景而言尤其如此,因为那里充满了无纹理的墙壁、复杂的遮挡和反射表面。 ...
](https://deep-paper.org/en/paper/file-2149/images/cover.png)
引言 我们都有过这样的经历。你正试着编辑一张照片,也许是想把主体抠出来放到新的背景上。你使用智能选择工具,点击物体,大多数时候,它像魔术一样神奇。但当你遇到头发、自行车辐条或风筝上细细的线时,魔法消失了。你发现自己把图片放大到 400%,试图精确点击那一像素宽的线条,结果工具却选中了整片天空。 ...
](https://deep-paper.org/en/paper/2506.06898/images/cover.png)
引言 能够窥探人类思想并看到一个人正在想象什么,长期以来一直是科幻小说的范畴。从《盗梦空间》 (Inception) 到《黑镜》 (Black Mirror) ,“梦境记录仪”的概念抓住了我们的集体想象力。然而,在计算神经科学领域,这并非虚构——这是一个活跃且快速发展的研究领域,被称为 fMRI 图像重建 (fMRI-to-image reconstruction) 。 ...
](https://deep-paper.org/en/paper/2412.01256/images/cover.png)
像 CLIP 这样的视觉-语言模型 (VLMs) 的兴起,从根本上改变了我们处理计算机视觉的方式。我们不再需要从头开始训练庞大的网络,而是拥有了“提示”预训练模型来识别其已学概念的便利。通过给模型输入一张图像和一段如“一张狗的照片”这样的文本描述,我们就能以令人印象深刻的准确率实现零样本分类。 ...
](https://deep-paper.org/en/paper/2502.05165/images/cover.png)
超越简单的复制粘贴: 利用 Multitwine 掌握多对象合成技术 在快速发展的生成式 AI 世界中,图像编辑早已超越了简单的像素操作。我们正处于“主体驱动生成 (subject-driven generation) ”的时代,我们可以要求模型将特定的物体插入到特定的场景中。然而,虽然像 Stable Diffusion 这样的工具已经掌握了生成单个对象的艺术,但当任务变得复杂时,它们就会遇到瓶颈。 ...
](https://deep-paper.org/en/paper/file-2145/images/cover.png)
打破网格限制: 自适应格点如何彻底改变神经图像压缩 我们生活在一个由视觉数据主导的世界里。从流媒体播放 4K 视频到在 Instagram 上滑动浏览,图像压缩是维持互联网运转的隐形引擎。几十年来,像 JPEG 这样的标准定义了这一领域。但在过去五年中,利用深度神经网络 (DNN) 对图像进行编码的神经图像压缩 (Neural Image Compression) 技术迅速超越了传统的人工设计方法。 ...
](https://deep-paper.org/en/paper/2410.10604/images/cover.png)
在医学人工智能飞速发展的世界里,标注数据的稀缺一直是一个持续存在的瓶颈。虽然深度学习模型在海量数据上表现出色,但获取医学扫描的完美像素级标注——例如逐层勾勒脑肿瘤——需要受过高度训练的放射科医生付出数小时的手工劳动。 ...
](https://deep-paper.org/en/paper/file-2142/images/cover.png)
引言: 知道“物体在哪里”的高昂代价 在计算机视觉领域,语义分割 (Semantic Segmentation) 是各项任务中的“圣杯”之一。仅仅说“这张照片里有一只猫”是不够的;我们想确切知道哪些像素属于这只猫。这种细节程度对于自动驾驶 (区分道路和人行道) 和医学成像 (将肿瘤与健康组织分离) 至关重要。 ...
](https://deep-paper.org/en/paper/2504.05046/images/cover.png)
你是否曾看过电影里的 CGI 角色或者一个试图行走的人形机器人,总觉得哪里有点……不对劲?画面可能完美无瑕,机器人的关节可能闪烁着金属光泽,但脚似乎在地面上轻微滑动,就像在滑冰一样,或者身体看起来没有重量感,仿佛漂浮着。 ...
](https://deep-paper.org/en/paper/file-2140/images/cover.png)
引言 在计算机视觉的世界里,感知深度至关重要。无论是自动驾驶汽车在繁忙的街道上穿梭,还是机械臂伸手去拿杯子,机器都需要确切知道物体有多远。 多年来, 立体匹配 (Stereo Matching) 一直是这一领域的黄金标准。它模仿人类的双眼,利用左右图像之间的视差 (Disparity) 来进行三角测量以确定距离。但这里有一个陷阱: 立体匹配依赖于在左图和右图中找到完全相同的特征。当汽车驶入纹理缺失的白色隧道,或是面对高反光的玻璃建筑时,那些匹配线索就会消失。立体视觉本质上就变成了“盲人”。 ...
](https://deep-paper.org/en/paper/2503.09962/images/cover.png)
如何教 AI 像成千上万的人类一样写作: 一种用于行人重识别的合成数据新方法 在计算机视觉快速发展的世界里,数据就是新的石油。但对于像文本到图像行人重识别 (ReID) 这样的特定任务来说,这口油井正在枯竭。手工标注数百万张图像并提供详细文本描述的成本是天文数字。 ...
](https://deep-paper.org/en/paper/2405.17421/images/cover.png)
想象一下,你用智能手机随手拍了一段街头表演或者朋友跳入泳池的视频。现在,想象一下你能够将这段视频定格在任何时刻,旋转摄像机从全新的角度观看动作,甚至在保持背景完好无损的情况下将某个人从场景中完全移除。 ...
](https://deep-paper.org/en/paper/2504.05838/images/cover.png)
像素中的特洛伊木马: 图像适配器如何开启新一波 AI 越狱攻击 文本生成图像扩散模型 (T2I-DMs) 如 Stable Diffusion、Midjourney 和 DALL-E 的迅速崛起彻底改变了数字创意领域。我们现在仅凭一句话就能变幻出精妙的世界。然而,能力越大,随之而来的安全斗争也不可避免: 越狱 (Jailbreaking) 。 ...
](https://deep-paper.org/en/paper/2503.10000/images/cover.png)
简介 在计算机视觉和计算机图形学快速发展的世界中,隐式神经表示 (Implicit Neural Representations, INRs) 已成为一项基石技术。无论是用于 3D 场景重建的神经辐射场 (NeRFs) ,还是图像的新型压缩方法,INRs——将信号表示为由神经网络参数化的连续函数——无处不在。 ...
](https://deep-paper.org/en/paper/file-2135/images/cover.png)
别再靠猜了,开始学习吧: 利用元学习自动化 PEFT 超参数 在 GPT-4、CLIP 和 Stable Diffusion 等大规模基础模型盛行的时代,机器学习的范式已经发生了转变。我们现在很少从头开始训练模型。相反,我们采用一个预训练好的巨型模型,并针对我们的特定需求对其进行“微调”。 ...