](https://deep-paper.org/en/paper/file-2218/images/cover.png)
少即是多:中央凹视觉如何优化 AI 模型
人眼是生物工程的奇迹,但它也出奇地节约。我们并不是以均匀的高清晰度来感知世界。相反,我们拥有一个中央凹 (fovea) ——一个具有高敏锐度的小型中心区域——周围是逐渐模糊成低分辨率的周边区域。这种机制使我们能够有效地处理复杂的场景,在最需要的地方分配有限的生物资源 (光感受器和视神经带宽) 。 ...
](https://deep-paper.org/en/paper/file-2218/images/cover.png)
人眼是生物工程的奇迹,但它也出奇地节约。我们并不是以均匀的高清晰度来感知世界。相反,我们拥有一个中央凹 (fovea) ——一个具有高敏锐度的小型中心区域——周围是逐渐模糊成低分辨率的周边区域。这种机制使我们能够有效地处理复杂的场景,在最需要的地方分配有限的生物资源 (光感受器和视神经带宽) 。 ...
](https://deep-paper.org/en/paper/2501.01320/images/cover.png)
视频修复是一个带有现代色彩的经典计算机视觉问题。我们都有这样的视频素材——无论是家庭老电影、低质量的流媒体视频,还是人工智能生成的片段——它们往往受困于模糊、噪点或低分辨率。 通用视频修复 (Generic Video Restoration, VR) 的目标就是接收这些低质量 (LQ) 的输入并重构出高质量 (HQ) 的输出,恢复那些似乎因时间流逝或压缩而丢失的细节。 ...
](https://deep-paper.org/en/paper/2503.06965/images/cover.png)
引言 在智能监控不断发展的格局中,我们正见证着两个截然不同世界的融合: 地面和天空。传统的安防系统严重依赖固定在视线水平或略高位置的闭路电视 (CCTV) 摄像头。然而,无人机 (UAV) 的迅速普及引入了一个全新的有利视角。这种结合提供了全面的覆盖,但也引发了一个巨大的计算难题,即空地行人重识别 (AGPReID) 。 ...
](https://deep-paper.org/en/paper/2504.01955/images/cover.png)
AI 能在没有标签的情况下理解复杂场景吗?深入了解 CUPS 想象一下,你正在教一个孩子识别繁忙城市街道上的物体。你指着一辆车说“车”,指着路说“路”。最终,孩子学会了。这本质上就是计算机视觉中监督学习的工作原理: 我们给算法输入成千上万张图像,其中每个像素都由人类费力地标注过。 ...
](https://deep-paper.org/en/paper/2503.19903/images/cover.png)
简介 想象一下你在高速公路上开车。在远处,你发现了一个路标。为了看清上面的文字,你的眼睛会自然地聚焦在那一小块特定区域,以高清晰度感知它,而你的周边视觉则保持较低的分辨率。你不会用同样的微观强度去处理整个风景;那会让你的大脑不堪重负。你会分清主次。 ...
](https://deep-paper.org/en/paper/file-2213/images/cover.png)
在生成式 AI 时代,我们已经习惯了一个被称为“缩放定律 (Scaling Laws) ”的简单真理: 如果你想要一个更好的模型,你需要用更多的数据、更多的参数和更长的时间来训练它。这一秘诀推动了大型语言模型 (LLM) 和扩散模型的爆炸式成功。 ...
](https://deep-paper.org/en/paper/2502.07814/images/cover.png)
用扩散模型解码天气: 卫星数据如何引导超分辨率重建 天气预报是一场关于尺度的博弈。在全球层面上,我们对大型压力系统和急流的运动了解得相当透彻。但当我们放大视野——细化到一座城市、一个农场或一台风力涡轮机的层级时——情况就变得模糊不清了。我们依赖的数据,通常来自像 ERA5 这样的再分析数据集,往往是以低分辨率网格 (例如 25km x 25km 的方块) 提供的。 ...
](https://deep-paper.org/en/paper/file-2211/images/cover.png)
当你观看一张照片时,你的眼睛不会以同样的强度处理每一个像素。你会瞬间聚焦在“重要”的部分——一个挥手的人、一辆鲜红色的汽车,或者一只坐在篱笆上的猫。这种生物机制就是计算机视觉研究者所称的 显著性目标检测 (Salient Object Detection, SOD) 。 ...
](https://deep-paper.org/en/paper/2503.15934/images/cover.png)
引言 在计算机视觉领域,图像风格迁移 (ST) 是最具视觉吸引力的任务之一。它使我们能够将一张内容图像 (如街道照片) 与一张风格图像 (如《星月夜》) 融合,让照片看起来像是梵高亲手绘制的一样。 ...
](https://deep-paper.org/en/paper/2503.20354/images/cover.png)
引言 想象一下,你训练了一个最先进的计算机视觉模型,用于自动驾驶汽车的行人检测。它在原本进行训练的阳光明媚的加利福尼亚运行完美。但当你把它部署到伦敦阴雨绵绵的街道上时,准确率直线下降。视觉条件——即“分布”——发生了变化。 ...
](https://deep-paper.org/en/paper/2504.02823/images/cover.png)
引言 想象一下,你正站在繁忙的机场安检队伍中。当你的包消失在X射线通道中时,一名安检员正全神贯注地盯着监视器,试图解读一团复杂的、伪彩色的重叠形状。他们的工作是从电缆、笔记本电脑和衣服中识别出隐藏的威胁——枪支、刀具、爆炸物。这项任务需要极大的专注力,而人类的疲劳或分心可能会导致严重的错误。 ...
](https://deep-paper.org/en/paper/2408.16807/images/cover.png)
引言 大规模文本到图像扩散 (T2ID) 模型 (如 Stable Diffusion) 的兴起彻底改变了数字创意领域。用户只需输入一段简单的文本提示词,就能生成照片级逼真的图像、艺术作品和设计图。然而,这种能力也伴随着巨大的风险。由于是在从开放互联网上抓取的海量数据集上训练的,这些模型往往会无意中记忆并生成不当内容——从 NSFW (不适合工作场所) 材料和受版权保护的艺术风格,到被禁止的物体。 ...
](https://deep-paper.org/en/paper/2409.17993/images/cover.png)
引言 在计算机视觉领域,最基础的任务之一就是对齐。无论是无人机通过卫星地图导航,机器人融合红外与可见光数据,还是医疗系统叠加 MRI 和 CT 扫描,系统都必须理解两幅图像在几何上是如何关联的。这种关系通常由单应性 (Homography) 来描述——这是一种将点从一个视角映射到另一个视角的变换。 ...
](https://deep-paper.org/en/paper/2503.06467/images/cover.png)
引言: 感知的昂贵代价 如果你曾尝试过计算机视觉,你就会明白其中的套路: 模型是饥饿的。它们对数据,特别是带标签的数据,有着无法满足的胃口。在2D图像的世界里,给一只猫画个框相对容易。但在依靠激光雷达 (LiDAR) 生成的3D点云进行感知的自动驾驶领域,游戏规则变了。 ...
](https://deep-paper.org/en/paper/2412.09401/images/cover.png)
引言 计算机视觉领域的圣杯之一,就是能够通过智能手机拍摄一段简单的视频,并立即将其转化为环境中高度详细的稠密 3D 模型。想象一下,当你穿过一个房间进行拍摄,当你停止录制时,屏幕上已经准备好了一个数字孪生模型。 ...
](https://deep-paper.org/en/paper/file-2203/images/cover.png)
超越人类姿态: 使用 SKDream 生成基于任意骨骼的 3D 生物 生成式 AI 领域的发展速度惊人。我们从最初的文本生成 2D 图像,发展到生成 3D 资产,现在正在向可控性 (controllability) 的边界推进。虽然像“一条凶猛的龙”这样的文本提示词非常强大,但它们留下了太多的随机性。如果你希望那条龙处于特定的蹲伏姿势怎么办?如果你想要一棵树的分支长在确切的位置怎么办? ...
](https://deep-paper.org/en/paper/2503.04119/images/cover.png)
引言 神经风格迁移 (Neural Style Transfer, NST) 一直是深度学习领域最具视觉吸引力的应用之一。将你家附近公园的照片渲染成梵高《星月夜》那种旋转的印象派笔触,感觉就像魔法一样。多年来,该领域已从缓慢的、基于优化的方法演变为“任意风格迁移” (Arbitrary Style Transfer, AST) ——即能够实时将任何风格应用于任何内容图像的系统。 ...
](https://deep-paper.org/en/paper/2411.17646/images/cover.png)
Segment Anything Model (SAM) 及其视频版本 SAM2 的发布标志着计算机视觉领域的一个关键时刻。这些模型功能极其强大;仅需一个点或一个边界框,它们就能以近乎完美的精度分割物体,并在视频中对其进行跟踪。 ...
](https://deep-paper.org/en/paper/2503.19592/images/cover.png)
引言 在医学影像领域,配准 (alignment) 至关重要。无论是临床医生追踪肿瘤随时间的生长情况,还是将患者的大脑解剖结构与标准图谱进行对比,图像都必须完美重叠。这一过程被称为可变形图像配准 (Deformable Image Registration, DIR) 。 ...
](https://deep-paper.org/en/paper/2504.13059/images/cover.png)
引言 在机器人领域,我们经常惊叹于机器人完成后空翻或跳舞的视频。但是,如果你要求机器人协调双手将一双鞋子整齐地放入鞋盒中,你可能会看到它陷入挣扎。 ...