CVPR 2025

少即是多：中央凹视觉如何优化 AI 模型

人眼是生物工程的奇迹，但它也出奇地节约。我们并不是以均匀的高清晰度来感知世界。相反，我们拥有一个中央凹 (fovea) ——一个具有高敏锐度的小型中心区域——周围是逐渐模糊成低分辨率的周边区域。这种机制使我们能够有效地处理复杂的场景，在最需要的地方分配有限的生物资源 (光感受器和视神经带宽) 。 ...

[SeedVR: Seeding Infinity in Diffusion Transformer Toward Generic Video Restoration 🔗](https://arxiv.org/abs/2501.01320)

SeedVR：突破视频修复的速度与分辨率极限

视频修复是一个带有现代色彩的经典计算机视觉问题。我们都有这样的视频素材——无论是家庭老电影、低质量的流媒体视频，还是人工智能生成的片段——它们往往受困于模糊、噪点或低分辨率。通用视频修复 (Generic Video Restoration, VR) 的目标就是接收这些低质量 (LQ) 的输入并重构出高质量 (HQ) 的输出，恢复那些似乎因时间流逝或压缩而丢失的细节。 ...

[SeCap: Self-Calibrating and Adaptive Prompts for Cross-view Person Re-Identification in Aerial-Ground Networks 🔗](https://arxiv.org/abs/2503.06965)

跨越天地鸿沟：深入解析用于跨视角行人重识别的 SeCap

引言在智能监控不断发展的格局中，我们正见证着两个截然不同世界的融合: 地面和天空。传统的安防系统严重依赖固定在视线水平或略高位置的闭路电视 (CCTV) 摄像头。然而，无人机 (UAV) 的迅速普及引入了一个全新的有利视角。这种结合提供了全面的覆盖，但也引发了一个巨大的计算难题，即空地行人重识别 (AGPReID) 。 ...

[Scene-Centric Unsupervised Panoptic Segmentation 🔗](https://arxiv.org/abs/2504.01955)

AI 能在没有标签的情况下理解复杂场景吗？深入了解 CUPS

AI 能在没有标签的情况下理解复杂场景吗？深入了解 CUPS 想象一下，你正在教一个孩子识别繁忙城市街道上的物体。你指着一辆车说“车”，指着路说“路”。最终，孩子学会了。这本质上就是计算机视觉中监督学习的工作原理: 我们给算法输入成千上万张图像，其中每个像素都由人类费力地标注过。 ...

[Scaling Vision Pre-Training to 4K Resolution 🔗](https://arxiv.org/abs/2503.19903)

AI 能看清 4K 吗？利用 PS3 突破分辨率壁垒

简介想象一下你在高速公路上开车。在远处，你发现了一个路标。为了看清上面的文字，你的眼睛会自然地聚焦在那一小块特定区域，以高清晰度感知它，而你的周边视觉则保持较低的分辨率。你不会用同样的微观强度去处理整个风景；那会让你的大脑不堪重负。你会分清主次。 ...

[Scaling Inference Time Compute for Diffusion Models 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Ma_Scaling_Inference_Time_Compute_for_Diffusion_Models_CVPR_2025_paper.pdf)

超越去噪：解锁扩散模型推理时搜索的力量

在生成式 AI 时代，我们已经习惯了一个被称为“缩放定律 (Scaling Laws) ”的简单真理: 如果你想要一个更好的模型，你需要用更多的数据、更多的参数和更长的时间来训练它。这一秘诀推动了大型语言模型 (LLM) 和扩散模型的爆炸式成功。 ...

[Satellite Observations Guided Diffusion Model for Accurate Meteorological States at Arbitrary Resolution 🔗](https://arxiv.org/abs/2502.07814)

用扩散模型解码天气——卫星数据如何引导超分辨率重建

用扩散模型解码天气: 卫星数据如何引导超分辨率重建天气预报是一场关于尺度的博弈。在全球层面上，我们对大型压力系统和急流的运动了解得相当透彻。但当我们放大视野——细化到一座城市、一个农场或一台风力涡轮机的层级时——情况就变得模糊不清了。我们依赖的数据，通常来自像 ERA5 这样的再分析数据集，往往是以低分辨率网格 (例如 25km x 25km 的方块) 提供的。 ...

[Samba: A Unified Mamba-based Framework for General Salient Object Detection 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/He_Samba_A_Unified_Mamba-based_Framework_for_General_Salient_Object_Detection_CVPR_2025_paper.pdf)

Mamba 能击败 Transformer 吗？探索用于显著性目标检测的 Samba

当你观看一张照片时，你的眼睛不会以同样的强度处理每一个像素。你会瞬间聚焦在“重要”的部分——一个挥手的人、一辆鲜红色的汽车，或者一只坐在篱笆上的猫。这种生物机制就是计算机视觉研究者所称的显著性目标检测 (Salient Object Detection, SOD) 。 ...

[SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer 🔗](https://arxiv.org/abs/2503.15934)

Mamba 能像梵高一样绘画吗？探索 SaMam 如何实现高效风格迁移

引言在计算机视觉领域，图像风格迁移 (ST) 是最具视觉吸引力的任务之一。它使我们能够将一张内容图像 (如街道照片) 与一张风格图像 (如《星月夜》) 融合，让照片看起来像是梵高亲手绘制的一样。 ...

[SURGEON: Memory-Adaptive Fully Test-Time Adaptation via Dynamic Activation Sparsity 🔗](https://arxiv.org/abs/2503.20354)

SURGEON：如何在边缘设备上调整深度学习模型而不耗尽内存

引言想象一下，你训练了一个最先进的计算机视觉模型，用于自动驾驶汽车的行人检测。它在原本进行训练的阳光明媚的加利福尼亚运行完美。但当你把它部署到伦敦阴雨绵绵的街道上时，准确率直线下降。视觉条件——即“分布”——发生了变化。 ...

[STING-BEE : Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection 🔗](https://arxiv.org/abs/2504.02823)

STING-BEE：利用视觉-语言模型彻底变革机场安检

引言想象一下，你正站在繁忙的机场安检队伍中。当你的包消失在X射线通道中时，一名安检员正全神贯注地盯着监视器，试图解读一团复杂的、伪彩色的重叠形状。他们的工作是从电缆、笔记本电脑和衣服中识别出隐藏的威胁——枪支、刀具、爆炸物。这项任务需要极大的专注力，而人类的疲劳或分心可能会导致严重的错误。 ...

[STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion Models 🔗](https://arxiv.org/abs/2408.16807)

STEREO：为扩散模型打造防弹衣，抵御概念重现攻击

引言大规模文本到图像扩散 (T2ID) 模型 (如 Stable Diffusion) 的兴起彻底改变了数字创意领域。用户只需输入一段简单的文本提示词，就能生成照片级逼真的图像、艺术作品和设计图。然而，这种能力也伴随着巨大的风险。由于是在从开放互联网上抓取的海量数据集上训练的，这些模型往往会无意中记忆并生成不当内容——从 NSFW (不适合工作场所) 材料和受版权保护的艺术风格，到被禁止的物体。 ...

[SSHNet: Unsupervised Cross-modal Homography Estimation via Problem Reformulation and Split Optimization 🔗](https://arxiv.org/abs/2409.17993)

破解跨模态密码：SSHNet 如何在无标签情况下对齐不同传感器的图像

引言在计算机视觉领域，最基础的任务之一就是对齐。无论是无人机通过卫星地图导航，机器人融合红外与可见光数据，还是医疗系统叠加 MRI 和 CT 扫描，系统都必须理解两幅图像在几何上是如何关联的。这种关系通常由单应性 (Homography) 来描述——这是一种将点从一个视角映射到另一个视角的变换。 ...

[SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts 🔗](https://arxiv.org/abs/2503.06467)

大型多模态模型如何解决3D目标检测中的数据稀缺问题

引言: 感知的昂贵代价如果你曾尝试过计算机视觉，你就会明白其中的套路: 模型是饥饿的。它们对数据，特别是带标签的数据，有着无法满足的胃口。在2D图像的世界里，给一只猫画个框相对容易。但在依靠激光雷达 (LiDAR) 生成的3D点云进行感知的自动驾驶领域，游戏规则变了。 ...

[SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos 🔗](https://arxiv.org/abs/2412.09401)

我们能在没有相机位姿的情况下实时绘制世界地图吗？深入解析 SLAM3R

引言计算机视觉领域的圣杯之一，就是能够通过智能手机拍摄一段简单的视频，并立即将其转化为环境中高度详细的稠密 3D 模型。想象一下，当你穿过一个房间进行拍摄，当你停止录制时，屏幕上已经准备好了一个数字孪生模型。 ...

[SKDream: Controllable Multi-view and 3D Generation with Arbitrary Skeletons 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Xu_SKDream_Controllable_Multi-view_and_3D_Generation_with_Arbitrary_Skeletons_CVPR_2025_paper.pdf)

超越人类姿态：使用 SKDream 生成基于任意骨骼的 3D 生物

超越人类姿态: 使用 SKDream 生成基于任意骨骼的 3D 生物生成式 AI 领域的发展速度惊人。我们从最初的文本生成 2D 图像，发展到生成 3D 资产，现在正在向可控性 (controllability) 的边界推进。虽然像“一条凶猛的龙”这样的文本提示词非常强大，但它们留下了太多的随机性。如果你希望那条龙处于特定的蹲伏姿势怎么办？如果你想要一棵树的分支长在确切的位置怎么办？ ...

[SCSA: A Plug-and-Play Semantic Continuous-Spare Attention for Arbitrary Semantic Style Transfer 🔗](https://arxiv.org/abs/2503.04119)

跨越神经风格迁移中的语义鸿沟：深入解析 SCSA

引言神经风格迁移 (Neural Style Transfer, NST) 一直是深度学习领域最具视觉吸引力的应用之一。将你家附近公园的照片渲染成梵高《星月夜》那种旋转的印象派笔触，感觉就像魔法一样。多年来，该领域已从缓慢的、基于优化的方法演变为“任意风格迁移” (Arbitrary Style Transfer, AST) ——即能够实时将任何风格应用于任何内容图像的系统。 ...

[SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation 🔗](https://arxiv.org/abs/2411.17646)

让 SAM2 更具智慧：如何教会分割模型理解文本与时间

Segment Anything Model (SAM) 及其视频版本 SAM2 的发布标志着计算机视觉领域的一个关键时刻。这些模型功能极其强大；仅需一个点或一个边界框，它们就能以近乎完美的精度分割物体，并在视频中对其进行跟踪。 ...

[SACB-Net: Spatial-awareness Convolutions for Medical Image Registration 🔗](https://arxiv.org/abs/2503.19592)

超越共享权重：SACB-Net 如何让卷积适应医学图像配准

引言在医学影像领域，配准 (alignment) 至关重要。无论是临床医生追踪肿瘤随时间的生长情况，还是将患者的大脑解剖结构与标准图谱进行对比，图像都必须完美重叠。这一过程被称为可变形图像配准 (Deformable Image Registration, DIR) 。 ...

[RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins 🔗](https://arxiv.org/abs/2504.13059)

RoboTwin：生成式 AI 如何创建数字孪生以训练双臂机器人

引言在机器人领域，我们经常惊叹于机器人完成后空翻或跳舞的视频。但是，如果你要求机器人协调双手将一双鞋子整齐地放入鞋盒中，你可能会看到它陷入挣扎。 ...