[Seeing more with less: human-like representations in vision models 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Gizdov_Seeing_More_with_Less_Human-like_Representations_in_Vision_Models_CVPR_2025_paper.pdf)

少即是多:中央凹视觉如何优化 AI 模型

人眼是生物工程的奇迹,但它也出奇地节约。我们并不是以均匀的高清晰度来感知世界。相反,我们拥有一个中央凹 (fovea) ——一个具有高敏锐度的小型中心区域——周围是逐渐模糊成低分辨率的周边区域。这种机制使我们能够有效地处理复杂的场景,在最需要的地方分配有限的生物资源 (光感受器和视神经带宽) 。 ...

7 分钟 · 3167 字
[SeedVR: Seeding Infinity in Diffusion Transformer Toward Generic Video Restoration 🔗](https://arxiv.org/abs/2501.01320)

SeedVR:突破视频修复的速度与分辨率极限

视频修复是一个带有现代色彩的经典计算机视觉问题。我们都有这样的视频素材——无论是家庭老电影、低质量的流媒体视频,还是人工智能生成的片段——它们往往受困于模糊、噪点或低分辨率。 通用视频修复 (Generic Video Restoration, VR) 的目标就是接收这些低质量 (LQ) 的输入并重构出高质量 (HQ) 的输出,恢复那些似乎因时间流逝或压缩而丢失的细节。 ...

2025-01 · 7 分钟 · 3383 字
[SeCap: Self-Calibrating and Adaptive Prompts for Cross-view Person Re-Identification in Aerial-Ground Networks 🔗](https://arxiv.org/abs/2503.06965)

跨越天地鸿沟:深入解析用于跨视角行人重识别的 SeCap

引言 在智能监控不断发展的格局中,我们正见证着两个截然不同世界的融合: 地面和天空。传统的安防系统严重依赖固定在视线水平或略高位置的闭路电视 (CCTV) 摄像头。然而,无人机 (UAV) 的迅速普及引入了一个全新的有利视角。这种结合提供了全面的覆盖,但也引发了一个巨大的计算难题,即空地行人重识别 (AGPReID) 。 ...

2025-03 · 8 分钟 · 3731 字
[Scene-Centric Unsupervised Panoptic Segmentation 🔗](https://arxiv.org/abs/2504.01955)

AI 能在没有标签的情况下理解复杂场景吗?深入了解 CUPS

AI 能在没有标签的情况下理解复杂场景吗?深入了解 CUPS 想象一下,你正在教一个孩子识别繁忙城市街道上的物体。你指着一辆车说“车”,指着路说“路”。最终,孩子学会了。这本质上就是计算机视觉中监督学习的工作原理: 我们给算法输入成千上万张图像,其中每个像素都由人类费力地标注过。 ...

2025-04 · 7 分钟 · 3454 字
[Scaling Vision Pre-Training to 4K Resolution 🔗](https://arxiv.org/abs/2503.19903)

AI 能看清 4K 吗?利用 PS3 突破分辨率壁垒

简介 想象一下你在高速公路上开车。在远处,你发现了一个路标。为了看清上面的文字,你的眼睛会自然地聚焦在那一小块特定区域,以高清晰度感知它,而你的周边视觉则保持较低的分辨率。你不会用同样的微观强度去处理整个风景;那会让你的大脑不堪重负。你会分清主次。 ...

2025-03 · 7 分钟 · 3306 字
[Scaling Inference Time Compute for Diffusion Models 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Ma_Scaling_Inference_Time_Compute_for_Diffusion_Models_CVPR_2025_paper.pdf)

超越去噪:解锁扩散模型推理时搜索的力量

在生成式 AI 时代,我们已经习惯了一个被称为“缩放定律 (Scaling Laws) ”的简单真理: 如果你想要一个更好的模型,你需要用更多的数据、更多的参数和更长的时间来训练它。这一秘诀推动了大型语言模型 (LLM) 和扩散模型的爆炸式成功。 ...

7 分钟 · 3303 字
[Satellite Observations Guided Diffusion Model for Accurate Meteorological States at Arbitrary Resolution 🔗](https://arxiv.org/abs/2502.07814)

用扩散模型解码天气——卫星数据如何引导超分辨率重建

用扩散模型解码天气: 卫星数据如何引导超分辨率重建 天气预报是一场关于尺度的博弈。在全球层面上,我们对大型压力系统和急流的运动了解得相当透彻。但当我们放大视野——细化到一座城市、一个农场或一台风力涡轮机的层级时——情况就变得模糊不清了。我们依赖的数据,通常来自像 ERA5 这样的再分析数据集,往往是以低分辨率网格 (例如 25km x 25km 的方块) 提供的。 ...

2025-02 · 7 分钟 · 3450 字
[Samba: A Unified Mamba-based Framework for General Salient Object Detection 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/He_Samba_A_Unified_Mamba-based_Framework_for_General_Salient_Object_Detection_CVPR_2025_paper.pdf)

Mamba 能击败 Transformer 吗?探索用于显著性目标检测的 Samba

当你观看一张照片时,你的眼睛不会以同样的强度处理每一个像素。你会瞬间聚焦在“重要”的部分——一个挥手的人、一辆鲜红色的汽车,或者一只坐在篱笆上的猫。这种生物机制就是计算机视觉研究者所称的 显著性目标检测 (Salient Object Detection, SOD) 。 ...

6 分钟 · 2912 字
[SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer 🔗](https://arxiv.org/abs/2503.15934)

Mamba 能像梵高一样绘画吗?探索 SaMam 如何实现高效风格迁移

引言 在计算机视觉领域,图像风格迁移 (ST) 是最具视觉吸引力的任务之一。它使我们能够将一张内容图像 (如街道照片) 与一张风格图像 (如《星月夜》) 融合,让照片看起来像是梵高亲手绘制的一样。 ...

2025-03 · 7 分钟 · 3140 字
[SURGEON: Memory-Adaptive Fully Test-Time Adaptation via Dynamic Activation Sparsity 🔗](https://arxiv.org/abs/2503.20354)

SURGEON:如何在边缘设备上调整深度学习模型而不耗尽内存

引言 想象一下,你训练了一个最先进的计算机视觉模型,用于自动驾驶汽车的行人检测。它在原本进行训练的阳光明媚的加利福尼亚运行完美。但当你把它部署到伦敦阴雨绵绵的街道上时,准确率直线下降。视觉条件——即“分布”——发生了变化。 ...

2025-03 · 8 分钟 · 3713 字
[STING-BEE : Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection 🔗](https://arxiv.org/abs/2504.02823)

STING-BEE:利用视觉-语言模型彻底变革机场安检

引言 想象一下,你正站在繁忙的机场安检队伍中。当你的包消失在X射线通道中时,一名安检员正全神贯注地盯着监视器,试图解读一团复杂的、伪彩色的重叠形状。他们的工作是从电缆、笔记本电脑和衣服中识别出隐藏的威胁——枪支、刀具、爆炸物。这项任务需要极大的专注力,而人类的疲劳或分心可能会导致严重的错误。 ...

2025-04 · 8 分钟 · 3770 字
[STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion Models 🔗](https://arxiv.org/abs/2408.16807)

STEREO:为扩散模型打造防弹衣,抵御概念重现攻击

引言 大规模文本到图像扩散 (T2ID) 模型 (如 Stable Diffusion) 的兴起彻底改变了数字创意领域。用户只需输入一段简单的文本提示词,就能生成照片级逼真的图像、艺术作品和设计图。然而,这种能力也伴随着巨大的风险。由于是在从开放互联网上抓取的海量数据集上训练的,这些模型往往会无意中记忆并生成不当内容——从 NSFW (不适合工作场所) 材料和受版权保护的艺术风格,到被禁止的物体。 ...

2024-08 · 3 分钟 · 1052 字
[SSHNet: Unsupervised Cross-modal Homography Estimation via Problem Reformulation and Split Optimization 🔗](https://arxiv.org/abs/2409.17993)

破解跨模态密码:SSHNet 如何在无标签情况下对齐不同传感器的图像

引言 在计算机视觉领域,最基础的任务之一就是对齐。无论是无人机通过卫星地图导航,机器人融合红外与可见光数据,还是医疗系统叠加 MRI 和 CT 扫描,系统都必须理解两幅图像在几何上是如何关联的。这种关系通常由单应性 (Homography) 来描述——这是一种将点从一个视角映射到另一个视角的变换。 ...

2024-09 · 8 分钟 · 3734 字
[SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts 🔗](https://arxiv.org/abs/2503.06467)

大型多模态模型如何解决3D目标检测中的数据稀缺问题

引言: 感知的昂贵代价 如果你曾尝试过计算机视觉,你就会明白其中的套路: 模型是饥饿的。它们对数据,特别是带标签的数据,有着无法满足的胃口。在2D图像的世界里,给一只猫画个框相对容易。但在依靠激光雷达 (LiDAR) 生成的3D点云进行感知的自动驾驶领域,游戏规则变了。 ...

2025-03 · 8 分钟 · 3749 字
[SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos 🔗](https://arxiv.org/abs/2412.09401)

我们能在没有相机位姿的情况下实时绘制世界地图吗?深入解析 SLAM3R

引言 计算机视觉领域的圣杯之一,就是能够通过智能手机拍摄一段简单的视频,并立即将其转化为环境中高度详细的稠密 3D 模型。想象一下,当你穿过一个房间进行拍摄,当你停止录制时,屏幕上已经准备好了一个数字孪生模型。 ...

2024-12 · 7 分钟 · 3205 字
[SKDream: Controllable Multi-view and 3D Generation with Arbitrary Skeletons 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Xu_SKDream_Controllable_Multi-view_and_3D_Generation_with_Arbitrary_Skeletons_CVPR_2025_paper.pdf)

超越人类姿态:使用 SKDream 生成基于任意骨骼的 3D 生物

超越人类姿态: 使用 SKDream 生成基于任意骨骼的 3D 生物 生成式 AI 领域的发展速度惊人。我们从最初的文本生成 2D 图像,发展到生成 3D 资产,现在正在向可控性 (controllability) 的边界推进。虽然像“一条凶猛的龙”这样的文本提示词非常强大,但它们留下了太多的随机性。如果你希望那条龙处于特定的蹲伏姿势怎么办?如果你想要一棵树的分支长在确切的位置怎么办? ...

7 分钟 · 3468 字
[SCSA: A Plug-and-Play Semantic Continuous-Spare Attention for Arbitrary Semantic Style Transfer 🔗](https://arxiv.org/abs/2503.04119)

跨越神经风格迁移中的语义鸿沟:深入解析 SCSA

引言 神经风格迁移 (Neural Style Transfer, NST) 一直是深度学习领域最具视觉吸引力的应用之一。将你家附近公园的照片渲染成梵高《星月夜》那种旋转的印象派笔触,感觉就像魔法一样。多年来,该领域已从缓慢的、基于优化的方法演变为“任意风格迁移” (Arbitrary Style Transfer, AST) ——即能够实时将任何风格应用于任何内容图像的系统。 ...

2025-03 · 7 分钟 · 3395 字
[SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation 🔗](https://arxiv.org/abs/2411.17646)

让 SAM2 更具智慧:如何教会分割模型理解文本与时间

Segment Anything Model (SAM) 及其视频版本 SAM2 的发布标志着计算机视觉领域的一个关键时刻。这些模型功能极其强大;仅需一个点或一个边界框,它们就能以近乎完美的精度分割物体,并在视频中对其进行跟踪。 ...

2024-11 · 6 分钟 · 2711 字
[SACB-Net: Spatial-awareness Convolutions for Medical Image Registration 🔗](https://arxiv.org/abs/2503.19592)

超越共享权重:SACB-Net 如何让卷积适应医学图像配准

引言 在医学影像领域,配准 (alignment) 至关重要。无论是临床医生追踪肿瘤随时间的生长情况,还是将患者的大脑解剖结构与标准图谱进行对比,图像都必须完美重叠。这一过程被称为可变形图像配准 (Deformable Image Registration, DIR) 。 ...

2025-03 · 7 分钟 · 3420 字
[RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins 🔗](https://arxiv.org/abs/2504.13059)

RoboTwin:生成式 AI 如何创建数字孪生以训练双臂机器人

引言 在机器人领域,我们经常惊叹于机器人完成后空翻或跳舞的视频。但是,如果你要求机器人协调双手将一双鞋子整齐地放入鞋盒中,你可能会看到它陷入挣扎。 ...

2025-04 · 7 分钟 · 3049 字