CVPR 2025

[Towards In-the-wild 3D Plane Reconstruction from a Single Image 🔗](https://arxiv.org/abs/2506.02493)

ZeroPlane：填补室内外 3D 平面重建之间的鸿沟

当我们观察世界时，我们看到的不仅仅是像素，而是结构。我们本能地认出脚下的地板、周围的墙壁以及行驶的道路。在计算机视觉领域，这些结构被称为 3D 平面 (3D planes) 。从单张 2D 图像中恢复这些平面是增强现实 (AR) 、机器人导航和 3D 地图构建的一项基石能力。 ...

[Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text 🔗](https://arxiv.org/abs/2503.01261)

一图胜千言：长文本对齐如何彻底改变图像生成

引言俗话说“一图胜千言”，这意味着复杂的图像比简短的描述更能有效地传达意义。然而，在人工智能领域——特别是基于矢量量化 (Vector Quantization, VQ) 的图像建模中——我们历来给模型提供的仅仅相当于含糊不清的只言片语，却期望它们能理解一幅杰作。 ...

[Towards Explainable and Unprecedented Accuracy in Matching Challenging Finger Crease Patterns 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Zhou_Towards_Explainable_and_Unprecedented_Accuracy_in_Matching_Challenging_Finger_Crease_CVPR_2025_paper.pdf)

破解指关节的密码：一种可解释的跨姿态生物识别新框架

引言: 我们手中隐藏的证据在法通过科学领域，每一个像素都至关重要。想想国土安全部的受害者识别项目 (Victim Identification Programme) 。他们处理数以百万计的与虐待儿童案件相关的图像和视频，寻找任何能确认犯罪者身份的线索。通常情况下，嫌疑人的脸被遮挡，唯一可见的证据是一只拿着设备或物体的手。 ...

[Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency 🔗](https://arxiv.org/abs/2312.04831)

告别模糊：ASUKA 如何修复生成式修复中的幻觉与色偏

图像修复 (Image inpainting) ——填补图像缺失或损坏部分的技术——随着生成式 AI 的出现经历了革命性的变化。像 Stable Diffusion 和 FLUX 这样的模型可以奇迹般地重建缺失的景色或移除不需要的物体。然而，如果你尝试过这些工具，你可能遇到过两个令人沮丧的现象: 模型在原本应该是空白的地方插入了一个随机的、奇怪的物体，或者填充区域的色调与图像其余部分略有不同，看起来像是一块“污渍”。 ...

[Towards Autonomous Micromobility through Scalable Urban Simulation 🔗](https://arxiv.org/abs/2505.00690)

模拟人行道：URBAN-SIM 如何扩展自主微出行技术

引言想象一下，你订购了一杯咖啡或一个小包裹，并希望它直接送到你家门口。在未来的城市中，一个小机器人将在混乱的城市丛林中穿梭——避开行人、爬上路缘石、穿过公园长椅——只为将物品送到你手中。这个概念被称为微出行 (micromobility) 。 ...

[TinyFusion: Diffusion Transformers Learned Shallow 🔗](https://arxiv.org/abs/2412.01199)

TinyFusion：如何在不失魔力的情况下压缩扩散 Transformer

TinyFusion: 如何在不失魔力的情况下压缩扩散 Transformer 如果你最近关注生成式 AI 领域，你会知道扩散 Transformer (Diffusion Transformers, DiTs) 是目前的重量级选手。从 OpenAI 的 Sora 到 Stable Diffusion 3，用 Transformer 架构取代传统的 U-Net 骨干网络，解锁了图像和视频生成方面惊人的能力。 ...

[Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model 🔗](https://arxiv.org/abs/2411.19108)

TeaCache：通过观察输入加速视频扩散模型

引言我们正处于生成式视频的黄金时代。从 Sora 到 Open-Sora 再到 Latte，扩散 Transformer (Diffusion Transformers, DiTs) 已经解锁了通过简单的文本提示生成高保真、连贯视频的能力。然而，有一个巨大的瓶颈阻碍了这些工具在实时应用中的普及: 推理速度。 ...

[The Scene Language: Representing Scenes with Programs, Words, and Embeddings 🔗](https://arxiv.org/abs/2410.16770)

连接代码与艺术：'场景语言（Scene Language）'如何彻底改变3D生成

介绍你如何描述一个场景？这听起来像是一个简单的问题，但试着精确一点。想象一下，你刚从复活节岛旅行归来，想向朋友描述著名的阿胡阿基维 (Ahu Akivi) 遗址。你可能会说: “有七尊摩艾石像排成一排，面朝同一个方向。” ...

[Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding 🔗](https://arxiv.org/abs/2502.10392)

我们能让 3D 视觉定位实现实时化吗？TSP3D 登场

引言: 机器人领域的“它在哪里？”难题想象一下，你让家里的辅助机器人“把左边桌子上的红色马克杯拿起来”。对人类来说，这轻而易举。但对机器而言，这是一个复杂的多模态难题，被称为 3D 视觉定位 (3D Visual Grounding, 3DVG) 。机器人必须解析自然语言指令，感知房间的 3D 几何结构 (通常通过点云) ，理解物体之间的语义关系 (桌子、马克杯、左、右) ，并精准地标出目标的边界框。 ...

[Task-driven Image Fusion with Learnable Fusion Loss 🔗](https://arxiv.org/abs/2412.03240)

教机器“看”世界——TDFusion 如何利用元学习实现任务驱动的图像融合

引言在计算机视觉领域，数据越多通常意味着决策越好。在处理多模态传感器时尤其如此。试想一辆在夜间行驶的自动驾驶汽车: 可见光相机能捕捉到道路的丰富纹理，但可能会遗漏阴影中的行人。相反，红外传感器可以清晰地捕捉到行人的热信号，但却丢失了车道线的纹理细节。 ...

[TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting 🔗](https://arxiv.org/abs/2503.17032)

TaoAvatar：利用 3D 高斯泼溅技术将逼真的实时虚拟化身带入增强现实

引言想象一下，戴上像 Apple Vision Pro 这样的增强现实 (AR) 头显，与朋友或虚拟助手的全息投影进行交谈。为了获得身临其境的体验，这个虚拟化身 (Avatar) 需要看起来逼真、动作自然，而且——至关重要的是——必须实时响应。 ...

[Taming Video Diffusion Prior with Scene-Grounding Guidance for 3D Gaussian Splatting from Sparse Inputs 🔗](https://arxiv.org/abs/2503.05082)

驯服幻觉：视频扩散模型如何提升稀疏 3D 高斯泼溅的效果

驯服幻觉: 视频扩散模型如何提升稀疏 3D 高斯泼溅的效果引言想象一下，你试图仅凭从中心拍摄的六张照片来重建一个房间的详细 3D 模型。这就是稀疏输入 3D 重建所面临的挑战。虽然像 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 这样的技术已经彻底改变了我们渲染场景的方式，但它们通常需要密集的图像云才能发挥魔力。当你只给它们投喂少量视角时，结果往往充满了“黑洞”、悬浮的伪影和模糊的几何形状。 ...

[TKG-DM: Training-free Chroma Key Content Generation Diffusion Model 🔗](https://arxiv.org/abs/2411.15580)

掌握绿幕技术：TKG-DM 如何利用扩散噪声实现完美抠像

如果你曾试玩过 Stable Diffusion 或 Midjourney 这样的文本生成图像模型，你会知道它们在生成复杂场景方面表现惊人。然而，它们在一项对传统 CGI 来说轻而易举，但对平面设计和游戏开发至关重要的任务上却常常失败: 生成一个背景干净、易于移除的前景对象。 ...

[TIDE: Training Locally Interpretable Domain Generalization Models Enables Test-time Correction 🔗](https://arxiv.org/abs/2411.16788)

超越数据增强：TIDE 如何利用局部概念修复 AI 泛化问题

深度学习模型因其脆弱性而臭名昭著。你在高质量的狗狗照片上训练了一个模型，它达到了 99% 的准确率。但如果给同一个模型看一张简单的狗狗线条素描，或者一张背景非同寻常的狗狗照片，它的表现就会大打折扣。 ...

[TFCustom: Customized Image Generation with Time-Aware Frequency Feature Guidance 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Liu_TFCustom_Customized_Image_Generation_with_Time-Aware_Frequency_Feature_Guidance_CVPR_2025_paper.pdf)

掌握 AI 艺术的个性化：TFCustom 如何利用时间和频率来完善细节

引言想象一下，你有一张你的专用徒步背包的照片——上面有独特的补丁和独特的纹理。你想生成一张这个确切的背包放在未来城市长椅上的图片。你在标准的文本到图像模型中输入提示词，但结果令人失望。它确实生成了一个背包，但这只是个普通的背包。它缺少了那些补丁，纹理看起来像光滑的塑料而不是帆布。 ...

[T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting 🔗](https://arxiv.org/abs/2502.20625)

AI 能数出它没见过的东西吗？深度解析 T2ICount 与基于扩散模型的零样本计数

想象一下你在看一张野餐的照片。照片里有三个柳条篮子，五十个红苹果，和两只小泰迪熊。如果有人让你“数一数熊”，你会立刻聚焦在那两个玩具上，而忽略那一堆苹果。这种根据语言过滤视觉信息的能力对人类来说是直觉，但对人工智能来说，这是一个出奇困难的任务。 ...

[Symmetry Strikes Back: From Single-Image Symmetry Detection to 3D Generation 🔗](https://arxiv.org/abs/2411.17763)

Reflect3D：在 2D 图像中发现对称性如何彻底改变 3D AI

引言 “对称性是我们一眼就能看到的东西。”——布莱兹·帕斯卡 (Blaise Pascal) 。当你看到一张汽车、椅子或蝴蝶的照片时，你的大脑会瞬间推断出它的结构。你不需要看到另一面就知道它的存在；你直觉地理解该物体是对称的。这种感知是人类解读 3D 世界的基础。然而，对于计算机视觉系统而言，从单张平面的 2D 图像中检测 3D 对称性是一项极其艰巨的任务。 ...

[Supervising Sound Localization by In-the-wild Egomotion 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Min_Supervising_Sound_Localization_by_In-the-wild_Egomotion_CVPR_2025_paper.pdf)

走动如何帮助 AI 听得更准 — 从相机运动中学习声源定位

引言想象一下，你闭着眼睛走在繁忙的城市街道上。你听到警笛声。为了弄清它来自哪里，你可能会本能地转头或向前走。当你移动时，声音会发生变化——如果你向右转而声音仍然在你左边，你就确切地知道它相对于你的位置。这种运动 (自身运动，egomotion) 与声音感知之间的动态关系是人类在世界中导航的基础。 ...

[StyleSSP: Sampling StartPoint Enhancement for Training-free Diffusion-based Method for Style Transfer 🔗](https://arxiv.org/abs/2501.11319)

修正风格迁移：起始点如何决定终点

引言在生成式 AI 飞速发展的世界中, 风格迁移 (Style Transfer) 仍然是最令人着迷的应用之一。其目标简单却充满挑战: 提取一张图像的艺术外观 (风格) ，并将其应用到另一张图像的结构 (内容) 上。想象一下用梵高《星月夜》的笔触来绘制你房子的照片。 ...

[Style-Editor: Text-driven object-centric style editing 🔗](https://arxiv.org/abs/2408.08461)

超越滤镜：Style-Editor 如何利用文本实现无掩膜对象编辑

引言想象一下，你是一名正在制作广告的平面设计师。你有一张完美的汽车在山路上的照片，但客户希望这辆车看起来是“金色”的，而不是红色的。按照传统做法，这意味着你需要打开 Photoshop，小心翼翼地沿着汽车边缘绘制掩膜 (mask) ，将其与背景分离，然后应用调色图层。 ...