[Towards In-the-wild 3D Plane Reconstruction from a Single Image 🔗](https://arxiv.org/abs/2506.02493)

ZeroPlane:填补室内外 3D 平面重建之间的鸿沟

当我们观察世界时,我们看到的不仅仅是像素,而是结构。我们本能地认出脚下的地板、周围的墙壁以及行驶的道路。在计算机视觉领域,这些结构被称为 3D 平面 (3D planes) 。 从单张 2D 图像中恢复这些平面是增强现实 (AR) 、机器人导航和 3D 地图构建的一项基石能力。 ...

2025-06 · 7 分钟 · 3159 字
[Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text 🔗](https://arxiv.org/abs/2503.01261)

一图胜千言:长文本对齐如何彻底改变图像生成

引言 俗话说“一图胜千言”,这意味着复杂的图像比简短的描述更能有效地传达意义。然而,在人工智能领域——特别是基于矢量量化 (Vector Quantization, VQ) 的图像建模中——我们历来给模型提供的仅仅相当于含糊不清的只言片语,却期望它们能理解一幅杰作。 ...

2025-03 · 7 分钟 · 3009 字
[Towards Explainable and Unprecedented Accuracy in Matching Challenging Finger Crease Patterns 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Zhou_Towards_Explainable_and_Unprecedented_Accuracy_in_Matching_Challenging_Finger_Crease_CVPR_2025_paper.pdf)

破解指关节的密码:一种可解释的跨姿态生物识别新框架

引言: 我们手中隐藏的证据 在法通过科学领域,每一个像素都至关重要。想想国土安全部的受害者识别项目 (Victim Identification Programme) 。他们处理数以百万计的与虐待儿童案件相关的图像和视频,寻找任何能确认犯罪者身份的线索。通常情况下,嫌疑人的脸被遮挡,唯一可见的证据是一只拿着设备或物体的手。 ...

7 分钟 · 3492 字
[Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency 🔗](https://arxiv.org/abs/2312.04831)

告别模糊:ASUKA 如何修复生成式修复中的幻觉与色偏

图像修复 (Image inpainting) ——填补图像缺失或损坏部分的技术——随着生成式 AI 的出现经历了革命性的变化。像 Stable Diffusion 和 FLUX 这样的模型可以奇迹般地重建缺失的景色或移除不需要的物体。然而,如果你尝试过这些工具,你可能遇到过两个令人沮丧的现象: 模型在原本应该是空白的地方插入了一个随机的、奇怪的物体,或者填充区域的色调与图像其余部分略有不同,看起来像是一块“污渍”。 ...

2023-12 · 6 分钟 · 2637 字
[Towards Autonomous Micromobility through Scalable Urban Simulation 🔗](https://arxiv.org/abs/2505.00690)

模拟人行道:URBAN-SIM 如何扩展自主微出行技术

引言 想象一下,你订购了一杯咖啡或一个小包裹,并希望它直接送到你家门口。在未来的城市中,一个小机器人将在混乱的城市丛林中穿梭——避开行人、爬上路缘石、穿过公园长椅——只为将物品送到你手中。这个概念被称为微出行 (micromobility) 。 ...

2025-05 · 8 分钟 · 3760 字
[TinyFusion: Diffusion Transformers Learned Shallow 🔗](https://arxiv.org/abs/2412.01199)

TinyFusion:如何在不失魔力的情况下压缩扩散 Transformer

TinyFusion: 如何在不失魔力的情况下压缩扩散 Transformer 如果你最近关注生成式 AI 领域,你会知道 扩散 Transformer (Diffusion Transformers, DiTs) 是目前的重量级选手。从 OpenAI 的 Sora 到 Stable Diffusion 3,用 Transformer 架构取代传统的 U-Net 骨干网络,解锁了图像和视频生成方面惊人的能力。 ...

2024-12 · 7 分钟 · 3059 字
[Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model 🔗](https://arxiv.org/abs/2411.19108)

TeaCache:通过观察输入加速视频扩散模型

引言 我们正处于生成式视频的黄金时代。从 Sora 到 Open-Sora 再到 Latte,扩散 Transformer (Diffusion Transformers, DiTs) 已经解锁了通过简单的文本提示生成高保真、连贯视频的能力。然而,有一个巨大的瓶颈阻碍了这些工具在实时应用中的普及: 推理速度 。 ...

2024-11 · 7 分钟 · 3248 字
[The Scene Language: Representing Scenes with Programs, Words, and Embeddings 🔗](https://arxiv.org/abs/2410.16770)

连接代码与艺术:'场景语言(Scene Language)'如何彻底改变3D生成

介绍 你如何描述一个场景?这听起来像是一个简单的问题,但试着精确一点。想象一下,你刚从复活节岛旅行归来,想向朋友描述著名的阿胡阿基维 (Ahu Akivi) 遗址。你可能会说: “有七尊摩艾石像排成一排,面朝同一个方向。” ...

2024-10 · 9 分钟 · 4139 字
[Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding 🔗](https://arxiv.org/abs/2502.10392)

我们能让 3D 视觉定位实现实时化吗?TSP3D 登场

引言: 机器人领域的“它在哪里?”难题 想象一下,你让家里的辅助机器人“把左边桌子上的红色马克杯拿起来”。对人类来说,这轻而易举。但对机器而言,这是一个复杂的多模态难题,被称为 3D 视觉定位 (3D Visual Grounding, 3DVG) 。 机器人必须解析自然语言指令,感知房间的 3D 几何结构 (通常通过点云) ,理解物体之间的语义关系 (桌子、马克杯、左、右) ,并精准地标出目标的边界框。 ...

2025-02 · 7 分钟 · 3243 字
[Task-driven Image Fusion with Learnable Fusion Loss 🔗](https://arxiv.org/abs/2412.03240)

教机器“看”世界——TDFusion 如何利用元学习实现任务驱动的图像融合

引言 在计算机视觉领域,数据越多通常意味着决策越好。在处理多模态传感器时尤其如此。试想一辆在夜间行驶的自动驾驶汽车: 可见光相机能捕捉到道路的丰富纹理,但可能会遗漏阴影中的行人。相反,红外传感器可以清晰地捕捉到行人的热信号,但却丢失了车道线的纹理细节。 ...

2024-12 · 8 分钟 · 3960 字
[TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting 🔗](https://arxiv.org/abs/2503.17032)

TaoAvatar:利用 3D 高斯泼溅技术将逼真的实时虚拟化身带入增强现实

引言 想象一下,戴上像 Apple Vision Pro 这样的增强现实 (AR) 头显,与朋友或虚拟助手的全息投影进行交谈。为了获得身临其境的体验,这个虚拟化身 (Avatar) 需要看起来逼真、动作自然,而且——至关重要的是——必须实时响应。 ...

2025-03 · 7 分钟 · 3389 字
[Taming Video Diffusion Prior with Scene-Grounding Guidance for 3D Gaussian Splatting from Sparse Inputs 🔗](https://arxiv.org/abs/2503.05082)

驯服幻觉:视频扩散模型如何提升稀疏 3D 高斯泼溅的效果

驯服幻觉: 视频扩散模型如何提升稀疏 3D 高斯泼溅的效果 引言 想象一下,你试图仅凭从中心拍摄的六张照片来重建一个房间的详细 3D 模型。这就是稀疏输入 3D 重建所面临的挑战。虽然像 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 这样的技术已经彻底改变了我们渲染场景的方式,但它们通常需要密集的图像云才能发挥魔力。当你只给它们投喂少量视角时,结果往往充满了“黑洞”、悬浮的伪影和模糊的几何形状。 ...

2025-03 · 6 分钟 · 2976 字
[TKG-DM: Training-free Chroma Key Content Generation Diffusion Model 🔗](https://arxiv.org/abs/2411.15580)

掌握绿幕技术:TKG-DM 如何利用扩散噪声实现完美抠像

如果你曾试玩过 Stable Diffusion 或 Midjourney 这样的文本生成图像模型,你会知道它们在生成复杂场景方面表现惊人。然而,它们在一项对传统 CGI 来说轻而易举,但对平面设计和游戏开发至关重要的任务上却常常失败: 生成一个背景干净、易于移除的前景对象。 ...

2024-11 · 7 分钟 · 3367 字
[TIDE: Training Locally Interpretable Domain Generalization Models Enables Test-time Correction 🔗](https://arxiv.org/abs/2411.16788)

超越数据增强:TIDE 如何利用局部概念修复 AI 泛化问题

深度学习模型因其脆弱性而臭名昭著。你在高质量的狗狗照片上训练了一个模型,它达到了 99% 的准确率。但如果给同一个模型看一张简单的狗狗线条素描,或者一张背景非同寻常的狗狗照片,它的表现就会大打折扣。 ...

2024-11 · 8 分钟 · 3550 字
[TFCustom: Customized Image Generation with Time-Aware Frequency Feature Guidance 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Liu_TFCustom_Customized_Image_Generation_with_Time-Aware_Frequency_Feature_Guidance_CVPR_2025_paper.pdf)

掌握 AI 艺术的个性化:TFCustom 如何利用时间和频率来完善细节

引言 想象一下,你有一张你的专用徒步背包的照片——上面有独特的补丁和独特的纹理。你想生成一张这个确切的背包放在未来城市长椅上的图片。你在标准的文本到图像模型中输入提示词,但结果令人失望。它确实生成了一个背包,但这只是个普通的背包。它缺少了那些补丁,纹理看起来像光滑的塑料而不是帆布。 ...

7 分钟 · 3455 字
[T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting 🔗](https://arxiv.org/abs/2502.20625)

AI 能数出它没见过的东西吗?深度解析 T2ICount 与基于扩散模型的零样本计数

想象一下你在看一张野餐的照片。照片里有三个柳条篮子,五十个红苹果,和两只小泰迪熊。如果有人让你“数一数熊”,你会立刻聚焦在那两个玩具上,而忽略那一堆苹果。这种根据语言过滤视觉信息的能力对人类来说是直觉,但对人工智能来说,这是一个出奇困难的任务。 ...

2025-02 · 9 分钟 · 4324 字
[Symmetry Strikes Back: From Single-Image Symmetry Detection to 3D Generation 🔗](https://arxiv.org/abs/2411.17763)

Reflect3D:在 2D 图像中发现对称性如何彻底改变 3D AI

引言 “对称性是我们一眼就能看到的东西。”——布莱兹·帕斯卡 (Blaise Pascal) 。 当你看到一张汽车、椅子或蝴蝶的照片时,你的大脑会瞬间推断出它的结构。你不需要看到另一面就知道它的存在;你直觉地理解该物体是对称的。这种感知是人类解读 3D 世界的基础。然而,对于计算机视觉系统而言,从单张平面的 2D 图像中检测 3D 对称性是一项极其艰巨的任务。 ...

2024-11 · 7 分钟 · 3352 字
[Supervising Sound Localization by In-the-wild Egomotion 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Min_Supervising_Sound_Localization_by_In-the-wild_Egomotion_CVPR_2025_paper.pdf)

走动如何帮助 AI 听得更准 — 从相机运动中学习声源定位

引言 想象一下,你闭着眼睛走在繁忙的城市街道上。你听到警笛声。为了弄清它来自哪里,你可能会本能地转头或向前走。当你移动时,声音会发生变化——如果你向右转而声音仍然在你左边,你就确切地知道它相对于你的位置。这种运动 (自身运动,egomotion) 与声音感知之间的动态关系是人类在世界中导航的基础。 ...

8 分钟 · 3620 字
[StyleSSP: Sampling StartPoint Enhancement for Training-free Diffusion-based Method for Style Transfer 🔗](https://arxiv.org/abs/2501.11319)

修正风格迁移:起始点如何决定终点

引言 在生成式 AI 飞速发展的世界中, 风格迁移 (Style Transfer) 仍然是最令人着迷的应用之一。其目标简单却充满挑战: 提取一张图像的艺术外观 (风格) ,并将其应用到另一张图像的结构 (内容) 上。想象一下用梵高《星月夜》的笔触来绘制你房子的照片。 ...

2025-01 · 7 分钟 · 3423 字
[Style-Editor: Text-driven object-centric style editing 🔗](https://arxiv.org/abs/2408.08461)

超越滤镜:Style-Editor 如何利用文本实现无掩膜对象编辑

引言 想象一下,你是一名正在制作广告的平面设计师。你有一张完美的汽车在山路上的照片,但客户希望这辆车看起来是“金色”的,而不是红色的。按照传统做法,这意味着你需要打开 Photoshop,小心翼翼地沿着汽车边缘绘制掩膜 (mask) ,将其与背景分离,然后应用调色图层。 ...

2024-08 · 7 分钟 · 3328 字