CVPR 2025

[Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision 🔗](https://arxiv.org/abs/2506.03605)

教机器人运动：从第一人称视频中挖掘 3D 轨迹

教机器人运动: 从第一人称视频中挖掘 3D 轨迹想象一下让机器人“把柜台上的刀拿起来”。对人类来说，这轻而易举。但对机器人来说，这需要对 3D 空间、物体可供性 (在哪里抓取) 以及安全执行动作所需的特定运动轨迹有复杂的理解。 ...

[GenVDM: Generating Vector Displacement Maps From a Single Image 🔗](https://arxiv.org/abs/2503.00605)

3D 细节处理的革命：GenVDM 如何将平面图像转化为几何印章

如果你曾经尝试过 3D 雕刻——比如创作数字角色、怪兽或场景——你就知道处理细节是多么令人头疼。雕刻出一条龙的基本轮廓是一回事；雕刻出每一片鳞片、每一只角和每一个皮肤毛孔则完全是另一场硬仗。 ...

[Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders 🔗](https://arxiv.org/abs/2412.09586)

少即是多：利用冻结的基础模型解决视线估计问题

想象一下，走进一个拥挤的房间。几乎在瞬间，你就能分辨出谁在和谁说话，谁在看钟表等着离开，谁在盯着桌上美味的蛋糕。这种能力——视线跟随 (gaze following) ——是人类社会互动的基本组成部分。它让我们能在分秒之间推断出意图、注意力和社会动态。 ...

[GaussianUDF: Inferring Unsigned Distance Functions through 3D Gaussian Splatting 🔗](https://arxiv.org/abs/2503.19458)

GaussianUDF：填补 3D 高斯与开放表面重建之间的空白

引言在 3D 计算机视觉领域，从 2D 图像重建数字对象是一项基础性的探索。我们希望对着一个物体——一件 T 恤、一朵花、一座复杂的雕像——拍几张照片，就能将其转化为完美的 3D 模型。多年来，该领域一直由假设物体具有“水密性” (watertight) 的方法所主导，这意味着物体是封闭的体积，具有明确的内部和外部。想象一个球体或立方体；你要么在它里面，要么在它外面。 ...

[Galaxy Walker: Geometry-aware VLMs For Galaxy-scale Understanding 🔗](https://arxiv.org/abs/2503.18578)

超越平坦宇宙：Galaxy Walker 如何为 AI 天文学引入几何感知

超越平坦宇宙: Galaxy Walker 如何为 AI 天文学引入几何感知当我们看着屏幕上的照片时，我们看到的是现实的平坦二维呈现。几十年来，计算机视觉模型一直基于这一前提运行。它们将图像视为像素的平面网格，并在欧几里得 (平坦) 向量空间中处理特征。 ...

[GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control 🔗](https://arxiv.org/abs/2503.03751)

GEN3C 如何为视频生成带来 3D 一致性与精确相机控制

引言我们正处于视频生成的黄金时代。像 Sora、Runway 和 Stable Video Diffusion 这样的模型能够通过简单的文本提示或单张图像构想出令人惊叹的场景。然而，如果你仔细观察，就会发现一些破绽——特别是当摄像机开始移动的时候。 ...

[Functionality understanding and segmentation in 3D scenes 🔗](https://arxiv.org/abs/2411.16310)

Fun3DU：AI 如何在 3D 场景中“大海捞针”

引言想象你是一个身处厨房的机器人。你收到一个简单的指令: “打开微波炉。”对你作为一个人类来说，这轻而易举。你会看着微波炉，找到“启动”按钮，然后按下它。 ...

[Full-DoF Egomotion Estimation for Event Cameras Using Geometric Solvers 🔗](https://arxiv.org/abs/2503.03307)

解锁 6-DoF 运动：事件相机如何在没有 IMU 的情况下感知旋转和平移

解锁 6-DoF 运动: 事件相机如何在没有 IMU 的情况下感知旋转和平移想象一下，尝试高速驾驶无人机穿过茂密的森林。标准相机通过拍摄快照工作——咔嚓，咔嚓，咔嚓。如果你在两次快门之间移动得太快，世界就会变得模糊，或者你完全错过了障碍物。 ...

[From Words to Structured Visuals: A Benchmark and Framework for Text-to-Diagram Generation and Editing 🔗](https://arxiv.org/abs/2411.11916)

超越像素：利用多智能体 AI 生成和编辑结构化图表

引言 “绘画不仅仅是所见之物，更是能让他人所见之物。” — 埃德加·德加 (Edgar Degas)。在科学研究、软件工程和教育领域，一图胜千言——但前提是这张图必须准确无误。虽然我们见证了 Midjourney 或 DALL-E 等生成式 AI 工具的革命，但在这些模型的能力中仍然存在一个明显的缺口: 结构化、逻辑严密的图表。 ...

[From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech 🔗](https://arxiv.org/abs/2503.16956)

像专家一样读唇：分层学习如何解决视频转语音合成问题

想象一下观看一段某人说话的视频，但声音被静音了。你可以看到他们的嘴唇在动，面部表情在变化，下巴也在移动。如果让你仅凭观看视频来为这段视频“配音”，你能做到吗？你可能会猜出他们在说什么 (唇语识别) ，但你能猜出他们声音的音质吗？音高呢？情感的起伏呢？ ...

[FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis 🔗](https://arxiv.org/abs/2505.01172)

FreePCA：主成分分析如何解锁长视频生成

生成式 AI 的世界发展日新月异。我们已经从模糊的图像跨越到了照片般逼真的人像，现在，前沿阵地转移到了视频领域。Sora 和 Runway Gen-2 等模型惊艳了互联网，但在幕后，研究人员面临着一个顽固的障碍: 时长。 ...

[FreeCloth: Free-form Generation Enhances Challenging Clothed Human Modeling 🔗](https://arxiv.org/abs/2411.19942)

为什么3D角色的裙子看起来很怪（以及“FreeCloth”如何解决这一问题）

引言如果你玩过现代电子游戏或从事过 3D 动画工作，你可能注意到了一个奇特的现象: 身穿战术装备、紧身超级英雄套装或牛仔裤的角色看起来棒极了。但是，身穿长裙、飘逸裙摆或宽松长袍的角色？它们看起来往往……很奇怪。布料可能会在双腿之间不自然地拉伸，跑动时会撕裂，或者看起来像是一个僵硬的塑料壳，而不是飘动的布料。 ...

[Free-viewpoint Human Animation with Pose-correlated Reference Selection 🔗](https://arxiv.org/abs/2412.17290)

突破生成式 AI 视频的镜头角度限制

引言在日新月异的生成式 AI 世界中，人类角色动画已成为研究的前沿热点。我们已经看到了一些令人印象深刻的成果: 仅凭一张单人照片，就可以在舞蹈或演讲视频的驱动下“活”过来。诸如 AnimateAnyone 和 MagicAnimate 等模型已经为此类“基于参考 (reference-based) ”的动画设立了标准。然而，这些模型都有一个显著的局限性: 它们通常受限于原始参考图像的视角。 ...

[FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation 🔗](https://arxiv.org/abs/2412.02690)

难题已解：为何 AI 画不好手，以及 FoundHand 如何解决这一问题

难题已解: 为何 AI 画不好手，以及 FoundHand 如何解决这一问题如果你曾使用过 Midjourney 或 Stable Diffusion 等生成式 AI 工具，你可能遇到过“手部难题”。当你提示生成一张逼真的人物照片时，面部看起来极其完美，光线如同电影般质感，但手部却是一场灾难。多余的手指、不可能存在的关节，或者看起来像是一碗由血肉组成的意大利面。 ...

[ForestLPR: LiDAR Place Recognition in Forests Attending Multiple BEV Density Images 🔗](https://arxiv.org/abs/2503.04475)

迷失丛林？ForestLPR 如何利用树木切片实现稳健的机器人定位

想象一下，你正在茂密的森林中徒步。环顾四周，你看到的只有树——树干、树枝和树叶，它们看起来和你十分钟前经过的那些树简直一模一样。现在，想象一下六个月后回到同一个地点。叶子落了，草长高了，光线也完全不同了。你能认出自己确切的位置吗？ ...

[Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution 🔗](https://arxiv.org/abs/2412.15213)

重新思考生成式 AI：从高斯噪声到直接跨模态演化

引言在过去的几年里，生成式 AI 领域一直被一种强大的叙事所主导: 扩散 (Diffusion) 。无论你使用的是 DALL-E、Midjourney 还是 Stable Diffusion，其底层过程在概念上都是相似的。模型从一块纯粹的静态噪点 (高斯噪声) 开始，并在文本提示词的引导下，迭代地对其进行去噪，直到清晰的图像浮现出来。这有点像是从一块大理石中雕刻出一尊雕像，其中大理石是随机噪声，而凿子则是文本提示词。 ...

[FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute 🔗](https://arxiv.org/abs/2502.20126)

FlexiDiT：更聪明而非更费力——扩散 Transformer 的动态计算

随着扩散 Transformer (DiT) 的采用，生成式 AI 的格局发生了巨大变化。像 Stable Diffusion 3 和 Sora 这样的模型表明，用 Transformer 架构取代传统的 U-Net 骨干网络可以带来可扩展的高保真结果。然而，这种性能的提升伴随着高昂的计算成本。 ...

[Flash3D: Super-scaling Point Transformers through Joint Hardware-Geometry Locality 🔗](https://arxiv.org/abs/2412.16481)

将几何与硬件对齐：Flash3D 如何实现点云处理的超级扩展

在快速发展的 3D 深度学习领域，我们经常被迫在两种优势之间做出选择: 模型的几何精度和硬件的计算效率。点云——由自动驾驶汽车和机器人中的 LiDAR 传感器生成的原始数据格式——以难以处理而著称。与图像这种整洁、密集的像素网格不同，点云是稀疏且不规则的。为了理解它们，神经网络需要理解点与点之间的空间关系 (几何局部性) 。然而，图形处理单元 (GPU) ——现代 AI 的主力军——更喜欢密集、连续且可预测的数据 (硬件局部性) 。 ...

[FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement 🔗](https://arxiv.org/abs/2503.04919)

超越边界框：FirePlace 如何教会 AI 布置 3D 场景

引言: “悬浮的书”问题想象一下，你让 AI “把一本书放在架子上”。对人类来说，这是一个微不足道的任务。你会识别出架子，在平坦的表面上找到一个空位，然后把书直立或平放进去。 ...

[FineVQ: Fine-Grained User Generated Content Video Quality Assessment 🔗](https://arxiv.org/abs/2412.19238)

超越五星评分：FineVQ 如何利用多模态 AI 彻底变革视频质量评估

在 TikTok、YouTube Shorts 和 Twitch 盛行的时代，用户生成内容 (UGC) 已成为媒体消费的主流形式。与使用电影摄像机拍摄的专业制作电影不同，UGC 内容往往狂野且不可预测。它们由智能手机拍摄，经过各类 App 压缩，通过不稳定的 5G 网络传输，并在各种尺寸的屏幕上观看。 ...