[Style Evolving along Chain-of-Thought for Unknown-Domain Object Detection 🔗](https://arxiv.org/abs/2503.09968)

AI 会梦见雨夜吗?通过思维链教物体检测器进化风格

想象一下,你正在训练一辆自动驾驶汽车。你生活在一个阳光明媚的沿海城市,所以你收集了数千小时的驾驶录像——全部都是在湛蓝天空和视野清晰的条件下拍摄的。你训练你的物体检测模型,直到它能完美地检测出行人和车辆。 ...

2025-03 · 6 分钟 · 2706 字
[Structured 3D Latents for Scalable and Versatile 3D Generation 🔗](https://arxiv.org/abs/2412.01506)

统一 3D 生成:深入了解 TRELLIS 与结构化潜空间

引言 在 AI 领域,2D 图像生成已经迎来了它的“iPhone 时刻”。Midjourney 和 DALL-E 等工具让通过文本生成逼真的图像变得像打字一样简单。然而,第三维度——3D 生成——仍然是一块难啃的骨头。 ...

2024-12 · 8 分钟 · 3876 字
[Structure-from-Motion with a Non-Parametric Camera Model 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_Structure-from-Motion_with_a_Non-Parametric_Camera_Model_CVPR_2025_paper.pdf)

超越针孔模型——运动恢复结构(SfM)的新纪元

引言 想象一下,试图用一组照片构建一个房间的 3D 地图。这个过程被称为运动恢复结构 (Structure-from-Motion,简称 SfM) ,它是现代摄影测量和 3D 重建的基石。当你使用智能手机或单反相机拍摄的标准照片时,像 COLMAP 这样的现有算法效果极佳。但是,如果你使用鱼眼镜头、广角 GoPro 或复杂的折反射 (catadioptric) 360 度全景相机,会发生什么呢? ...

7 分钟 · 3056 字
[Structure from Collision 🔗](https://arxiv.org/abs/2505.21335)

打破外壳——碰撞如何揭示 NeRF 中的隐形内部结构

想象一下,桌上放着一个崭新、不透明的台球。现在,想象旁边放着一个乒乓球,它被涂装得和那个台球一模一样。对于相机——以及标准的计算机视觉算法——这两个物体是完全相同的。它们拥有相同的几何形状和表面纹理。 ...

2025-05 · 7 分钟 · 3499 字
[SplatFlow: Self-Supervised Dynamic Gaussian Splatting in Neural Motion Flow Field for Autonomous Driving 🔗](https://arxiv.org/abs/2411.15482)

SplatFlow:无需边界框即可掌握动态场景重建

引言 通往全自动驾驶的竞赛严重依赖于一种关键资源: 数据。虽然现实世界的驾驶日志极其宝贵,但它们是有限的,且往往无法捕捉到罕见、危险的长尾极端情况。这就是仿真的用武之地。如果我们能够创建逼真且符合物理规律的真实世界数字孪生,我们就可以在无限变化的复杂场景中训练和测试自动驾驶汽车 (AV) 。 ...

2024-11 · 8 分钟 · 3829 字
[SpecTRe-GS: Modeling Highly Specular Surfaces with Reflected Nearby Objects by Tracing Rays in 3D Gaussian Splatting 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Tang_SpecTRe-GS_Modeling_Highly_Specular_Surfaces_with_Reflected_Nearby_Objects_by_CVPR_2025_paper.pdf)

SpecTRe-GS:为3D高斯泼溅带来逼真的镜面和反射效果

如果你一直关注3D计算机视觉领域的快速发展,你无疑已经接触过 3D高斯泼溅 (3D Gaussian Splatting, 3DGS) 。 它凭借实时渲染速度和高质量的重建效果彻底改变了该领域。然而,就像任何新兴技术一样,它也有自己的阿喀琉斯之踵。对于3DGS来说,这个软肋就是镜子和发光物体 。 ...

8 分钟 · 3763 字
[SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models 🔗](https://arxiv.org/abs/2505.00788)

超越 2D:利用 SpatialLLM 教会大型多模态模型理解 3D 空间

引言 想象一下你正在穿过一条繁忙的街道。你看到一辆白色货车和一个骑行者。你的大脑会瞬间处理这些信息,不仅知道这些物体是什么,还知道它们在三维空间中的位置以及它们的去向。你会本能地知道货车正对着你 (可能有危险) ,而骑行者正在与你平行移动。这就是 3D 空间推理 (3D spatial reasoning) , 这是人类认知中一项非常基础的能力,以至于我们很少去思考它。 ...

2025-05 · 7 分钟 · 3174 字
[Spatial457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_Spatial457_A_Diagnostic_Benchmark_for_6D_Spatial_Reasoning_of_Large_CVPR_2025_paper.pdf)

AI 真的能看懂 3D 吗?深入解读 Spatial457,揭秘 6D 推理缺陷的基准测试

引言 我们正见证着大型多模态模型 (LMMs) 的黄金时代。像 GPT-4o 和 Gemini 这样的系统已经展示了令人惊叹的能力: 它们能够解读视觉场景,用诗意的细节描述物体,并以类似人类的流利度回答有关图像的问题。如果你向这些模型展示一张繁忙街道的照片,它们可以列出汽车、行人以及交通信号灯的颜色。 ...

7 分钟 · 3036 字
[SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding 🔗](https://arxiv.org/abs/2504.05576)

听见未见:SoundVista 如何利用视觉线索合成 3D 音频

想象一下,你正漫步在一个虚拟博物馆或历史古迹的数字孪生场景中。得益于 3D 重建和 NeRF (神经辐射场) 技术的最新进展,视觉效果已经达到了照片级的逼真程度。但当你闭上眼睛,这种沉浸感的幻觉往往会破灭。声音可能听起来很平淡、静止,或者空间感完全错误。 ...

2025-04 · 6 分钟 · 3003 字
[Sonata: Self-Supervised Learning of Reliable Point Representations 🔗](https://arxiv.org/abs/2503.16429)

超越几何捷径:Sonata 如何彻底变革 3D 自监督学习

简介 在 2D 计算机视觉领域,我们正处于自监督学习 (SSL) 的黄金时代。像 DINO 和 MAE 这样的模型已经证明,神经网络可以在没有任何人类标注标签的情况下,学习到鲁棒且语义丰富的图像表示。你可以拿一个预训练好的图像模型,冻结其权重,在其顶部添加一个简单的线性分类器 (这一过程称为“线性探测”) ,就能获得媲美全监督训练的结果。 ...

2025-03 · 8 分钟 · 3850 字
[SoMA: Singular Value Decomposed Minor Components Adaptation for Domain Generalizable Representation Learning 🔗](https://arxiv.org/abs/2412.04077)

保留世界知识:SoMA 如何优化“微小”分量以实现域泛化

想象一下,你在阳光明媚的加利福尼亚训练了一辆自动驾驶汽车。这辆车表现完美,能高精度地检测行人、其他车辆和交通标志。然后,你把这辆车运到了阴雨连绵、大雾弥漫的伦敦夜头。突然间,系统失灵了。“域偏移 (Domain shift) ”——即阳光明媚的训练数据与阴雨连绵的真实世界环境之间的差异——导致了模型的失败。 ...

2024-12 · 6 分钟 · 2941 字
[SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training 🔗](https://arxiv.org/abs/2412.09619)

SnapGen:如何在手机上运行高清文生图模型

引言 生成式 AI 的繁荣为我们带来了诸如 Stable Diffusion XL (SDXL) 和 Stable Diffusion 3 (SD3) 等令人难以置信的工具。这些模型可以根据简单的文本提示生成照片级逼真的图像,但它们伴随着沉重的代价: 计算算力。通常,运行这些模型需要云服务器或高端游戏 PC 中那种庞大且耗能的 GPU。 ...

2024-12 · 7 分钟 · 3088 字
[SmartCLIP: Modular Vision-language Alignment with Identification Guarantees 🔗](https://arxiv.org/abs/2507.22264)

为什么 CLIP 会丢失细节:SmartCLIP 与模块化对齐介绍

如果你曾尝试过现代 AI 绘画生成器或图像搜索引擎,你很可能已经接触过 CLIP (Contrastive Language-Image Pre-training,对比语言-图像预训练) 。自发布以来,CLIP 已成为多模态 AI 的基石,充当了计算机通过文本理解图像的桥梁。 ...

2025-07 · 7 分钟 · 3146 字
[SkillMimic: Learning Basketball Interaction Skills from Demonstrations 🔗](https://arxiv.org/abs/2408.15270)

矩阵中的灌篮高手:SkillMimic 如何教会物理模拟角色打篮球

矩阵中的灌篮高手: SkillMimic 如何教会物理模拟角色打篮球 如果你玩过体育类电子游戏,你会知道虽然画面看起来很逼真,但底层的动画往往只是录制动作的“回放”。但在机器人技术和基于物理的模拟世界中,我们想要的是不同的东西: 我们希望一个数字角色能够真正“学习”如何驱动肌肉来完成任务,并遵守物理定律。 ...

2024-08 · 6 分钟 · 2769 字
[Simulator HC: Regression-based Online Simulation of Starting Problem-Solution Pairs for Homotopy Continuation in Geometric Vision 🔗](https://arxiv.org/abs/2411.03745)

Simulator HC:如何利用 AI “作弊” 数学来解决复杂的几何视觉问题

Simulator HC: 如何利用 AI “作弊” 数学来解决复杂的几何视觉问题 如果你曾涉足 3D 计算机视觉领域——构建用于运动恢复结构 (SfM) 、视觉 SLAM 或相机标定的系统——你就会知道,在每一个炫酷的可视化效果背后,都奠基于令人头疼的数学基础。具体来说,我们经常需要求解多项式方程组 。 ...

2024-11 · 7 分钟 · 3476 字
[SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment 🔗](https://arxiv.org/abs/2503.09594)

SimLingo:教自动驾驶汽车“梦见”动作以实现更好的驾驶

引言 几十年来,自动驾驶的“圣杯”一直是造出一辆不仅能从 A 点导航到 B 点,还能真正理解世界并与乘客沟通的车辆。我们已经看到了大语言模型 (LLM) 在推理复杂话题方面的惊人进步,以及自动驾驶系统在城市街道导航方面的独立进展。然而,将这两个领域融合在一起却被证明是困难重重。 ...

2025-03 · 8 分钟 · 3725 字
[Show and Tell: Visually Explainable Deep Neural Nets via Spatially-Aware Concept Bottleneck Models 🔗](https://arxiv.org/abs/2502.20134)

展示与讲述:弥合AI可解释性中热力图与概念之间的鸿沟

简介: “黑盒”问题 想象一下,你是一名医生,正在使用人工智能系统诊断 X 光片。AI 以 95% 的置信度预测为“肺炎”。作为一名负责任的从业者,你的第一反应不仅仅是“它对吗?”,而是“为什么?” ...

2025-02 · 8 分钟 · 3657 字
[Shape Abstraction via Marching Differentiable Support Functions 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Park_Shape_Abstraction_via_Marching_Differentiable_Support_Functions_CVPR_2025_paper.pdf)

超越方块与网格:可微支撑函数如何彻底改变 3D 形状抽象

引言 在计算机视觉和机器人领域,机器如何“看”物体与物体本身同样重要。想象一个试图拿起咖啡杯的机器人。对我们来说,它只是一个简单的杯子。对计算机来说,它可能是一团由数百万个点组成的密集云、一个沉重的三角网格,或者一个复杂的神经辐射场。 ...

7 分钟 · 3264 字
[Seurat: From Moving Points to Depth 🔗](https://arxiv.org/abs/2504.14687)

移动的点如何揭示 3D 世界:深入解析 Seurat

简介 你是如何知道物体离你有多远的?如果你闭上一只眼并完全静止不动,世界就会变平。深度感知变成了一场基于阴影和熟悉物体大小的猜谜游戏。但当你移动头部的那一刻,世界又变回了 3D。附近的物体飞快地掠过你的视野,而远处的群山几乎纹丝不动。这种现象被称为运动视差 (motion parallax) , 是生物系统感知几何结构的一种基本方式。 ...

2025-04 · 8 分钟 · 3997 字
[Self-Supervised Cross-View Correspondence with Predictive Cycle Consistency 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Baade_Self-Supervised_Cross-View_Correspondence_with_Predictive_Cycle_Consistency_CVPR_2025_paper.pdf)

那个杯子在哪里?教 AI 在无标签情况下跨越极端视角匹配物体

简介 想象一下,你试图通过让机器人观看人类厨师的视频来教它做饭。机器人有自己的摄像头 (第一人称,或称“自我中心”视角) ,但它同时也观看着厨房角落里的监控摄像头 (第三人称,或称“非自我中心”/外部视角) 。人类拿起一个蓝色的杯子。为了模仿这一动作,机器人需要知道角落摄像头画面中的那个蓝色形状,与它自己摄像头画面中的蓝色形状对应的是同一个物体。 ...

7 分钟 · 3314 字