[ALIEN: Implicit Neural Representations for Human Motion Prediction under Arbitrary Latency 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Wei_ALIEN_Implicit_Neural_Representations_for_Human_Motion_Prediction_under_Arbitrary_CVPR_2025_paper.pdf)

解决延迟难题:ALIEN 如何在任意网络延迟下预测人体动作

引言 想象一下,你正在与地球另一端的朋友进行一场高风险的虚拟现实 (VR) 乒乓球比赛。你挥动控制器,期望你的虚拟化身能瞬间模仿这个动作。但问题来了: 网络连接在波动。你的挥拍数据通过广域网 (WAN) 传输,在到达游戏服务器或对手的显示设备之前,遭遇了不可预测的延迟。 ...

7 分钟 · 3380 字
[AIpparel: A Multimodal Foundation Model for Digital Garments 🔗](https://arxiv.org/abs/2412.03937)

AIpparel:首个用于数字时尚设计的基础模型

时尚是人类文化内在的一部分,它既是抵御自然元素的盾牌,也是自我表达的画布。然而,时尚产业的后端——特别是缝纫版型 (sewing patterns) 的制作——仍然是一个主要依赖人工和技术的瓶颈。虽然生成式 AI 已经彻底改变了 2D 图像创作 (比如 Midjourney 或 DALL-E) ,但生成可制造的 (manufacturable) 服装完全是另一回事。 ...

2024-12 · 6 分钟 · 2885 字
[A Unified Approach to Interpreting Self-supervised Pre-training Methods for 3D Point Clouds via Interactions 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Li_A_Unified_Approach_to_Interpreting_Self-supervised_Pre-training_Methods_for_3D_CVPR_2025_paper.pdf)

3D 预训练为何有效?利用博弈论解开黑盒之谜

在飞速发展的 3D 计算机视觉领域,自监督预训练已成为黄金标准。无论你是构建自动驾驶车辆的感知系统,还是分析 3D 医学扫描,成功的秘诀通常都包括: 获取海量无标签数据集,在其上预训练一个深度神经网络 (DNN) ,然后针对你的特定任务进行微调。 ...

8 分钟 · 3865 字
[4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion 🔗](https://arxiv.org/abs/2412.04462)

超越 2D:4Real-Video 如何在数秒内生成一致的 4D 世界

想象一下,你正在观看一段猫咪玩玩具的视频。在普通视频中,你只是一个被动的观察者,被限制在摄像师选择的视角中。现在,想象你可以在任何一秒暂停视频,抓住屏幕,围绕静止的猫咪旋转摄像机,从背面看那个玩具。然后,你按下播放键,视频从那个新的角度继续播放。 ...

2024-12 · 7 分钟 · 3171 字
[3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion 🔗](https://arxiv.org/abs/2409.12957)

3DTopia-XL:通过图元扩散实现高保真 3D 资产生成的未来

对高质量 3D 资产的需求正在呈爆炸式增长。从视频游戏和虚拟现实的沉浸式世界,到建筑可视化和电影制作的实际应用,对细节丰富、逼真的 3D 模型的需求比以往任何时候都高。传统上,创建这些资产是一个劳动密集型的瓶颈,需要熟练的艺术家手动雕刻几何形状、绘制纹理并调整材质属性。 ...

2024-09 · 7 分钟 · 3219 字
[3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes 🔗](https://arxiv.org/abs/2411.14974)

超越高斯:为什么 3D 光滑凸包是辐射场的未来

引言 在计算机视觉这一快速发展的领域中,在计算机内部重建现实的探索在短短几年内取得了巨大的飞跃。我们从摄影测量学起步,发展到革命性的神经辐射场 (NeRF),最近又迎来了 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS)。 ...

2024-11 · 8 分钟 · 3756 字
[Zero-Shot Monocular Scene Flow Estimation in the Wild 🔗](https://arxiv.org/abs/2501.10357)

驯服荒野——零样本单目场景流估计的新标准

引言 想象一下你正在观看一段标准的视频片段。这是一个 2D 的图像序列。你的大脑在处理这个单目 (单眼) 视角时,瞬间就能理解两件事: 场景的 3D 结构 (什么离得近,什么离得远) 以及物体的运动 (物体在 3D 空间中是如何移动的) 。 ...

2025-01 · 7 分钟 · 3227 字
[VGGT: Visual Geometry Grounded Transformer 🔗](https://arxiv.org/abs/2503.11651)

一次前向传递搞定一切:深入解析 VGGT 及其即时 3D 重建能力

简介 几十年来,计算机视觉领域一直在追寻一个特定的“圣杯”: 将散落在场景各处的几张扁平 2D 照片,瞬间转化为连贯的 3D 模型。 传统上,这个过程——被称为运动恢复结构 (Structure-from-Motion, SfM) ——是一个缓慢且繁琐的数学计算过程。它涉及检测特征、在图像间进行匹配、求解复杂的几何方程以找到相机位置,然后运行像光束法平差 (Bundle Adjustment) 这样的迭代优化算法来微调一切。虽然这种方法有效,但它的计算成本高昂,而且往往很脆弱。 ...

2025-03 · 8 分钟 · 3708 字
[UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming 🔗](https://arxiv.org/abs/2307.16375)

打破分布式瓶颈:UniAP 如何统一并行训练策略

如果你曾经尝试过训练像 Llama 这样的大型语言模型 (LLM) 或像 ViT 这样的视觉巨型模型,你就知道其中的艰难: 单块 GPU 根本无法胜任。为了训练这些庞然大物,我们需要跨 GPU 集群进行分布式学习。 ...

2023-07 · 7 分钟 · 3228 字
[The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition 🔗](https://arxiv.org/abs/2502.21201)

AI 能透过树木看见黑猩猩吗?缓解野生动物监测中的背景偏差

引言 想象一下,你正在训练一个计算机视觉模型来识别正在爬树的黑猩猩。你给它输入了数千小时的视频素材。模型达到了很高的准确率,你对此感到非常兴奋。但是,当你用一段没有黑猩猩的空旷森林视频测试它时,模型却自信地预测: “正在爬树”。 ...

2025-02 · 7 分钟 · 3371 字
[TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion 🔗](https://arxiv.org/abs/2504.11773)

TacoDepth:突破雷达-相机深度估计的速度极限

在自动驾驶和机器人技术飞速发展的世界中,感知即一切。车辆不仅需要知道周围有什么,还需要确切地知道它们有多远。虽然激光雷达 (LiDAR) 传感器能提供出色的深度数据,但其价格昂贵。一种更具成本效益的替代方案是融合来自相机 (丰富的视觉细节) 和毫米波雷达 (可靠的深度和速度信息) 的数据。 ...

2025-04 · 7 分钟 · 3407 字
[Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models 🔗](https://arxiv.org/abs/2501.01423)

打破权衡:如何通过将 VAE 与基础模型对齐来大幅增强扩散模型训练

引言 在生成式 AI 飞速发展的今天,像 Stable Diffusion 和 Sora 这样的潜在扩散模型 (Latent Diffusion Models, LDMs) 已成为创建高保真图像和视频的黄金标准。这些模型的魔力在于它们不直接处理像素,而是在一个压缩的“潜在空间 (latent space) ”中运行。这种压缩由一个称为视觉分词器 (Visual Tokenizer) 的组件处理,通常是一个变分自编码器 (VAE) 。 ...

2025-01 · 8 分钟 · 3667 字
[Navigation World Models 🔗](https://arxiv.org/abs/2412.03572)

机器人会梦见走路吗?深入解读导航世界模型

引言 你如何在拥挤的房间里找到出口?你可能不会只盯着自己的脚,等到障碍物碰到脚趾时才做出反应。相反,你会进行心理模拟。你会想象一条路径,预测某人可能会挡住你的路,并在迈出一步之前调整你的轨迹。你拥有一个内部世界模型,使你能够模拟未来。 ...

2024-12 · 7 分钟 · 3271 字
[Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models 🔗](https://arxiv.org/abs/2409.17146)

打破蒸馏的循环:Molmo 如何从零构建最先进的视觉语言模型

引言 在人工智能快速发展的格局中,视觉语言模型 (Vision-Language Models, VLMs) 已经变得无处不在。像 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 这样的模型能够以惊人的准确度描述复杂的图像、解读图表并回答关于视觉世界的问题。然而,这些专有模型就像是“围墙花园”。我们可以通过 API 与它们交互,但我们并不确切知道它们是如何构建的,也不清楚它们是使用什么数据进行训练的。 ...

2024-09 · 8 分钟 · 3553 字
[MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos 🔗](https://arxiv.org/abs/2412.04463)

驯服混乱:MegaSaM 如何解决随手拍动态视频的 3D 重建难题

想象一下,你拿着智能手机录制朋友在沙滩上奔跑或赛车在赛道上飞驰的视频。对你来说,场景很清晰。但对于试图以 3D 形式重建该场景的计算机来说,这是一场噩梦。 ...

2024-12 · 8 分钟 · 3619 字
[FoundationStereo: Zero-Shot Stereo Matching 🔗](https://arxiv.org/abs/2501.09898)

FoundationStereo:将零样本泛化引入立体深度估计

FoundationStereo: 将零样本泛化引入立体深度估计 在计算机视觉的快速演变中,我们见证了“基础模型” (Foundation Models) 彻底改变了机器理解图像的方式。像 Segment Anything (SAM) 或 DepthAnything 这样的模型展示了令人难以置信的泛化能力: 它们可以在从未见过的图像上执行任务,而无需特定的微调。 ...

2025-01 · 7 分钟 · 3461 字
[Descriptor-In-Pixel : Point-Feature Tracking for Pixel Processor Arrays 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Bose_Descriptor-In-Pixel__Point-Feature_Tracking_For_Pixel_Processor_Arrays_CVPR_2025_paper.pdf)

智能传感器:像素内计算如何实现 3000 FPS 特征追踪

智能传感器: 像素内计算如何实现 3000 FPS 特征追踪 计算机视觉面临着一个瓶颈问题。在传统的设置中——无论是智能手机、VR 头显还是无人机——摄像头传感器仅仅充当一个“傻瓜式”的容器。它捕获数百万个光子,将其转换为数字值,然后将海量的原始数据流传输到外部处理器 (CPU 或 GPU) 以分析它看到了什么。 ...

6 分钟 · 2656 字
[DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models 🔗](https://arxiv.org/abs/2503.01774)

清理乱局:单步扩散模型如何彻底改变 3D 重建

引言 我们正见证着神经渲染的黄金时代。神经辐射场 (NeRF) 和 3D 高斯泼溅 (3DGS) 等技术让我们能够将少量 2D 照片转化为身临其境、可漫游的 3D 场景。其结果往往令人叹为观止——直到你偏离原始相机路径太远。 ...

2025-03 · 7 分钟 · 3161 字
[Convex Relaxation for Robust Vanishing Point Estimation in Manhattan World 🔗](https://arxiv.org/abs/2505.04788)

通过松弛法求解——一种全新的灭点估计全局方法

如果你沿着长直的走廊看去,或者从街道上凝视一座摩天大楼,你会直观地理解透视现象。现实世界中的平行线——比如天花板的边缘或建筑物的侧面——在远处似乎汇聚于一点。在计算机视觉中,这些点被称为灭点 (Vanishing Points, VPs) 。 ...

2025-05 · 6 分钟 · 2630 字
[3D Student Splatting and Scooping 🔗](https://arxiv.org/abs/2503.10148)

超越高斯:Student-t 分布与负密度如何革新神经渲染

引言 在计算机图形学和计算机视觉飞速发展的世界中,很少有技术能像 3D Gaussian Splatting (3DGS,3D 高斯溅射) 最近这样引起如此大的轰动。它为神经辐射场 (NeRFs) 提供了一个绝佳的替代方案,通过将场景表示为数百万个 3D 高斯椭球,实现了复杂场景的实时渲染。它速度快、质量高,且具有显式表达的特性。 ...

2025-03 · 8 分钟 · 3885 字