[Point-to-Region Loss for Semi-Supervised Point-Based Crowd Counting 🔗](https://arxiv.org/abs/2505.21943)

逃离点对点损失的陷阱:点对区域匹配如何解决半监督人群计数问题

想象一下看着一张座无虚席的体育场或熙熙攘攘的城市广场的照片。你的任务是数清每一个人。在计算机视觉中,这就是人群计数 (Crowd Counting) 任务,它对于城市规划、安全监控和交通控制至关重要。 ...

2025-05 · 7 分钟 · 3420 字
[PlanarSplatting: Accurate Planar Surface Reconstruction in 3 Minutes 🔗](https://arxiv.org/abs/2412.03451)

超越点云与高斯:使用 PlanarSplatting 重建室内场景

如果你环顾此刻身处的房间,你会看到什么?理想情况下,你会看到墙壁、地板、天花板,或许还有一张桌子或书架。从几何角度看,你被平面包围着。 虽然人类能瞬间感知这些结构化的平坦表面,但让计算机从 2D 图像中重建它们却极其困难。传统的 3D 重建方法通常输出“点云”或“网格”,它们看起来像融化的蜡——凹凸不平、充满噪点,且缺乏真实墙壁或桌子那种清晰的几何定义。 ...

2024-12 · 7 分钟 · 3476 字
[Pippo: High-Resolution Multi-View Humans from a Single Image 🔗](https://arxiv.org/abs/2502.07785)

从自拍到影棚:Pippo 如何仅凭一张照片生成高清 3D 化身

从自拍到影棚: Pippo 如何仅凭一张照片生成高清 3D 化身 想象一下,用智能手机快速随意地拍一张自己的照片,片刻之后,你就拥有了一个高分辨率、360 度旋转的数字孪生视频——不仅包含你背部的细节,甚至连头发的纹理和衣服的褶皱都清晰可见,而且完全符合 3D 一致性。这种能力是元宇宙、游戏、虚拟时尚和远程呈现等应用领域的“圣杯”。 ...

2025-02 · 8 分钟 · 3864 字
[PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset 🔗](https://arxiv.org/abs/2403.11116)

诊断多模态 AI 的幻觉:深入解析 PhD 基准测试

想象一下,你向一个人工智能展示一张猫睡在桌子上的照片。你问它: “这张照片里有狗吗?”AI 自信地回答: “是的,有一只狗睡在桌子上。” 这种现象被称为视觉幻觉 。 这是多模态大语言模型 (MLLMs) ——如 LLaVA、Qwen-VL 或 GPT-4V 等既能看又能说的系统——面临的最持久且令人困惑的挑战之一。虽然这些模型展现了惊人的能力,但它们经常凭空捏造物体、误解属性,或盲目同意文本提示中提供的错误前提。 ...

2024-03 · 7 分钟 · 3430 字
[Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics 🔗](https://arxiv.org/abs/2503.20308)

超越顶点误差:如何打造真正逼真的 3D 说话人头像

如果你玩过现代 RPG 游戏,或者看过使用 AI 生成口型同步的配音电影,你可能经历过“恐怖谷效应”。角色的嘴唇在动,从技术上讲,它们针对发音做出的形状也是对的,但总感觉有什么地方不对劲。对于元音 ‘a’,嘴巴张开的幅度可能完美无缺,但它缺乏大喊时的那种能量,或者时间上哪怕只有几毫秒的机械感偏差。 ...

2025-03 · 7 分钟 · 3303 字
[PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models 🔗](https://arxiv.org/abs/2412.18608)

超越单体网格:PartGen 如何分解与重建 3D 对象

生成式 AI 领域的发展速度惊人。我们从模糊的 2D 图像起步,迈向了高保真的照片级写实,现在已经抵达了通过简单文本提示生成 3D 资产的前沿。像 DreamFusion 和各种网格生成器这样的工具,可以在几秒钟内创造出“一只穿着侦探服的比格犬”。 ...

2024-12 · 7 分钟 · 3113 字
[Parallelized Autoregressive Visual Generation 🔗](https://arxiv.org/abs/2412.15119)

利用 PAR 打破自回归图像生成的速度限制

引言 在生成式 AI 的世界里,自回归 (Autoregressive, AR) 模型是中流砥柱。它们是驱动 ChatGPT 和 Claude 等大型语言模型 (LLMs) 的架构基础。其前提简单而强大: 基于之前的所有内容来预测下一条数据。当应用于文本时,它们一次写一个词。当应用于计算机视觉时,它们一次绘制图像的一个“Token” (图像的压缩块) 。 ...

2024-12 · 7 分钟 · 3365 字
[Panorama Generation From NFoV Image Done Right 🔗](https://arxiv.org/abs/2503.18420)

逃离视觉欺骗陷阱:如何生成几何正确的 360° 全景图

想象一下你正站在一座宏伟的大教堂里。你用标准的智能手机相机拍了一张照片。这张照片捕捉到了“窄视场角” (Narrow Field of View, NFoV) ——本质上只是整个场景的一个小矩形。现在,想象一下要求 AI 拿走这个小矩形,并“构想”出大教堂的其余部分——天花板、地板以及你身后的所有东西——从而创建一个完美的 360 度球体,让你可以在 VR 头显中观看。 ...

2025-03 · 7 分钟 · 3482 字
[PGC: Physics-Based Gaussian Cloth from a Single Pose 🔗](https://arxiv.org/abs/2503.20779)

两全其美:结合物理与高斯技术打造逼真的数字布料

数字服装一直是计算机图形学中的一个棘手问题。如果你玩现代电子游戏或观看视觉特效分解,你可能会注意到,虽然面部已经变得与现实难以区分,但服装往往落后一步。它要么看起来像一个僵硬的塑料外壳,要么运动方式怪异,要么缺乏真实织物那种毛茸茸的触感和“柔软度”。 ...

2025-03 · 7 分钟 · 3167 字
[Overcoming Shortcut Problem in VLM for Robust Out-of-Distribution Detection 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Xu_Overcoming_Shortcut_Problem_in_VLM_for_Robust_Out-of-Distribution_Detection_CVPR_2025_paper.pdf)

别作弊了!如何修复视觉语言模型中的捷径学习问题

想象一下你是一个正在参加考试的学生。你遇到了一道题,图片显示的是一片草地,里面有一只模糊的小动物。你并不完全确定那是什么动物,但你知道牛通常待在草地上。所以,你猜了“牛”。结果你答对了。 ...

7 分钟 · 3382 字
[Order-One Rolling Shutter Cameras 🔗](https://arxiv.org/abs/2403.11295)

驯服“果冻效应”——卷帘快门几何的统一理论

如果你曾用智能手机在车窗外拍过旋转的螺旋桨或飞驰的火车,你可能目睹过“卷帘快门” (Rolling Shutter) 效应。螺旋桨看起来像弯曲的回旋镖;垂直的杆子看起来是倾斜的;汽车看起来像是向前倾倒。 ...

2024-03 · 7 分钟 · 3214 字
[OpticalNet: An Optical Imaging Dataset and Benchmark Beyond the Diffraction Limit 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_OpticalNet_An_Optical_Imaging_Dataset_and_Benchmark_Beyond_the_Diffraction_CVPR_2025_paper.pdf)

打破物理定律?OpticalNet 如何利用 AI 看见不可见之物

打破物理定律?OpticalNet 如何利用 AI 看见不可见之物 几个世纪以来,探索“微观世界”一直是科学发展的驱动力。从古代简陋的放大镜到今天精密的显微镜,我们从未停止对更高分辨率的追求。但始终存在一堵难以逾越的墙: 衍射极限 (Diffraction Limit) 。 ...

8 分钟 · 3579 字
[OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation 🔗](https://arxiv.org/abs/2412.00115)

解决 AI 视频中的“人类”难题:深入解析 OpenHumanVid

如果你尝试过最近的视频生成模型,比如 Sora、Stable Video Diffusion 或 MovieGen,你可能会发现一个反复出现的模式。这些模型可以毫不费力地生成令人惊叹的风景、赛博朋克风格的城市和超现实的抽象画面。但是,一旦你要求生成一段人类说话或执行复杂动作的视频,缺陷便开始显现。 ...

2024-12 · 6 分钟 · 2844 字
[Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces 🔗](https://arxiv.org/abs/2503.19199)

超越几何:教会机器人在 3D 空间中理解功能

想象一下,你是一个正在厨房里穿梭的机器人。你扫描房间,完美地识别出了冰箱、橱柜和水槽。你知道它们在 3D 空间中的确切位置。但现在,你收到了一个指令: “打开冰箱”。 ...

2025-03 · 6 分钟 · 2941 字
[Open-Canopy: Towards Very High Resolution Forest Monitoring 🔗](https://arxiv.org/abs/2407.09392)

森林监测规模化:深入解读 Open-Canopy 甚高分辨率卫星图像基准

引言 如果你想知道一片森林储存了多少碳,或者一个生态系统有多健康,你需要知道树木的高度。这听起来很简单,但在全球——甚至仅仅是国家——范围内测量树冠高度是一场巨大的后勤噩梦。你不可能派出一队研究人员带着卷尺走进每一公顷的林地。 ...

2024-07 · 8 分钟 · 3557 字
[One-shot 3D Object Canonicalization based on Geometric and Semantic Consistency 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Jin_One-shot_3D_Object_Canonicalization_based_on_Geometric_and_Semantic_Consistency_CVPR_2025_paper.pdf)

驯服 3D 荒野——如何利用 LLM 和几何学实现单样本对象规范化

想象一下走进一家图书馆,所有的书都被随意地扔在地板上堆成一堆。想要找到《白鲸记》简直是场噩梦。现在,再想象一家图书馆,所有的书都整齐地放在书架上,书脊朝外,直立摆放,并分门别类。这本质上就是3D 对象规范化 (3D Object Canonicalization) 要解决的问题。 ...

8 分钟 · 3661 字
[OmniSplat: Taming Feed-Forward 3D Gaussian Splatting for Omnidirectional Images with Editable Capabilities 🔗](https://arxiv.org/abs/2412.16604)

OmniSplat:如何利用 360° 图像掌握 3D 场景重建

想象一下,试图仅凭两张照片就重建整个 3D 房间。在计算机视觉领域,这种“稀疏视图重建”是虚拟现实 (VR) 和增强现实 (AR) 的圣杯。最近, 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 彻底改变了这一领域,提供了旧方法 (如 NeRF) 难以企及的实时渲染速度。 ...

2024-12 · 7 分钟 · 3112 字
[Omnimanip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints 🔗](https://arxiv.org/abs/2501.03841)

跨越鸿沟:OmniManip 如何将 VLM 的推理能力转化为精准的机器人动作

通用机器人的梦想是造出一台能走进杂乱的厨房,识别出茶壶和茶杯,并在没有针对特定茶壶或茶杯进行显式编程的情况下为你倒一杯水的机器。 近年来,我们见证了 视觉语言模型 (VLMs) 的巨大飞跃。这些模型 (如 GPT-4V) 拥有令人难以置信的“常识”。它们可以看着一张图片告诉你: “那是一个茶壶,你要握住它的把手,然后从壶嘴倒出液体。”然而,知道 做什么 与知道在 3D 空间中究竟 如何做 是截然不同的。 ...

2025-01 · 8 分钟 · 3654 字
[Olympus: A Universal Task Router for Computer Vision Tasks 🔗](https://arxiv.org/abs/2412.09612)

从“万事通”到“指挥大师”:Olympus 如何重新定义多模态 AI

引言: “一体化” AI 的困境 在人工智能飞速发展的今天,构建终极“一体化” (All-in-One) 模型的竞赛正如火如荼。我们已经看到了像 GPT-4 和 LLaVA 这样能看、能读、能推理的多模态大型语言模型 (MLLM) 。我们也看到了像 Stable Diffusion 和 Sora 这样能创造惊人图像和视频的生成式模型。 ...

2024-12 · 8 分钟 · 3510 字
[K Octopus: Alleviating Hallucination via Dynamic Contrastive Decoding 🔗](https://arxiv.org/abs/2503.00361)

利用 Octopus 框架驯服视觉语言模型中的幻觉

引言 想象一下,你让 AI 描述一张足球场的照片。模型自信地回答: “一名身穿绿色球衣的球员正将球踢向球门。”这句话听起来很完美,除了一点问题: 照片里根本没有球。 ...

2025-03 · 3 分钟 · 1434 字