CVPR 2025

[RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training 🔗](https://arxiv.org/abs/2411.17662)

RoboPEPP：教 AI 通过物理直觉“看见”机器人姿态

想象一个机械臂在繁忙的厨房或生产车间里工作。为了安全地与人类或其他机器协作，这个机器人需要确切知道自己在相机视野中的空间位置。这就是所谓的机器人姿态估计。 ...

[Revisiting MAE pre-training for 3D medical image segmentation 🔗](https://arxiv.org/abs/2410.23132)

Spark3D：简单的掩码自编码器如何彻底改变 3D 医学成像

在深度学习这个快节奏的领域，我们经常寻找“下一个风口”——一种新的 Transformer 架构、一个复杂的损失函数，或者一个革命性的优化器。然而，有时最重大的突破并非源于发明全新的事物，而是源于采用一个简单、强大的想法，并将其工程化到极致。 ...

[Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition 🔗](https://arxiv.org/abs/2411.18941)

AI 能区分写字和打字吗？ProtoGCN 如何利用原型掌握细粒度动作识别

引言想象一下，看着一个人坐在桌前的剪影。他们的手臂在动。他们是在写信，还是在键盘上打字？对于普通的观察者，甚至对于许多计算机视觉算法来说，这两个动作看起来都惊人地相似。姿势是一样的；活动的身体部位 (手臂和手) 也是一样的。区别在于那些关节相对于彼此运动的微妙、细粒度的细节中。 ...

[Rethinking Personalized Aesthetics Assessment: Employing Physique Aesthetics Assessment as An Exemplification 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Zhong_Rethinking_Personalized_Aesthetics_Assessment_Employing_Physique_Aesthetics_Assessment_as_An_CVPR_2025_paper.pdf)

超越平均：个性化AI美学评估的新范式

引言 “情人眼里出西施。”这句话我们已经听过无数遍了，它意味着审美判断本质上是主观的。然而，在计算机视觉和人工智能领域，多年来我们一直在通过平均大众的观点来教机器理解“美”。这种方法被称为通用美学评估 (Generic Aesthetics Assessment, GAA) , 对于判断一张照片是否具有普遍的“高质量”——是否对焦准确？光线是否良好？构图是否标准？——非常有效。 ...

[Relative Pose Estimation through Affine Corrections of Monocular Depth Priors 🔗](https://arxiv.org/abs/2501.05446)

修正偏移：仿射校正如何释放单目深度在相机位姿估计中的潜力

引言在计算机视觉的世界里，我们正见证着单目深度估计 (Monocular Depth Estimation, MDE) 的黄金时代。得益于深度学习和海量数据，现代神经网络仅凭一张平面的 2D 图像就能预测出惊人准确的密集深度图。诸如 MiDaS、Marigold 和 Depth Anything 等模型已将 2D 图像转化为伪 3D 表征。 ...

[Reference-Based 3D-Aware Image Editing with Triplanes 🔗](https://arxiv.org/abs/2404.03632)

3D 里的复制粘贴：掌握基于参考图像的 Triplane 编辑技术

想象一下你正在编辑一张照片。你想把网上找到的一张名人照片里的特定发型换给照片里的人。在 2D 图像编辑 (如 Photoshop 或标准的生成式 AI) 中，这正变得越来越容易。但如果那个人不仅仅是一张平面图像呢？如果你正在构建一个视频游戏头像、VR 体验或电影场景，其中的角色需要转头呢？ ...

[Reconstructing People, Places, and Cameras 🔗](https://arxiv.org/abs/2412.17806)

HSfM：统一人物与运动结构恢复，构建度量级 3D 世界

想象一下，你手里有一些不同人在派对上拍摄的照片。你想要在 3D 环境中重现那一刻: 房间的布局、每个人的站位，以及摄影师们所在的位置。在计算机视觉中，这是一个经典的分野。我们有非常优秀的算法来重建静态场景 (墙壁、家具) ，即所谓的运动结构恢复 (SfM) 。我们也有很棒的模型来重建人物 (姿态、体型) 。但在历史上，这两个领域就像水火不容。SfM 算法将移动的人物视为需要过滤的“噪声”，而人物重建方法通常会生成“悬浮”的化身，完全没有地面的概念或房间的比例感。 ...

[Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach 🔗](https://arxiv.org/abs/2503.08306)

探索机器人思维：端到端智能体如何学习物理与规划

引言想象一下教机器人穿越拥挤的办公室。过去，这是一个模块化的问题: 一个软件构建地图，另一个在地图上定位机器人，第三个计算路径。如今，具身智能 (Embodied AI) 的前沿技术使用的是“端到端” (E2E) 强化学习。你给机器人输入视觉数据 (像素) ，它输出运动指令 (动作) 。这是一种“黑盒”方法，在仿真中取得了令人印象深刻的成果。 ...

[Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval 🔗](https://arxiv.org/abs/2412.11077)

先思考再搜索：单阶段反思性推理如何解决组合图像检索问题

想象一下你在网上购物。你看到一张模特穿着漂亮的碎花连衣裙的照片，但你更想要一件纯红色的。你不能直接上传这张图片，因为搜索引擎会再次给你推荐那件碎花裙。你也不能只输入“红裙子”，因为那样会丢失原图中特定的剪裁和款式信息。 ...

[Realistic Test-Time Adaptation of Vision-Language Models 🔗](https://arxiv.org/abs/2501.03729)

锚定你的模型：StatA 如何让视觉-语言适配更具现实意义

像 CLIP 这样的视觉-语言模型 (Vision-Language Models, VLMs) 已经彻底改变了计算机视觉领域。通过在预训练期间对齐图像和文本，它们使我们能够执行“零样本” (zero-shot) 分类——即仅通过将图像与文本描述进行匹配，就能识别模型在训练中从未明确见过的物体。 ...

[Real-time High-fidelity Gaussian Human Avatars with Position-based Interpolation of Spatially Distributed MLPs 🔗](https://arxiv.org/abs/2504.12909)

超越单一大脑——分布式 MLP 如何彻底变革实时人类化身

创造能够实时移动和反应的逼真数字人类，是计算机图形学领域的“圣杯”级挑战之一。无论是为了元宇宙、电子游戏还是虚拟现实远程呈现，我们都希望化身看起来真实——甚至连衬衫上的褶皱都清晰可见——并且能以高帧率渲染。 ...

[Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected Textures 🔗](https://arxiv.org/abs/2412.13183)

双重攻坚：“双重反投影纹理”如何解决实时人体渲染问题

想象一下给朋友打视频电话，但你面对的不再是手机上平面的 2D 矩形，而是一个逼真的 3D 全息图。你可以绕着他们走动，看到他们衬衫的背面，或者从任何角度观看他们跳舞。这就是远程临场 (Telepresence) 和元宇宙的“圣杯”。 ...

[ReNeg: Learning Negative Embedding with Reward Guidance 🔗](https://arxiv.org/abs/2412.19637)

告别“烂手”：ReNeg 如何自动化负向提示词以提升 AI 绘画水平

引言如果你曾玩过像 Stable Diffusion 这样的文生图 (T2I) 模型，那你很可能熟悉“提示词工程 (prompt engineering) ”带来的挫败感。你输入了一段优美的描述，结果生成的图片里却是扭曲的面孔、多余的手指，或者阴暗的色调。为了解决这个问题，社区开发了一种变通方法: 负向提示词 (Negative Prompts) 。 ...

[ROLL: Robust Noisy Pseudo-label Learning for Multi-View Clustering with Noisy Correspondence 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Sun_ROLL_Robust_Noisy_Pseudo-label_Learning_for_Multi-View_Clustering_with_Noisy_CVPR_2025_paper.pdf)

当数据撒谎时：喧嚣世界中的鲁棒多视图聚类

当数据撒谎时: 喧嚣世界中的鲁棒多视图聚类在机器学习研究的理想世界中，数据是干净的，标签是准确的，每一个输入都与其描述完美匹配。然而在现实世界中，数据是杂乱的。传感器会故障，标注员会犯错，数据集里充满了噪声。 ...

[RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness 🔗](https://arxiv.org/abs/2405.17220)

AI 能自学变得诚实吗？深入解析 RLAIF-V 框架

多模态大语言模型 (MLLMs) ——即能够看懂图片并进行讨论的 AI——的兴起无疑是一场革命。像 GPT-4V 和 LLaVA 这样的模型已经展示了理解视觉世界的惊人能力。然而，它们都有一个顽固且严重的缺陷: 幻觉 (Hallucination) 。 ...

[RGBAvatar: Reduced Gaussian Blendshapes for Online Modeling of Head Avatars 🔗](https://arxiv.org/abs/2503.12886)

实时数字孪生：RGBAvatar 如何彻底改变头部化身重建

“数字孪生”的梦想——一个外观和动作都和你一模一样、逼真且可动画化的化身——长期以来一直是计算机图形学的圣杯。无论是为了元宇宙、电子游戏还是下一代远程临场技术，对高保真头部化身的需求正在激增。 ...

[Question-Aware Gaussian Experts for Audio-Visual Question Answering 🔗](https://arxiv.org/abs/2503.04459)

驾驭时间动态：QA-TIGER 如何彻底变革音视频问答

想象你正在观看一段管弦乐队的视频。一位朋友问: “哪种乐器最先开始演奏？”为了回答这个问题，你的大脑完成了一项复杂的壮举。你不仅是看几张随机的快照；你在感知时间的连续流动。你不仅仅是整体地听音频；你在分离特定的声音，并将它们与视觉动作同步。最重要的是，在处理场景之前，你就确切地知道要看什么和听什么，因为问题引导了你的注意力。 ...

[QuCOOP: A Versatile Framework for Solving Composite and Binary-Parametrised Problems on Quantum Annealers 🔗](https://arxiv.org/abs/2503.19718)

超越 QUBO：QuCOOP 如何为计算机视觉解锁量子退火

如果你一直关注量子计算的发展，你可能知道我们正处于 “NISQ” 时代 (含噪中型量子) 。虽然通用、容错的量子计算机尚在未来，但我们目前可以获得量子退火机 (比如 D-Wave 的那些) 。这些机器是专门设计的硬件，用于寻找系统的最低能量状态，这使它们成为组合优化的潜在强大工具。 ...

[Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness 🔗](https://arxiv.org/abs/2503.09487)

修复 AI 中的伪相关：深入解析 Project-Probe-Aggregate (PPA)

引言: “水鸟”问题想象一下，你正在训练一个 AI 来对鸟类进行分类。你给它喂了数千张水鸟 (如鸭子) 和陆鸟 (如麻雀) 的图片。模型在验证集上达到了 99% 的准确率。你准备好部署了。 ...

[Prior-free 3D Object Tracking 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Song_Prior-free_3D_Object_Tracking_CVPR_2025_paper.pdf)

打破循环：BIT 如何在无模型且无训练的情况下实现 3D 物体追踪

简介想象一下你是一个机器人。我递给你一个你从未见过的玩具——一个形状独特、手工雕刻的木制动物。我要求你在我挥动它时，在 3D 空间中追踪它的运动。对于人类来说，这是轻而易举的。但对于计算机视觉系统来说，这是一个噩梦般的场景。 ...