[RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training 🔗](https://arxiv.org/abs/2411.17662)

RoboPEPP:教 AI 通过物理直觉“看见”机器人姿态

想象一个机械臂在繁忙的厨房或生产车间里工作。为了安全地与人类或其他机器协作,这个机器人需要确切知道自己在相机视野中的空间位置。这就是所谓的机器人姿态估计 。 ...

2024-11 · 8 分钟 · 3750 字
[Revisiting MAE pre-training for 3D medical image segmentation 🔗](https://arxiv.org/abs/2410.23132)

Spark3D:简单的掩码自编码器如何彻底改变 3D 医学成像

在深度学习这个快节奏的领域,我们经常寻找“下一个风口”——一种新的 Transformer 架构、一个复杂的损失函数,或者一个革命性的优化器。然而,有时最重大的突破并非源于发明全新的事物,而是源于采用一个简单、强大的想法,并将其工程化到极致。 ...

2024-10 · 8 分钟 · 3732 字
[Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition 🔗](https://arxiv.org/abs/2411.18941)

AI 能区分写字和打字吗?ProtoGCN 如何利用原型掌握细粒度动作识别

引言 想象一下,看着一个人坐在桌前的剪影。他们的手臂在动。他们是在写信,还是在键盘上打字?对于普通的观察者,甚至对于许多计算机视觉算法来说,这两个动作看起来都惊人地相似。姿势是一样的;活动的身体部位 (手臂和手) 也是一样的。区别在于那些关节相对于彼此运动的微妙、细粒度的细节中。 ...

2024-11 · 7 分钟 · 3395 字
[Rethinking Personalized Aesthetics Assessment: Employing Physique Aesthetics Assessment as An Exemplification 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Zhong_Rethinking_Personalized_Aesthetics_Assessment_Employing_Physique_Aesthetics_Assessment_as_An_CVPR_2025_paper.pdf)

超越平均:个性化AI美学评估的新范式

引言 “情人眼里出西施。”这句话我们已经听过无数遍了,它意味着审美判断本质上是主观的。然而,在计算机视觉和人工智能领域,多年来我们一直在通过平均大众的观点来教机器理解“美”。这种方法被称为通用美学评估 (Generic Aesthetics Assessment, GAA) , 对于判断一张照片是否具有普遍的“高质量”——是否对焦准确?光线是否良好?构图是否标准?——非常有效。 ...

8 分钟 · 3761 字
[Relative Pose Estimation through Affine Corrections of Monocular Depth Priors 🔗](https://arxiv.org/abs/2501.05446)

修正偏移:仿射校正如何释放单目深度在相机位姿估计中的潜力

引言 在计算机视觉的世界里,我们正见证着单目深度估计 (Monocular Depth Estimation, MDE) 的黄金时代。得益于深度学习和海量数据,现代神经网络仅凭一张平面的 2D 图像就能预测出惊人准确的密集深度图。诸如 MiDaS、Marigold 和 Depth Anything 等模型已将 2D 图像转化为伪 3D 表征。 ...

2025-01 · 8 分钟 · 3517 字
[Reference-Based 3D-Aware Image Editing with Triplanes 🔗](https://arxiv.org/abs/2404.03632)

3D 里的复制粘贴:掌握基于参考图像的 Triplane 编辑技术

想象一下你正在编辑一张照片。你想把网上找到的一张名人照片里的特定发型换给照片里的人。在 2D 图像编辑 (如 Photoshop 或标准的生成式 AI) 中,这正变得越来越容易。但如果那个人不仅仅是一张平面图像呢?如果你正在构建一个视频游戏头像、VR 体验或电影场景,其中的角色需要转头呢? ...

2024-04 · 7 分钟 · 3454 字
[Reconstructing People, Places, and Cameras 🔗](https://arxiv.org/abs/2412.17806)

HSfM:统一人物与运动结构恢复,构建度量级 3D 世界

想象一下,你手里有一些不同人在派对上拍摄的照片。你想要在 3D 环境中重现那一刻: 房间的布局、每个人的站位,以及摄影师们所在的位置。 在计算机视觉中,这是一个经典的分野。我们有非常优秀的算法来重建静态场景 (墙壁、家具) ,即所谓的运动结构恢复 (SfM) 。我们也有很棒的模型来重建人物 (姿态、体型) 。但在历史上,这两个领域就像水火不容。SfM 算法将移动的人物视为需要过滤的“噪声”,而人物重建方法通常会生成“悬浮”的化身,完全没有地面的概念或房间的比例感。 ...

2024-12 · 7 分钟 · 3247 字
[Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach 🔗](https://arxiv.org/abs/2503.08306)

探索机器人思维:端到端智能体如何学习物理与规划

引言 想象一下教机器人穿越拥挤的办公室。过去,这是一个模块化的问题: 一个软件构建地图,另一个在地图上定位机器人,第三个计算路径。如今,具身智能 (Embodied AI) 的前沿技术使用的是“端到端” (E2E) 强化学习。你给机器人输入视觉数据 (像素) ,它输出运动指令 (动作) 。这是一种“黑盒”方法,在仿真中取得了令人印象深刻的成果。 ...

2025-03 · 7 分钟 · 3372 字
[Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval 🔗](https://arxiv.org/abs/2412.11077)

先思考再搜索:单阶段反思性推理如何解决组合图像检索问题

想象一下你在网上购物。你看到一张模特穿着漂亮的碎花连衣裙的照片,但你更想要一件纯红色的。你不能直接上传这张图片,因为搜索引擎会再次给你推荐那件碎花裙。你也不能只输入“红裙子”,因为那样会丢失原图中特定的剪裁和款式信息。 ...

2024-12 · 8 分钟 · 3807 字
[Realistic Test-Time Adaptation of Vision-Language Models 🔗](https://arxiv.org/abs/2501.03729)

锚定你的模型:StatA 如何让视觉-语言适配更具现实意义

像 CLIP 这样的视觉-语言模型 (Vision-Language Models, VLMs) 已经彻底改变了计算机视觉领域。通过在预训练期间对齐图像和文本,它们使我们能够执行“零样本” (zero-shot) 分类——即仅通过将图像与文本描述进行匹配,就能识别模型在训练中从未明确见过的物体。 ...

2025-01 · 8 分钟 · 3891 字
[Real-time High-fidelity Gaussian Human Avatars with Position-based Interpolation of Spatially Distributed MLPs 🔗](https://arxiv.org/abs/2504.12909)

超越单一大脑——分布式 MLP 如何彻底变革实时人类化身

创造能够实时移动和反应的逼真数字人类,是计算机图形学领域的“圣杯”级挑战之一。无论是为了元宇宙、电子游戏还是虚拟现实远程呈现,我们都希望化身看起来真实——甚至连衬衫上的褶皱都清晰可见——并且能以高帧率渲染。 ...

2025-04 · 7 分钟 · 3196 字
[Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected Textures 🔗](https://arxiv.org/abs/2412.13183)

双重攻坚:“双重反投影纹理”如何解决实时人体渲染问题

想象一下给朋友打视频电话,但你面对的不再是手机上平面的 2D 矩形,而是一个逼真的 3D 全息图。你可以绕着他们走动,看到他们衬衫的背面,或者从任何角度观看他们跳舞。这就是远程临场 (Telepresence) 和元宇宙的“圣杯”。 ...

2024-12 · 6 分钟 · 2558 字
[ReNeg: Learning Negative Embedding with Reward Guidance 🔗](https://arxiv.org/abs/2412.19637)

告别“烂手”:ReNeg 如何自动化负向提示词以提升 AI 绘画水平

引言 如果你曾玩过像 Stable Diffusion 这样的文生图 (T2I) 模型,那你很可能熟悉“提示词工程 (prompt engineering) ”带来的挫败感。你输入了一段优美的描述,结果生成的图片里却是扭曲的面孔、多余的手指,或者阴暗的色调。为了解决这个问题,社区开发了一种变通方法: 负向提示词 (Negative Prompts) 。 ...

2024-12 · 7 分钟 · 3118 字
[ROLL: Robust Noisy Pseudo-label Learning for Multi-View Clustering with Noisy Correspondence 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Sun_ROLL_Robust_Noisy_Pseudo-label_Learning_for_Multi-View_Clustering_with_Noisy_CVPR_2025_paper.pdf)

当数据撒谎时:喧嚣世界中的鲁棒多视图聚类

当数据撒谎时: 喧嚣世界中的鲁棒多视图聚类 在机器学习研究的理想世界中,数据是干净的,标签是准确的,每一个输入都与其描述完美匹配。然而在现实世界中,数据是杂乱的。传感器会故障,标注员会犯错,数据集里充满了噪声。 ...

7 分钟 · 3324 字
[RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness 🔗](https://arxiv.org/abs/2405.17220)

AI 能自学变得诚实吗?深入解析 RLAIF-V 框架

多模态大语言模型 (MLLMs) ——即能够看懂图片并进行讨论的 AI——的兴起无疑是一场革命。像 GPT-4V 和 LLaVA 这样的模型已经展示了理解视觉世界的惊人能力。然而,它们都有一个顽固且严重的缺陷: 幻觉 (Hallucination) 。 ...

2024-05 · 7 分钟 · 3156 字
[RGBAvatar: Reduced Gaussian Blendshapes for Online Modeling of Head Avatars 🔗](https://arxiv.org/abs/2503.12886)

实时数字孪生:RGBAvatar 如何彻底改变头部化身重建

“数字孪生”的梦想——一个外观和动作都和你一模一样、逼真且可动画化的化身——长期以来一直是计算机图形学的圣杯。无论是为了元宇宙、电子游戏还是下一代远程临场技术,对高保真头部化身的需求正在激增。 ...

2025-03 · 7 分钟 · 3215 字
[Question-Aware Gaussian Experts for Audio-Visual Question Answering 🔗](https://arxiv.org/abs/2503.04459)

驾驭时间动态:QA-TIGER 如何彻底变革音视频问答

想象你正在观看一段管弦乐队的视频。一位朋友问: “哪种乐器最先开始演奏?”为了回答这个问题,你的大脑完成了一项复杂的壮举。你不仅是看几张随机的快照;你在感知时间的连续流动。你不仅仅是整体地听音频;你在分离特定的声音,并将它们与视觉动作同步。最重要的是,在处理场景之前,你就确切地知道要看什么和听什么,因为问题引导了你的注意力。 ...

2025-03 · 7 分钟 · 3357 字
[QuCOOP: A Versatile Framework for Solving Composite and Binary-Parametrised Problems on Quantum Annealers 🔗](https://arxiv.org/abs/2503.19718)

超越 QUBO:QuCOOP 如何为计算机视觉解锁量子退火

如果你一直关注量子计算的发展,你可能知道我们正处于 “NISQ” 时代 (含噪中型量子) 。虽然通用、容错的量子计算机尚在未来,但我们目前可以获得量子退火机 (比如 D-Wave 的那些) 。这些机器是专门设计的硬件,用于寻找系统的最低能量状态,这使它们成为组合优化的潜在强大工具。 ...

2025-03 · 6 分钟 · 2895 字
[Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness 🔗](https://arxiv.org/abs/2503.09487)

修复 AI 中的伪相关:深入解析 Project-Probe-Aggregate (PPA)

引言: “水鸟”问题 想象一下,你正在训练一个 AI 来对鸟类进行分类。你给它喂了数千张水鸟 (如鸭子) 和陆鸟 (如麻雀) 的图片。模型在验证集上达到了 99% 的准确率。你准备好部署了。 ...

2025-03 · 8 分钟 · 3655 字
[Prior-free 3D Object Tracking 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Song_Prior-free_3D_Object_Tracking_CVPR_2025_paper.pdf)

打破循环:BIT 如何在无模型且无训练的情况下实现 3D 物体追踪

简介 想象一下你是一个机器人。我递给你一个你从未见过的玩具——一个形状独特、手工雕刻的木制动物。我要求你在我挥动它时,在 3D 空间中追踪它的运动。 对于人类来说,这是轻而易举的。但对于计算机视觉系统来说,这是一个噩梦般的场景。 ...

7 分钟 · 3407 字