CVPR 2025

[CADDreamer: CAD Object Generation from Single-view Images 🔗](https://arxiv.org/abs/2502.20732)

从像素到零件：CADDreamer 如何通过单张图像生成可编辑的 CAD 模型

引言: AI 艺术与工程之间的鸿沟在过去几年里，生成式 AI 彻底改变了我们将创意可视化的方式。像 Midjourney 或 Stable Diffusion 这样的工具可以根据文本提示变出照片般逼真的场景，而近期在 3D 生成领域的突破——如 DreamFusion 或 Wonder3D——更是能将单张 2D 图像转化为可旋转的 3D 资产。 ...

[Breaking the Memory Barrier of Contrastive Loss via Tile-Based Strategy 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Cheng_Breaking_the_Memory_Barrier_of_Contrastive_Loss_via_Tile-Based_Strategy_CVPR_2025_paper.pdf)

如何以无限 Batch Size 训练 CLIP：突破显存瓶颈

如何以无限 Batch Size 训练 CLIP: 突破显存瓶颈在现代 AI 领域，特别是表征学习 (Representation Learning) 中，有一个反复出现的主题: 越大通常越好。对于像 CLIP (对比语言-图像预训练) 这样的对比学习模型来说尤其如此。这些模型背后的秘诀不仅仅是架构，更是数据，最重要的是模型一次能看到多少数据。 ...

[Boost Your Human Image Generation Model via Direct Preference Optimization 🔗](https://arxiv.org/abs/2405.20216)

跨越恐怖谷：HG-DPO 如何利用真实图像训练更好的扩散模型

引言我们都见过这种情况: AI 生成的人像看起来几乎是对的，但总有些地方不对劲。也许是皮肤质感太像塑料，眼睛缺乏神采，或者是骨骼结构以人类不该有的方式扭曲。尽管像 Stable Diffusion 这样的扩散模型已经取得了巨大的飞跃，但生成真正照片级逼真的人类仍然是计算机视觉中最困难的挑战之一。 ...

[Blurred LiDAR for Sharper 3D: Robust Handheld 3D Scanning with Diffuse LiDAR and RGB 🔗](https://arxiv.org/abs/2411.19474)

为何模糊 LiDAR 与 RGB 才是手持 3D 扫描的未来

在计算机视觉和机器人领域，3D 重建被视为圣杯。无论是机器人在仓库中导航，VR 头显绘制你的客厅地图，还是火星探测车扫描沙丘，将现实世界转化为数字 3D 模型的能力都至关重要。 ...

[BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing 🔗](https://arxiv.org/abs/2504.01786)

AI 能精通 Blender 吗？深入了解 BlenderGym 与自动 3D 编辑的探索

3D 图形世界——现代视频游戏、大片电影和建筑可视化的支柱——以其复杂性而闻名。创造逼真的场景不仅仅是艺术构想，还需要精通 Blender、Maya 或虚幻引擎等复杂软件的技术。艺术家不仅仅是“画”一把 3D 椅子；他们需要操作几何节点、调整材质着色器、微调光照坐标，并处理物理模拟。 ...

[Balanced Rate-Distortion Optimization in Learned Image Compression 🔗](https://arxiv.org/abs/2502.20161)

平衡的艺术：多目标优化如何提升学习型图像压缩性能

平衡的艺术: 多目标优化如何提升学习型图像压缩性能在数字媒体的世界里，我们总是面临着一场拉锯战。一方面，我们想要清晰逼真的高质量图像 (低失真) 。另一方面，我们希望文件足够小，能够即时流式传输、存储和分享 (低码率) 。这种权衡是图像压缩的核心。 ...

[BWFormer: Building Wireframe Reconstruction from Airborne LiDAR Point Cloud with Transformer 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Liu_BWFormer_Building_Wireframe_Reconstruction_from_Airborne_LiDAR_Point_Cloud_with_CVPR_2025_paper.pdf)

从稀疏点云到锐利边缘：利用 BWFormer 重建 3D 建筑

简介想象一下，试图绘制一张房子的精确蓝图，但你手头只有一张从头顶飞过的飞机拍摄的、类似卫星图的颗粒状扫描图。屋顶的某些部分缺失了，树木遮挡了墙壁，数据只是一堆散落的点。这就是从机载 LiDAR (光探测和测距) 点云重建 3D 建筑模型的现实情况。 ...

[BEVDiffuser: Plug-and-Play Diffusion Model for BEV Denoising with Ground-Truth Guidance 🔗](https://arxiv.org/abs/2502.19694)

清理街道：BEVDiffuser 如何在不降低速度的情况下增强自动驾驶感知

引言想象一下，在一个暴雨如注的夜晚，你正驾驶在高速公路上。你的眼睛极力想要分辨路肩上停着的是一辆车还是仅仅是一个阴影，或者远处的灯光是路灯还是迎面驶来的车辆。现在，想象你是一套试图做同样事情的计算机算法。 ...

[BADGR: Bundle Adjustment Diffusion Conditioned by GRadients for Wide-Baseline Floor Plan Reconstruction 🔗](https://arxiv.org/abs/2503.19340)

当几何学遇上生成式 AI：深入解析 BADGR

引言想象一下，你站在房间中央，手持相机，拍了一张 \(360^{\circ}\) 的全景照片。然后，走进隔壁房间再拍一张。你能仅凭这两张照片，就重建出整栋房子的平面图——而且精确到厘米级吗？ ...

[Assessing and Learning Alignment of Unimodal Vision and Language Models 🔗](https://arxiv.org/abs/2412.04616)

与 CLIP 分手 —— 如何用少 94% 的数据构建更好的视觉-语言模型

过去几年里，构建视觉-语言模型 (VLM) 的配方一直相对固定。如果你想要一个理解图像和文本之间关系的模型——比如 OpenAI 的 CLIP——你需要收集包含数亿对图像-文本对的海量数据集，并从头开始训练两个神经网络 (一个用于视觉，一个用于文本) 。 ...

[ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points 🔗](https://arxiv.org/abs/2503.02745)

从混沌到代码：利用 ArcPro 将稀疏点云转化为结构化 3D 建筑

从混沌到代码: 利用 ArcPro 将稀疏点云转化为结构化 3D 建筑想象一下，你正操控无人机飞越一座城市进行测绘。无人机拍摄了数千张图像，通过摄影测量技术，你生成了场景的 3D 表示。然而，你得到的通常不是一个原始、完美的、CAD 就绪的模型。相反，你得到的是一个“点云”——由数百万个悬浮点组成的混乱集合。 ...

[AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities 🔗](https://arxiv.org/abs/2412.14123)

AnySat：卫星图像的通用翻译机

简介在计算机视觉的世界里，一切都出奇地井然有序。无论你是在 ImageNet 上训练模型，还是处理你自己收集的度假照片，数据通常看起来都差不多: 标准的 RGB 图像，由标准的相机拍摄，通常被调整到标准的分辨率 (比如 \(224 \times 224\)) 。这种一致性使得像 ResNet 和 Vision Transformers (ViTs) 这样的模型能够成为强大的通用引擎。 ...

[Annotation Ambiguity Aware Semi-Supervised Medical Image Segmentation 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Kumari_Annotation_Ambiguity_Aware_Semi-Supervised_Medical_Image_Segmentation_CVPR_2025_paper.pdf)

拥抱不确定性 —— AmbiSSL 如何彻底改变医学图像分割

引言在医学诊断的世界里，很少有单一的、无可争议的真理。当三位不同的放射科医生观察同一个肺结节的 CT 扫描或肿瘤的 MRI 时，他们很可能会画出三个略有不同的病变边界。这并不是错误；这是医学成像固有的模糊性，由边缘模糊、对比度低和解剖结构复杂所致。 ...

[All-directional Disparity Estimation for Real-world QPD Images 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Yu_All-directional_Disparity_Estimation_for_Real-world_QPD_Images_CVPR_2025_paper.pdf)

解锁智能手机相机的深度感知：面向四光电二极管传感器的深度学习

如果你在过去几年购买过高端智能手机，那么你很可能已经受益于图像传感器的快速演进。为了追求瞬时自动对焦，硬件工程师已经从标准传感器转向全像素双核 (Dual-Pixel, DP) 传感器，而最近更是转向了四光电二极管 (Quad Photodiode, QPD) 传感器。 ...

[All-Optical Nonlinear Diffractive Deep Network for Ultrafast Image Denoising 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Zhou_All-Optical_Nonlinear_Diffractive_Deep_Network_for_Ultrafast_Image_Denoising_CVPR_2025_paper.pdf)

光速去噪——N3DNet 如何彻底改变光学计算

引言在计算机视觉和信号处理领域，噪声是大敌。无论是充满颗粒感的低光照片、医疗成像中的伪影，还是光纤电缆中的信号衰减，“去噪”都是使数据变得可用的基本步骤。 ...

[All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages 🔗](https://arxiv.org/abs/2411.16508)

超越英语：为何 AI 需要理解全球 100 种语言 (ALM-bench)

简介想象一下，向 AI 展示一张热闹的街头节日照片。如果这个节日是新奥尔良的狂欢节 (Mardi Gras) ，大多数顶尖的 AI 模型都能立刻识别出珠子、花车和背景。但如果这张照片描绘的是巴基斯坦的 Mela Chiraghan 灯节，或者是斯里兰卡的传统 Angampora 武术表演呢？ ...

[Advancing Multiple Instance Learning with Continual Learning for Whole Slide Imaging 🔗](https://arxiv.org/abs/2505.10649)

AI 为何遗忘：解决医学影像中的灾难性遗忘问题

AI 为何遗忘: 解决医学影像中的灾难性遗忘问题人工智能在医学诊断领域取得了巨大进步，特别是在病理切片的分析方面。然而，在这些系统的部署过程中存在一个隐性问题: 它们是静态的。在快速发展的医学领域，新疾病不断被发现，新的亚型被分类，扫描设备也在不断升级。 ...

[AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction 🔗](https://arxiv.org/abs/2411.12593)

打破记忆墙：AdaCM² 如何让 AI 观看并理解完整电影

想象一下，让 AI 观看一部两小时的电影，然后问它: “最后背景里那个男人球衣上的号码是多少？”或者“从第一幕到最后一幕，主角和她姐姐的关系是如何演变的？” ...

[Active Hyperspectral Imaging Using an Event Camera 🔗](https://openaccess.thecvf.com/content/CVPR2025/papers/Yu_Active_Hyperspectral_Imaging_Using_an_Event_Camera_CVPR_2025_paper.pdf)

打破色彩的速度限制——事件相机如何彻底改变高光谱成像

引言: 隐形世界与铁三角人类的视觉是三色视觉；我们通过混合红、绿、蓝来感知世界。然而，物理世界要丰富得多。每种材料都会在连续的波长光谱上与光发生相互作用，产生一种肉眼看不见的独特“指纹”。高光谱成像 (Hyperspectral Imaging, HSI) 正是让我们能够看到这些指纹的技术。通过捕获数百个光谱波段而不仅仅是三个，HSI 可以实时区分真假植物、检测组织病变或对矿物进行分类。 ...

[ARM: Appearance Reconstruction Model for Relightable 3D Generation 🔗](https://arxiv.org/abs/2411.10825)

超越烘焙光照：ARM 如何解耦形状与材质以实现可重照亮的 3D 生成

引言在生成式 AI 飞速发展的今天，从单张 2D 图像创建 3D 对象被视为某种“圣杯”。我们已经见证了巨大的进步，现在的模型可以在几秒钟内将一张猫的照片变成 3D 网格。然而，如果你仔细观察大多数最先进模型的结果，你会发现一个缺陷: 它们从原始相机角度看起来很棒，但在对光照的反应上往往不够真实。 ...