](https://deep-paper.org/en/paper/file-1984/images/cover.png)
超越决策边界:DiffCAM 如何通过特征对比开启 AI 可解释性
引言 在人工智能快速发展的格局中,深度神经网络 (DNN) 在从医疗诊断到自动驾驶等各类任务中都取得了超越人类的表现。然而,这些模型有一个众所周知的缺陷: 它们就像“黑盒”。我们输入数据,它们给出答案,但很少告诉我们为什么会得出这个结论。 ...
](https://deep-paper.org/en/paper/file-1984/images/cover.png)
引言 在人工智能快速发展的格局中,深度神经网络 (DNN) 在从医疗诊断到自动驾驶等各类任务中都取得了超越人类的表现。然而,这些模型有一个众所周知的缺陷: 它们就像“黑盒”。我们输入数据,它们给出答案,但很少告诉我们为什么会得出这个结论。 ...
](https://deep-paper.org/en/paper/2503.08257/images/cover.png)
如果你曾观察过机器人尝试抓取形状不规则的物体——比如喷雾瓶或毛绒玩具——你可能会注意到它的迟疑。这与人类不同,人类会本能地调整手型以适应物体的几何形状,而机器人往往在“灵巧抓取”方面表现挣扎。 ...
](https://deep-paper.org/en/paper/file-1982/images/cover.png)
简介 在快速发展的监控和安防领域,无人机 (UAV) 带来了一个独特的挑战。它们体积小、动作敏捷,而且往往难以被发现。红外 (热) 成像已成为检测这些目标的首选解决方案,无论光照条件如何,都能提供昼夜可见性。然而,这里面有个问题: 硬件本身往往会成为阻碍。 ...
](https://deep-paper.org/en/paper/2503.07978/images/cover.png)
引言 联邦学习 (Federated Learning, FL) 彻底改变了我们训练机器学习模型的方式。通过允许设备在本地进行训练并仅共享模型更新而非原始数据,FL 承诺在数据效用与用户隐私之间找到最佳平衡点。它目前正为医疗保健、金融以及智能手机上的预测文本输入等应用提供动力。 ...
](https://deep-paper.org/en/paper/2409.02095/images/cover.png)
想象一下试图从普通的 2D 视频中重建 3D 世界。对于人类来说,这很直观;我们明白随着汽车向前移动,它会变近,或者路过的树木与背景中的山脉是截然不同的。然而,对于计算机来说,这项任务——即单目视频深度估计——却极其困难。 ...
](https://deep-paper.org/en/paper/2503.13985/images/cover.png)
想象一下,你正在经营一条用于生产半导体芯片或精密汽车零部件的高科技生产线。你想利用 AI 自动化质量控制流程。为了训练一个能够发现缺陷 (比如镜头上的划痕或榛子上的裂纹) 的模型,你通常需要成千上万个此类缺陷的示例。 ...
](https://deep-paper.org/en/paper/file-1978/images/cover.png)
在机器学习的世界里,数据很少只来源于单一渠道。想象一下医生诊断病人的场景: 他们不仅仅看验血报告,还会结合 X 光片、MRI 扫描、病史以及基因标记。这就是多视图数据 (Multi-View Data) ——即同一底层对象的不同视角。 ...
](https://deep-paper.org/en/paper/2503.00643/images/cover.png)
森林是地球的肺。有效的林业管理不仅对木材工业至关重要,对气候稳定和生态健康也同样重要。要管理森林,你需要对其进行监测——测量生长情况、评估健康状况并识别受损情况。 ...
](https://deep-paper.org/en/paper/2503.23751/images/cover.png)
在大规模人工智能时代,模型是贪婪的学习者。它们吞噬海量数据集,从网络爬取的图像到敏感的面部数据,无所不学。但当一个模型知道得太多时会发生什么? ...
](https://deep-paper.org/en/paper/2502.20653/images/cover.png)
引言 在深度学习时代,数据就是新的石油。但管理这些石油正变成一场日益昂贵的后勤噩梦。现代神经网络需要海量数据集进行训练,导致存储成本高昂,训练时间动辄长达数周。这造成了极高的准入门槛,往往将无法访问工业级计算集群的学生和研究人员拒之门外。 ...
](https://deep-paper.org/en/paper/2503.18402/images/cover.png)
如果你一直关注 3D 场景重建领域,你可能很熟悉从神经辐射场 (NeRFs) 到 3D 高斯泼溅 (3DGS) 的快速演变。虽然 NeRFs 以其照片级真实感的视图合成震惊了世界,但它们的训练速度也是出了名的慢,通常需要数小时甚至数天。3DGS 通过使用显式的高斯基元来表示场景,彻底改变了这一点,将优化时间缩短到了数十分钟。 ...
](https://deep-paper.org/en/paper/2411.08227/images/cover.png)
想象一辆在繁忙城市街道上行驶的自动驾驶汽车。它已经接受过数千小时驾驶视频的训练——包括汽车、行人、骑自行车的人和交通信号灯。突然,一个人穿着巨大的充气恐龙服装跑过人行横道。 ...
](https://deep-paper.org/en/paper/2503.08344/images/cover.png)
如果你曾经试过把 GoPro 绑在头上进行烹饪或工作,你就知道拍出来的画面有多混乱。相机在晃动,你的双手遮挡了视线,物体在移动,环境状态也在不断变化 (洋葱变成了切碎的洋葱) 。对于计算机视觉系统来说,理解这种“自我中心” (第一视角) 的画面简直是一场噩梦。 ...
](https://deep-paper.org/en/paper/2503.09491/images/cover.png)
引言 在抗癌斗争中,纳米粒子 (Nanoparticles, NPs) 代表了一种极具未来感且充满希望的武器。这些微观载体被设计用于直接将药物输送到肿瘤部位,利用肿瘤血管的“渗漏”特性,精确地聚集在需要的地方——这种现象被称为高通透性和滞留效应 (EPR effect) 。 ...
](https://deep-paper.org/en/paper/2412.04458/images/cover.png)
超越点云: 利用 Cubify Anything 扩展室内 3D 目标检测 想象一下走进一个房间。你看到的不仅仅是“椅子”、“桌子”和“地板”。你感知到的是丰富多样的物品: 杯垫上的咖啡杯、书架上的一本特定的书、藏在柜子后面的电源板。人类以高保真度理解场景。然而,室内 3D 目标检测领域长期以来一直停留在以低分辨率看世界的阶段,主要关注大型的、界定房间的家具,而忽略了日常生活中的杂物。 ...
](https://deep-paper.org/en/paper/2502.15011/images/cover.png)
在计算机视觉飞速发展的世界里,教会机器理解 3D 空间是一项巨大的挑战。我们希望机器人能在建筑工地上导航,增强现实 (AR) 眼镜能在家具上叠加信息,数字助手能理解像“找到带岛台的厨房”这样复杂的空间查询。 ...
](https://deep-paper.org/en/paper/2503.07635/images/cover.png)
引言: AI 中的“作弊”学生问题 想象一个学生正在参加历史考试。题目问: “为什么工业革命始于英国?”学生其实不知道答案,但他注意到以往考试中有一个规律: 只要“英国”和“革命”这两个词出现,答案通常是“选项 C”。于是他选了 C,并且答对了。 ...
](https://deep-paper.org/en/paper/2412.09072/images/cover.png)
为何你的补全模型其实是对应关系专家: ZeroCo 揭秘 如果你最近一直在关注计算机视觉研究,你一定知道“掩码图像建模” (Masked Image Modeling,如 MAE) 已经彻底改变了模型学习表征的方式。其核心思想很简单: 遮蔽图像的一部分,然后要求模型填补空白。 ...
](https://deep-paper.org/en/paper/2504.20403/images/cover.png)
引言 在 AR/VR 和元宇宙飞速发展的背景下,对个性化、照片级真实的 3D 化身 (Avatar) 的需求正在激增。我们都渴望拥有一个数字孪生体,它不仅看起来像我们,还能像我们在现实世界中一样轻松更换服装。 ...
](https://deep-paper.org/en/paper/2411.15099/images/cover.png)
在计算机视觉和多模态学习快速发展的格局中,像 CLIP 和 SigLIP 这样的模型已经确立了标准。通过在海量图像-文本对数据集上进行训练,这些模型学习到了稳健的表征,在“零样本” (Zero-Shot) 任务上表现出色——即只需将图片与文本描述进行匹配,就能对从未见过的图像进行分类。 ...