3D 图形世界正在经历一场革命。几十年来,创建照片般逼真的 3D 场景一直是熟练艺术家使用复杂软件的专属领域。但现代技术,如 神经辐射场 (NeRF),以及最近的 3D 高斯溅射 (3DGS),已经深刻地改变了游戏规则。这些方法仅需少量 2D 图像,就能学习到一个场景惊人准确的 3D 表示,从而推动了从虚拟现实、数字孪生到高级视觉效果等各种应用的发展。
特别是 3DGS,因其能够在保持高保真度的同时 实时 渲染这些复杂场景而广受欢迎。
然而,随着这项技术变得越来越普及,一个关键问题浮出水面:** 它有多安全?**
如果有人可以秘密地操纵这些 3D 模型——嵌入只有从特定视点才能看到的隐藏物体或信息,会怎么样?这不仅仅是一个理论上的担忧,它代表了一个严重的安全漏洞。想象一下:
- 一辆自动驾驶汽车的感知系统被一个仅在关键十字路口才可见的幻影停车标志所欺骗。
- 在一次建筑漫游中,竞争对手的标志被巧妙地嵌入到设计中,只有从某些角度才能看到。
这正是该论文所要解决的挑战:
“StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions”
作者提出了一种新颖的数据投毒攻击,旨在欺骗 3D 高斯溅射。其目标是: 将一个令人信服的幻象物体嵌入到一个 3D 场景中,使其从一个**目标视点 **(“投毒视点”) 看完全可见,而从所有其他视点 (“无害视点”) 看则完全不可见。
图 1: 密度引导的投毒将幻象物体嵌入到仅从目标视点可见的低密度 3D 区域。
在本文中,我们将解析:
- 为什么 3DGS 天然具有抗操纵性。
- StealthAttack 中用于克服这些防御的巧妙双重策略。
- 揭示该方法效果的实验结果。
铜墙铁壁: 为什么 3D 高斯溅射难以投毒
3DGS 最大的优势之一是多视图一致性。
在其核心,3DGS 将一个场景表示为由大量微小、半透明、彩色的 3D“斑点”——高斯体组成的集合。该系统使用数十张——有时是数百张——从不同角度拍摄的场景照片进行训练。训练过程旨在寻找一种高斯体配置,能够同时从所有这些视点再现场景的外观。
这从本质上会过滤掉不一致之处。如果你尝试一种朴素的攻击——比如在一张训练图像上用 Photoshop 添加一只狗——3DGS 优化器会检测到这只狗的像素只出现在一个视图中。由于没有来自其他视点的几何支持,它会将这只狗视为噪声,并在训练过程中消除它。
这种鲁棒性使得 3DGS 非常适合进行精确重建,但同时也使其极难被投毒。为 NeRF 设计的攻击在这里会失败,因为 NeRF 的隐式表示缺乏同样强的视图一致性约束。当这些方法应用于 3DGS 时,它们产生的幻象要么几乎无法察觉,要么根本不存在。
图 2: 先前的方法无法欺骗 3DGS。StealthAttack 成功嵌入了清晰的幻象,同时保持了其他视图的质量。
因此,攻击者需要一种能够顺应 3DGS 特性而非对抗它的策略。
总体规划: StealthAttack 内部揭秘
StealthAttack 框架采用了一种双管齐下的方法:
- 找到幻象物体点在 3D 场景中的完美藏身之处。
- 削弱模型的一致性检查,使其恰好能让幻象存活下来。
作者将攻击目标表述为:
\[ \min_{\tilde{\mathcal{G}}} \|\tilde{I}_{\mathbf{ILL}} - I_{\mathbf{ILL}}\|_2^2 + \sum_{v_k \neq v_p} \|\mathcal{R}(\tilde{\mathcal{G}}, v_k) - \mathcal{R}(\mathcal{G}, v_k)\|_2^2 \]其中:
- \(\mathcal{G}\) 是场景的干净高斯云。
- \(\tilde{\mathcal{G}}\) 是被投毒的高斯云。
- 第一项确保幻象在投毒视点中正确显示。
- 第二项确保其他视图保持不变。
图 3: StealthAttack 包括 (a) 将投毒点放置在低密度区域,以及 (c) 通过自适应噪声破坏多视图一致性。
第一部分 — 密度引导的点云攻击
指导原则:** 最好的藏身之处是无人注视的地方**。
在 3D 场景中,这意味着将新的高斯点放置在真正的空白空间——即未被无害视点覆盖的区域。
两种理想的隐藏位置:
- 覆盖范围之外 — 所有无害视点都不可见的区域。
- 被遮挡的区域 — 隐藏在现有几何体后方的空间,避开无害相机的视线,但能被投毒相机看到。
图 4: 将投毒点放置在覆盖范围之外或遮挡物之后,可以使其只在投毒视点中可见。
手动寻找这些点是不可行的——因此作者将这一过程自动化:
场景分析
\[ \rho(s) = \sum_{g \in s} \alpha(g) \]
从一个训练完成的干净 3DGS 模型开始。定义一个轴对齐边界框,将空间划分为体素网格。
计算每个体素的密度:
其中 \(\alpha(g)\) 是高斯体的不透明度。连续密度估计
\[ f(x) = \frac{1}{|\mathcal{S}|} \sum_{s \in \mathcal{S}} K_h(x - c(s)) \cdot \rho(s) \]
应用核密度估计 (KDE) 来插值得到平滑密度图:
\[ K_h(x) = \frac{1}{(2\pi h^2)^{3/2}} \exp\left(-\frac{\|x\|^2}{2h^2}\right) \]
其中 \(K_h\) 是高斯核函数:最优隐藏
\[ x_{\min} = \arg\min_{x \in C + t \cdot d,\, t \in [t_{\min}, t_{\max}]} f(x) \]
从投毒相机位置 \(C\) 出发,对每个幻象像素向场景内发射射线。
沿射线 \((C + t \cdot d)\) 寻找密度最低的点:
在 \(x_{\min}\) 放置与像素颜色匹配的高斯体。
这种方法将幻象点置于低密度的“虚空”中,从投毒视点看真实自然,但在其他视点中不可见。
第二部分 — 视图一致性破坏攻击
密度引导的点位选取方法虽巧妙,但并不总是足够。在视点之间重叠度高的场景中,3DGS 的多视图一致性仍会剔除不一致的幻象点。
解决方案: 在训练过程中,仅向无害视图加入轻微的高斯噪声,从而削弱一致性检查。
\[ I'_k = \mathbf{1}_{v_k = v_p} \cdot I_k + \mathbf{1}_{v_k \neq v_p} \cdot \text{CLIP}(I_k + \eta) \]其中:
- \( \eta \sim \mathcal{N}(0, \sigma_t^2) \) 为高斯噪声。
- 噪声强度 \(\sigma_t\) 在总训练轮次 \(T\) 内按衰减策略递减。
衰减策略:
\[ \sigma_{\text{linear}}(t) = \sigma_0\left(1 - \frac{t}{T}\right) \]\[ \sigma_{\text{cosine}}(t) = \sigma_0\cos\left(\frac{\pi t}{2T}\right) \]\[ \sigma_{\text{sqrt}}(t) = \sigma_0\sqrt{1 - \frac{t}{T}} \]初期用高强度噪声打破一致性,后期降低噪声以保持无害视图质量。这种“掩护”使幻象点得以在训练中存活直至收敛。
结论: 测试 StealthAttack
作者在多个数据集上,包括 Mip-NeRF 360、Tanks & Temples 和 Free,将其方法与当前最先进的基线攻击进行对比验证。
单视图攻击
在仅对一个目标视图插入幻象的实验中,StealthAttack 在以下指标上均优于基线方法:
- V-ILLUSORY — 幻象质量 (数值越高越好) ,
- V-TEST — 无害视图质量 (数值越高表示附带损害越小) 。
表 1: StealthAttack 在幻象清晰度上得分最高,并保持非目标视图接近原始的质量。
定性结果:
图 6: StealthAttack 产生的幻象清晰、逼真,与基线方法的模糊或失败结果形成鲜明对比。
图 7: StealthAttack 保持无害视图的原始品质。
难度评估协议
另一项重要贡献: 基于以下因素量化攻击难度:
- 每个相机视场覆盖的场景密度;
- 按视点排名: 简单 (EASY) (低密度) 、中等 (MEDIAN)、困难 (HARD) (高密度) 。
图 5: 相机布局影响投毒难度。密集重叠导致目标更难攻击。
研究发现:
- 简单场景 (EASY) 的成功率最高;
- 在困难场景 (HARD) 中,StealthAttack 仍优于基线方法。
表 2: 随场景密度增加攻击效果下降,但仍明显优于基线方法。
多视图攻击
同时对多个目标视图进行投毒,对一致性提出更大挑战。
StealthAttack 在 2、3 和 4 个投毒视图的情况下均保持优异表现。
表 3: 在多视图攻击中保持一致成功率。
图 8: 在多视图投毒实验中,幻象一致保持清晰。
消融研究
两个核心组件——密度引导的点位放置与视图一致性破坏——均不可或缺。
表 6: 完整的 StealthAttack 组合优于任何部分策略。
图 9: 只有完整流程可在不损害无害视图的前提下生成令人信服的幻象。
结论与启示
StealthAttack 是理解 3D 场景投毒的新里程碑。通过利用 3DGS 的显式表示,它可以在不影响其他视点的情况下嵌入高度可见的视图特定幻象。
它的密度引导点位放置方法能精准找到空白空间隐藏幻象,而自适应噪声调节则巧妙削弱模型针对这种不一致性的防御。
这项工作既是:
- 一种强大新型攻击的概念验证;
- 又是针对在安全关键应用场景 (如自动驾驶、国防或建筑可视化) 部署 3DGS 的安全警示。
通过揭示这一漏洞并提出标准化的难度评估协议,作者为设计鲁棒的防御措施铺平了道路,以保障未来 3D 视觉系统的安全。