Dream3DVG: 跨越文本到3D与矢量图形之间的鸿沟

在数字设计领域，矢量图形是清晰度和可扩展性的黄金标准。与基于像素的图像 (光栅图形) 在放大时会变模糊不同，矢量图形由数学路径——线条、曲线和形状——定义，无论分辨率如何都能保持清晰。它们是徽标、图标和概念艺术的基石。

然而，矢量图形传统上一直被束缚在二维平面上。如果你画了一辆汽车的矢量草图，你无法简单地旋转它来查看后保险杠；这幅画被固定在那个特定的视角上。虽然人工智能的最新进展已经实现了“文本生成3D” (Text-to-3D) ，但将这些技术应用于稀疏、抽象的矢量笔触世界却异常困难。当你试图强行使用标准的3D生成方法来创建线条画时，通常会得到一团“杂乱的线团”——线条混乱且不连贯，旋转时看起来根本不像一幅连贯的画。

这就引出了 Dream3DVG , 这是由中国科学院大学和重庆大学的研究人员提出的一种新颖框架。这篇论文提出了一种生成 3D矢量图形 (3DVG) 的方法，生成的图形不仅质量高、在任何视角下都保持一致，而且足够智能，知道哪些线条应该被其他线条遮挡。

在这篇深度文章中，我们将探索 Dream3DVG 如何赋能矢量图形步入三维世界。

核心问题: 为什么3D草图绘制如此困难？

要理解这里的创新点，我们需要先看看为什么这是一个难题。

域差异 (Domain Gap) : 大多数现代文本生成3D模型 (如 DreamFusion) 的工作原理是从2D图像生成器 (如 Stable Diffusion) 中“蒸馏”知识。这些2D模型主要是在照片上训练的。它们很难指导抽象线条画的生成，因为矢量图形是稀疏的——它们主要是空白空间，只有几条细线。
视角一致性 (View Consistency) : 一个3D物体从任何角度看都应该像是同一个物体。以前生成3D草图的尝试通常会导致“视点相关”的伪影，即随着相机的移动，线条会不合逻辑地抖动或消失。
遮挡 (“X射线”效应) : 在球体的2D图画中，你只画正面。在3D线框中，你会同时看到正面和背面。为了让3D草图看起来像真正的图画，系统需要隐藏那些本应被物体主体遮挡的线条。标准的3D渲染可以很容易地处理实体表面的遮挡，但矢量曲线在传统意义上没有“表面”——它们只是悬浮的线条。

解决方案: Dream3DVG 架构

研究人员提出了一个双分支优化框架。他们没有试图直接从文本生成矢量图形，而是使用了一个“伙伴系统”。他们优化一个密集的3D模型 (具体来说是3D高斯泼溅) ，并以此作为矢量图形的向导。

图2. 整体架构。该方法以文本提示为输入，输出渲染后的2D矢量图形 (2DVG) 。整个网络由两个分支组成: 3DGS优化分支 (上排) ，用于根据文本提示优化3DGS并采样由粗到精的引导图像；3D矢量图形 (3DVG) 优化分支 (下排) ，用于生成3DVG，并通过可见性感知渲染模块渲染具有合理遮挡关系的2DVG。

如图2所示，该架构包含两个并行过程:

辅助分支 (顶部) : 该分支根据文本提示优化 3D高斯泼溅 (3DGS) 模型。3DGS 非常擅长表现实体几何和纹理。
3DVG 分支 (底部) : 该分支优化实际的3D矢量曲线。

核心洞察在于 3DGS 分支充当了桥梁。它提供了一个稳定的、一致的3D结构，供矢量分支去模仿。

1. 3D矢量图形的表示

在优化任何东西之前，我们需要一种数学方法来描述3D空间中的草图。作者使用了 3D三次贝塞尔曲线 (3D Cubic Bézier Curves) 。

标准的2D贝塞尔曲线由平面上的控制点定义。3D贝塞尔曲线利用 \((x, y, z)\) 空间中的控制点扩展了这一概念。

方程1: 3D贝塞尔曲线参数化。

这里，\(B^{3D}(t)\) 代表曲线，\(p^i\) 是3D控制点。通过调整这些控制点的位置，AI 可以改变曲线的形状。

该系统支持两种风格:

草图 (Sketches) : 代表笔触的单条曲线。
图标 (Iconography) : 曲线闭环 (通常由4条首尾相连的曲线组成) ，可以填充颜色。

当这些3D曲线投影到2D相机视图上时，它们在数学上保留了2D贝塞尔曲线的属性，从而可以被标准的可微分矢量光栅化器渲染。

2. 由粗到精的引导策略

我们如何训练这些曲线？我们不能只是让 AI “画一只猫”。我们需要提供一个目标图像让它去匹配。

研究人员使用了一种称为 间隔分数匹配 (Interval Score Matching, ISM) 的技术来更新3DGS模型。ISM 帮助从扩散模型中提取一致的“轨迹”，减少了困扰文本生成3D的噪声。

方程2: ISM 损失函数。

但这里有一个巧妙之处: 他们不仅仅提取3DGS分支最终渲染的图像。他们利用了优化过程本身。

在生成的早期阶段，你希望模型专注于整体形状 (轮廓) 。而在后期，你希望它专注于细节 (纹理、毛皮、眼睛) 。作者通过操纵扩散模型的无分类器引导 (CFG) 比例，实施了一种 由粗到精 (Coarse-to-Fine, C2F) 的策略。

方程3: 带有计划CFG的引导采样。

通过调度 CFG 和时间步长 \(t\)，他们可以生成从平滑、概括的形状演变到详细描绘的引导图像。

图3. 3DGS优化过程中的引导样本，提示词为“Viking axe, fantasy, weapon”。我们的采样方法 (下排) 通过计划CFG可以保持语义并生成有效的平滑样本，相比之下，3DGS渲染的样本 (上排) 和固定CFG的扩散轨迹标准采样 (第二排) 效果较差。

如图3所示，“Ours”一行 (底部) 产生的引导图像开始时非常平滑和抽象 (左侧) ，然后变得清晰和详细 (右侧) 。这防止了矢量生成在早期被噪声干扰，从而确保了清晰、干净的笔触。

矢量图形的损失函数 (\(\mathcal{L}_{VG}\)) 随后尝试使用感知损失 (LPIPS) 和语义损失 (CLIP) 将矢量渲染结果与这些引导图像进行匹配。

方程4: 矢量图形损失函数。

3. 可见性感知渲染 (VAR)

这篇论文最重要的贡献可能在于它如何处理“X射线”问题。当你观察猫的3D线框图时，如果身体遮挡了后腿，你不应该看到构成后腿的曲线。但由于曲线是细线，标准深度缓冲区效果不佳。

研究人员设计了一个名为 可见性感知渲染 (Visibility-Awareness Rendering) 的两步模块。

图4. 可见性感知渲染示意图。注意，我们使用训练得到的不透明度渲染重要性，而不可见曲线则以固定的低不透明度进行渲染以便可视化。

步骤 A: 重要性过滤

首先，系统需要决定哪些曲线对当前视图实际上是重要的。他们训练了一个小型神经网络 (MLP) ，该网络以3D点和相机视图为输入，并输出一个“重要性”分数。

方程5: 重要性函数。

如果一条曲线的重要性分数太低 (意味着它位于对视觉外观贡献很小的区域，或者被严重遮挡) ，它会被提前过滤掉。

步骤 B: 对极深度可见性投票

这是几何检查。即使一条曲线是“重要的”，它仍可能位于物体后面。为了检查这一点，系统将曲线的位置与密集3DGS模型的深度图进行比较。

系统执行一种“投票”机制。它将曲线上的点投影到当前相机视图，并查看来自3DGS模型的深度 \(D\)。它还会查看“对极”视图 (即从正对面看过来的相机视图) 。

方程6: 深度比较不等式。

本质上，这个方程是在问: “这个曲线点是更接近3D物体的前表面，还是后表面？”如果曲线更接近后表面 (对极深度) ，这意味着曲线位于物体的远端，应该被隐藏 (剔除) 。

这种基于学习的重要性与基于几何的深度投票相结合，使得 Dream3DVG 能够生成干净、具有遮挡感知的渲染效果。

实验与结果

研究人员将 Dream3DVG 与几种最先进的方法进行了比较，包括 Diff3DS (一种文本生成3D草图的方法) 、3Doodle (需要多视图图像作为输入) 和 CLIPasso (应用于3D渲染图的2D矢量化方法) 。

定性比较

视觉结果凸显了双分支方法的优势。

图5. 3D草图的定性结果。“[*]”对于Diff3DS代表“minimal 2d line drawing, on a white background, black and white”。所有方法都在相同的测试相机姿态下渲染。在我们的方法中，不可见曲线以较低的不透明度渲染。

在图5中，观察“奔驰汽车 (Benz car) ”和“Saber”角色。

Diff3DS 经常产生“毛糙”或杂乱的线条，无法清晰地定义形状。
3Doodle 线条较干净，但依赖于输入图像，而 Dream3DVG 是从文本生成的。
Ours (Dream3DVG) 生成了清晰的轮廓、明确的车轮和面部特征。关键是，注意内部线条是多么干净——遮挡处理起作用了。

图1展示了生成草图和填充图标的能力。

图1. 我们的方法根据文本提示生成的多视图矢量图形示例，前两行为草图，底行为图标。我们的方法能够生成具有一致视图、良好保存的形状结构和准确遮挡关系的矢量图形。不可见曲线以较低的不透明度渲染以便可视化。草图结果右上角的小图是来自辅助3DGS [17] 分支的对应视图渲染，作为形状结构的参考。放大可查看细节。

前两行显示了草图 (时钟、手提包、鞋子) ，而底行显示了“图标”——填充的矢量形状 (龙、羊驼、飞机) 。对于矢量数据来说，不同视图之间的一致性非常显著。

定量分析

为了从数学上衡量性能，作者使用了 CLIP-Text (图像与提示词的匹配程度) 和 ALPIPS (相邻视图之间的结构一致性) 。

表1. 草图和图标 (此处标记为Icon) 的定量结果。我们将最佳结果加粗标记。

如表1所示，Dream3DVG 在草图和图标的这两项指标上均获得了最高分。较低的 ALPIPS 分数 (越低越好) 表明，与竞争对手相比，其具有卓越的3D一致性。

单视图质量

团队还将他们的方法与 DiffSketcher 和 VectorFusion 等纯2D矢量生成工具进行了比较。

图6. 草图和图标的定性结果。

尽管 Dream3DVG 是一种3D方法，但其2D投影 (图6) 在效果上足以与原生2D生成器媲美。例如，看看“黄色校车”。2D方法通常产生抽象的斑点或块状形状。Dream3DVG 因为理解巴士的底层3D几何结构，生成了结构更合理、更逼真的矢量插图。

消融实验: 我们需要所有部分吗？

作者进行了“消融实验”——移除系统的部分组件，看看它们是否必要。

图7. 通过逐渐添加组件进行的视觉消融实验。

图7直观地展示了每个组件的必要性:

(a) 仅 SDS: 使用标准的文本生成3D损失会导致混乱。
(b) 仅 3DGS: 好一点，但仍然嘈杂。
(c) + 采样: 提高了一致性。
(d) + C2F (由粗到精) : 形状变得清晰 (看那只猫) 。
(e) + 重要性: 不必要的线条变淡了。
(f) + 可见性投票: 最终结果。物体背后的线条被移除，留下干净的草图。

图15. 优化中的引导可视化。

图15进一步可视化了“引导”过程。你可以看到重要性图 (底部几行) 是如何演变的，随着训练的进行，它学会了聚焦于电话和汽车的轮廓及关键特征。

结论与启示

Dream3DVG 代表了生成式设计向前迈出的重要一步。通过成功跨越密集3D模型 (高斯泼溅) 与稀疏矢量图形之间的鸿沟，它使得创建以下资产成为可能:

可编辑: 因为它们是矢量，设计师可以轻松调整曲线。
可缩放: 它们可以在任何分辨率下渲染。
3D一致: 它们可以用于3D环境或动画中。

可见性感知渲染的引入解决了3D草图绘制中长期存在的遮挡问题，确保生成的资产看起来像专业的图画，而不是线框扫描图。

虽然该方法目前主要侧重于草图和简单的图标，但这篇论文中阐述的原则——特别是使用密集的3D代理来指导稀疏生成——可能为未来全自动、生产级的3D矢量艺术铺平道路。

对于计算机图形学的学生和研究人员来说，Dream3DVG 是一个完美的例子，展示了如何结合不同的表示形式 (3DGS 和贝塞尔曲线) 来解决单独使用其中一种时固有的弱点。

Dream3DVG: 跨越文本到3D与矢量图形之间的鸿沟#

核心问题: 为什么3D草图绘制如此困难？#

解决方案: Dream3DVG 架构#

1. 3D矢量图形的表示#

2. 由粗到精的引导策略#

3. 可见性感知渲染 (VAR)#

步骤 A: 重要性过滤#

步骤 B: 对极深度可见性投票#

实验与结果#

定性比较#

定量分析#

单视图质量#

消融实验: 我们需要所有部分吗？#

结论与启示#