Dream3DVG: 跨越文本到3D与矢量图形之间的鸿沟
在数字设计领域,矢量图形是清晰度和可扩展性的黄金标准。与基于像素的图像 (光栅图形) 在放大时会变模糊不同,矢量图形由数学路径——线条、曲线和形状——定义,无论分辨率如何都能保持清晰。它们是徽标、图标和概念艺术的基石。
然而,矢量图形传统上一直被束缚在二维平面上。如果你画了一辆汽车的矢量草图,你无法简单地旋转它来查看后保险杠;这幅画被固定在那个特定的视角上。虽然人工智能的最新进展已经实现了“文本生成3D” (Text-to-3D) ,但将这些技术应用于稀疏、抽象的矢量笔触世界却异常困难。当你试图强行使用标准的3D生成方法来创建线条画时,通常会得到一团“杂乱的线团”——线条混乱且不连贯,旋转时看起来根本不像一幅连贯的画。
这就引出了 Dream3DVG , 这是由中国科学院大学和重庆大学的研究人员提出的一种新颖框架。这篇论文提出了一种生成 3D矢量图形 (3DVG) 的方法,生成的图形不仅质量高、在任何视角下都保持一致,而且足够智能,知道哪些线条应该被其他线条遮挡。
在这篇深度文章中,我们将探索 Dream3DVG 如何赋能矢量图形步入三维世界。
核心问题: 为什么3D草图绘制如此困难?
要理解这里的创新点,我们需要先看看为什么这是一个难题。
- 域差异 (Domain Gap) : 大多数现代文本生成3D模型 (如 DreamFusion) 的工作原理是从2D图像生成器 (如 Stable Diffusion) 中“蒸馏”知识。这些2D模型主要是在照片上训练的。它们很难指导抽象线条画的生成,因为矢量图形是稀疏的——它们主要是空白空间,只有几条细线。
- 视角一致性 (View Consistency) : 一个3D物体从任何角度看都应该像是同一个物体。以前生成3D草图的尝试通常会导致“视点相关”的伪影,即随着相机的移动,线条会不合逻辑地抖动或消失。
- 遮挡 (“X射线”效应) : 在球体的2D图画中,你只画正面。在3D线框中,你会同时看到正面和背面。为了让3D草图看起来像真正的图画,系统需要隐藏那些本应被物体主体遮挡的线条。标准的3D渲染可以很容易地处理实体表面的遮挡,但矢量曲线在传统意义上没有“表面”——它们只是悬浮的线条。
解决方案: Dream3DVG 架构
研究人员提出了一个双分支优化框架。他们没有试图直接从文本生成矢量图形,而是使用了一个“伙伴系统”。他们优化一个密集的3D模型 (具体来说是3D高斯泼溅) ,并以此作为矢量图形的向导。

如图2所示,该架构包含两个并行过程:
- 辅助分支 (顶部) : 该分支根据文本提示优化 3D高斯泼溅 (3DGS) 模型。3DGS 非常擅长表现实体几何和纹理。
- 3DVG 分支 (底部) : 该分支优化实际的3D矢量曲线。
核心洞察在于 3DGS 分支充当了桥梁 。 它提供了一个稳定的、一致的3D结构,供矢量分支去模仿。
1. 3D矢量图形的表示
在优化任何东西之前,我们需要一种数学方法来描述3D空间中的草图。作者使用了 3D三次贝塞尔曲线 (3D Cubic Bézier Curves) 。
标准的2D贝塞尔曲线由平面上的控制点定义。3D贝塞尔曲线利用 \((x, y, z)\) 空间中的控制点扩展了这一概念。

这里,\(B^{3D}(t)\) 代表曲线,\(p^i\) 是3D控制点。通过调整这些控制点的位置,AI 可以改变曲线的形状。
该系统支持两种风格:
- 草图 (Sketches) : 代表笔触的单条曲线。
- 图标 (Iconography) : 曲线闭环 (通常由4条首尾相连的曲线组成) ,可以填充颜色。
当这些3D曲线投影到2D相机视图上时,它们在数学上保留了2D贝塞尔曲线的属性,从而可以被标准的可微分矢量光栅化器渲染。
2. 由粗到精的引导策略
我们如何训练这些曲线?我们不能只是让 AI “画一只猫”。我们需要提供一个目标图像让它去匹配。
研究人员使用了一种称为 间隔分数匹配 (Interval Score Matching, ISM) 的技术来更新3DGS模型。ISM 帮助从扩散模型中提取一致的“轨迹”,减少了困扰文本生成3D的噪声。

但这里有一个巧妙之处: 他们不仅仅提取3DGS分支最终渲染的图像。他们利用了优化过程本身。
在生成的早期阶段,你希望模型专注于整体形状 (轮廓) 。而在后期,你希望它专注于细节 (纹理、毛皮、眼睛) 。作者通过操纵扩散模型的无分类器引导 (CFG) 比例,实施了一种 由粗到精 (Coarse-to-Fine, C2F) 的策略。

通过调度 CFG 和时间步长 \(t\),他们可以生成从平滑、概括的形状演变到详细描绘的引导图像。

如图3所示,“Ours”一行 (底部) 产生的引导图像开始时非常平滑和抽象 (左侧) ,然后变得清晰和详细 (右侧) 。这防止了矢量生成在早期被噪声干扰,从而确保了清晰、干净的笔触。
矢量图形的损失函数 (\(\mathcal{L}_{VG}\)) 随后尝试使用感知损失 (LPIPS) 和语义损失 (CLIP) 将矢量渲染结果与这些引导图像进行匹配。

3. 可见性感知渲染 (VAR)
这篇论文最重要的贡献可能在于它如何处理“X射线”问题。当你观察猫的3D线框图时,如果身体遮挡了后腿,你不应该看到构成后腿的曲线。但由于曲线是细线,标准深度缓冲区效果不佳。
研究人员设计了一个名为 可见性感知渲染 (Visibility-Awareness Rendering) 的两步模块。

步骤 A: 重要性过滤
首先,系统需要决定哪些曲线对当前视图实际上是重要的。他们训练了一个小型神经网络 (MLP) ,该网络以3D点和相机视图为输入,并输出一个“重要性”分数。

如果一条曲线的重要性分数太低 (意味着它位于对视觉外观贡献很小的区域,或者被严重遮挡) ,它会被提前过滤掉。
步骤 B: 对极深度可见性投票
这是几何检查。即使一条曲线是“重要的”,它仍可能位于物体后面。为了检查这一点,系统将曲线的位置与密集3DGS模型的深度图进行比较。
系统执行一种“投票”机制。它将曲线上的点投影到当前相机视图,并查看来自3DGS模型的深度 \(D\)。它还会查看“对极”视图 (即从正对面看过来的相机视图) 。

本质上,这个方程是在问: “这个曲线点是更接近3D物体的前表面,还是后表面?”如果曲线更接近后表面 (对极深度) ,这意味着曲线位于物体的远端,应该被隐藏 (剔除) 。
这种基于学习的重要性与基于几何的深度投票相结合,使得 Dream3DVG 能够生成干净、具有遮挡感知的渲染效果。
实验与结果
研究人员将 Dream3DVG 与几种最先进的方法进行了比较,包括 Diff3DS (一种文本生成3D草图的方法) 、3Doodle (需要多视图图像作为输入) 和 CLIPasso (应用于3D渲染图的2D矢量化方法) 。
定性比较
视觉结果凸显了双分支方法的优势。
![图5. 3D草图的定性结果。“[*]”对于Diff3DS代表“minimal 2d line drawing, on a white background, black and white”。所有方法都在相同的测试相机姿态下渲染。在我们的方法中,不可见曲线以较低的不透明度渲染。](/en/paper/2505.21377/images/011.jpg#center)
在图5中,观察“奔驰汽车 (Benz car) ”和“Saber”角色。
- Diff3DS 经常产生“毛糙”或杂乱的线条,无法清晰地定义形状。
- 3Doodle 线条较干净,但依赖于输入图像,而 Dream3DVG 是从文本生成的。
- Ours (Dream3DVG) 生成了清晰的轮廓、明确的车轮和面部特征。关键是,注意内部线条是多么干净——遮挡处理起作用了。
图1展示了生成草图和填充图标的能力。
![图1. 我们的方法根据文本提示生成的多视图矢量图形示例,前两行为草图,底行为图标。我们的方法能够生成具有一致视图、良好保存的形状结构和准确遮挡关系的矢量图形。不可见曲线以较低的不透明度渲染以便可视化。草图结果右上角的小图是来自辅助3DGS [17] 分支的对应视图渲染,作为形状结构的参考。放大可查看细节。](/en/paper/2505.21377/images/001.jpg#center)
前两行显示了草图 (时钟、手提包、鞋子) ,而底行显示了“图标”——填充的矢量形状 (龙、羊驼、飞机) 。对于矢量数据来说,不同视图之间的一致性非常显著。
定量分析
为了从数学上衡量性能,作者使用了 CLIP-Text (图像与提示词的匹配程度) 和 ALPIPS (相邻视图之间的结构一致性) 。

如表1所示,Dream3DVG 在草图和图标的这两项指标上均获得了最高分。较低的 ALPIPS 分数 (越低越好) 表明,与竞争对手相比,其具有卓越的3D一致性。
单视图质量
团队还将他们的方法与 DiffSketcher 和 VectorFusion 等纯2D矢量生成工具进行了比较。

尽管 Dream3DVG 是一种3D方法,但其2D投影 (图6) 在效果上足以与原生2D生成器媲美。例如,看看“黄色校车”。2D方法通常产生抽象的斑点或块状形状。Dream3DVG 因为理解巴士的底层3D几何结构,生成了结构更合理、更逼真的矢量插图。
消融实验: 我们需要所有部分吗?
作者进行了“消融实验”——移除系统的部分组件,看看它们是否必要。

图7直观地展示了每个组件的必要性:
- (a) 仅 SDS: 使用标准的文本生成3D损失会导致混乱。
- (b) 仅 3DGS: 好一点,但仍然嘈杂。
- (c) + 采样: 提高了一致性。
- (d) + C2F (由粗到精) : 形状变得清晰 (看那只猫) 。
- (e) + 重要性: 不必要的线条变淡了。
- (f) + 可见性投票: 最终结果。物体背后的线条被移除,留下干净的草图。

图15进一步可视化了“引导”过程。你可以看到重要性图 (底部几行) 是如何演变的,随着训练的进行,它学会了聚焦于电话和汽车的轮廓及关键特征。
结论与启示
Dream3DVG 代表了生成式设计向前迈出的重要一步。通过成功跨越密集3D模型 (高斯泼溅) 与稀疏矢量图形之间的鸿沟,它使得创建以下资产成为可能:
- 可编辑: 因为它们是矢量,设计师可以轻松调整曲线。
- 可缩放: 它们可以在任何分辨率下渲染。
- 3D一致: 它们可以用于3D环境或动画中。
可见性感知渲染的引入解决了3D草图绘制中长期存在的遮挡问题,确保生成的资产看起来像专业的图画,而不是线框扫描图。
虽然该方法目前主要侧重于草图和简单的图标,但这篇论文中阐述的原则——特别是使用密集的3D代理来指导稀疏生成——可能为未来全自动、生产级的3D矢量艺术铺平道路。
对于计算机图形学的学生和研究人员来说,Dream3DVG 是一个完美的例子,展示了如何结合不同的表示形式 (3DGS 和贝塞尔曲线) 来解决单独使用其中一种时固有的弱点。
](https://deep-paper.org/en/paper/2505.21377/images/cover.png)