AIpparel：首个用于数字时尚设计的基础模型

时尚是人类文化内在的一部分，它既是抵御自然元素的盾牌，也是自我表达的画布。然而，时尚产业的后端——特别是缝纫版型 (sewing patterns) 的制作——仍然是一个主要依赖人工和技术的瓶颈。虽然生成式 AI 已经彻底改变了 2D 图像创作 (比如 Midjourney 或 DALL-E) ，但生成可制造的 (manufacturable) 服装完全是另一回事。

缝纫版型不仅仅是一张连衣裙的照片；它是一组复杂的 2D 裁片 (panels) ，这些裁片之间存在精确的几何关系，必须缝合在一起才能形成 3D 形状。迄今为止，面向时尚领域的 AI 模型一直是“单模态”的，这意味着它们或许能将 3D 扫描转换为版型，或者将文本转换为版型，但它们缺乏同时理解图像、文本和几何形状的灵活性。

AIpparel 应运而生，这是斯坦福大学和苏黎世联邦理工学院的一项新研究成果。AIpparel 代表了一个巨大的飞跃: 它是一个多模态基础模型 , 能够使用文本、图像或两者结合来生成和编辑缝纫版型。

AIpparel 概览。该图展示了模型接收多模态输入 (例如“一件及膝连体裤”的文本描述或“不对称袖子”的编辑指令) 并生成高质量、可仿真的缝纫版型的能力。

在这篇文章中，我们将剖析研究人员是如何构建 AIpparel 的，他们为了教 AI 如何“缝纫”而创造的新颖“语言”，以及那些超越现有最先进方法的令人印象深刻的结果。

挑战: 为什么 AI 难以处理缝纫版型

要理解这篇论文的重要性，我们首先需要了解数据。一个缝纫版型由平面的 2D 形状 (裁片) 和关于如何将边缘缝合在一起的说明组成。设计这些需要在大脑中建立 2D 几何形状和 3D 悬垂物理效果之间的映射。

以前自动化这一过程的尝试通常采用单模态方法:

图像转服装 (Image-to-Garment) : 试图从照片中推测版型。
文本转服装 (Text-to-Garment) : 根据描述生成版型。

这些方法通常难以应对现实世界服装的复杂性。此外，训练一个“智能”模型需要海量数据。虽然互联网上充满了图像，但并没有大规模的公共多模态缝纫版型存储库 (例如，配有照片和文本描述以及编辑指令的版型) 。

研究人员面临两大主要障碍:

数据稀缺: 不存在大规模的多模态缝纫数据集。
表示方法: 如何将复杂的几何缝纫版型输入到专为处理文本设计的对于大型语言模型 (LLM) 中？

基础: GCD-MM 数据集

在构建模型之前，研究人员必须先构建数据。他们扩展了一个名为 GarmentCodeData (GCD) 的现有数据集，创建了 GCD-MM (GarmentCodeData-Multimodal) 。

这是目前可用的最大的多模态缝纫版型数据集，包含超过 120,000 件独特的服装。至关重要的是，研究人员不仅仅是收集版型；他们还对其进行了广泛的标注。

数据集对比。该表将 GCD-MM 与以前的数据集进行了比较。请注意，GCD-MM 是唯一一个同时提供文本、图像和编辑指令标注的数据集，且规模达到 12 万个样本。

如上表所示，以前的数据集要么缺乏文本描述，要么缺乏编辑指令。GCD-MM 数据集包括:

文本描述: 使用基于规则的系统生成详细说明，并由 GPT-4o 进行优化以确保准确性 (避免标准图像描述中常见的幻觉) 。
图像: 穿着状态下服装的渲染视图。
编辑指令: 代表“修改前”和“修改后”状态的版型对 (例如，一件连衣裙在添加兜帽前后的样子) ，以及该编辑操作的文本指令。

这种丰富的数据环境使得模型能够学习视觉外观、文本描述和底层几何结构之间的关系。

方法: 教 LLM “讲”缝纫语言

AIpparel 的核心创新在于它如何重新定位一个大型多模态模型 (LMM) 来理解和生成缝纫版型。研究人员选择了 LLaVA 1.5-7B 作为基础模型。LLaVA 已经能够理解图像和文本，但它天生不具备矢量图形或缝纫版型的知识。

为了解决这个问题，作者开发了一种新颖的Token化方案 (Tokenization Scheme) 。

1. 将版型视为语言

LLM 的工作原理是预测序列中的下一个“token” (单词或子词) 。研究人员将缝纫版型转换为一系列 token，使其表现得像绘图命令脚本。

他们引入了特殊的 token 来结构化数据:

<SoG> / <EoG>: 服装开始/结束 (Start/End of Garment) 。
<SoP> / <EoP>: 裁片开始/结束 (Start/End of Panel) 。
曲线类型: <L> (直线) 、<Q> (二次贝塞尔曲线) 、<B> (三次贝塞尔曲线) 、<A> (圆弧) 。
缝合标签: 像 <t1>、<t2> 这样的 token，用于指示哪些边缘缝合在一起。

一个裁片被表示为这些 token 的序列。例如，一个简单的裁片可能看起来像这样的代码序列:

Token 序列方程。这显示了一个裁片如何表示为 token 序列: 裁片开始、裁片名称、旋转，随后是直线和缝合标签等边缘命令。

整个服装 token 化的数学公式表示为:

Token 化方程。完整的服装是一个序列，以 SoG 开始，随后是一系列裁片编码，并以 EoG 结束。

2. 混合架构: 离散 Token 与连续数值

标准的 LLM 很难处理精确的数字 (连续参数) 。如果你让 LLM 预测像 14.523 这样的顶点坐标，它通常将其视为文本，这会导致精度误差。在缝纫中，一毫米的差异都可能破坏合身度。

为了解决这个问题，AIpparel 使用了一种结合分类 (Classification) 和回归 (Regression) 的混合方法。

架构图。模型接收文本和图像输入 (左) 。这些输入通过 AIpparel 模型 (中) 。输出是一系列 token。至关重要的是，特定的 token 会触发“回归头” (右上) ，预测精确的数值数据，如顶点位置和 3D 变换。

如上方的架构图所示:

Transformer 预测离散的 token (例如，“画一条线”、“开始一个袖子”) 。
回归头 (Regression Heads) (连接在 Transformer 上的小型神经网络) 利用这些 token 的隐藏状态来预测连续参数 (例如，线段端点的确切 X,Y 坐标，或裁片的 3D 旋转) 。

这意味着模型在说“在这里画一条线” (离散) 的同时，也在说“这是确切的坐标” (连续) 。

3. 训练目标

该模型使用复合损失函数进行训练。它同时尝试最小化预测正确 token 的误差 (交叉熵损失) 和几何坐标的误差 (L2 损失) 。

损失函数方程。总损失 (L) 是用于 token 预测的交叉熵损失与用于边缘坐标和裁片旋转的 L2 欧几里得距离损失之和。

这种训练策略确保生成的版型不仅在语法上正确 (有效的文件) ，而且在几何上精确 (有效的衣服) 。

实验与结果

研究人员在多个任务中评估了 AIpparel，并将其与最先进的基准模型进行了比较，如 SewFormer (专用于图像) 和 DressCode (专用于文本) 。

任务 1: 图像转服装预测

在这个任务中，模型接收一张服装图像，必须生成相应的缝纫版型。

图像转服装定性结果。左图 (GCD-MM) : AIpparel 成功重建了 SewFormer 失败的复杂版型。右图 (SewFactory) : AIpparel 正确识别了服装类型 (如裤子 vs 裙子) ，而基准模型却很难做到。

图 3 中的定性结果令人震惊。注意 SewFormer 基准上的“Draping Failed” (悬垂失败) 注释。这表明基准模型生成了脱节或无效的裁片，甚至无法进行仿真。相反，AIpparel 生成了可直接仿真的版型，与视觉输入紧密匹配，处理了腰带和袖口等细节。

任务 2: 多模态生成

AIpparel 的独特优势之一是其处理多模态提示的能力——例如，同时给模型一个文本描述和一张参考图像。

多模态结果。在“Text + Image”一栏中，AIpparel 生成了一件既尊重图像 (轮廓) 又结合文本描述细节的连衣裙，而基准模型无法连贯地整合这些信息。

在上面的比较中，基准模型 (即通过 GPT-4 或 DALL-E 适配器增强的单模态模型) 很难融合相互冲突或互补的信息。而在多模态数据上进行原生训练的 AIpparel，生成了一件既尊重图像视觉结构，又包含文本中要求的具体设计细节的服装。

定量数据也支持这一视觉证据:

多模态定量表。与增强版的 SewFormer 和 DressCode 相比，AIpparel 实现了显著更高的准确率和更低的裁片 L2 误差。

任务 3: 语言指令编辑

对设计师来说，最有用的应用也许是编辑。用户可以输入现有的缝纫版型和文本指令，如“把裙子加长”或“加个兜帽”。

编辑结果。上排: “加入兜帽”。下排: 裙子加长。AIpparel 修改了所需的特定几何形状，而没有破坏服装其余部分的结构。

如图 5 所示，AIpparel 成功地将兜帽整合到背心版型中 (上排) 并拉长了裙子 (下排) 。基准模型通常会产生幻觉，生成全新的服装，而不是修改现有的服装，因为它们缺乏对版型结构“语法”的深刻理解。

消融实验: 为什么新的 Tokenizer 很重要

作者还测试了他们的新 Token 化方案 (使用回归头处理数字) 是否真的比标准的将数字离散化为文本 token 的方法 (DressCode 使用的方法) 更好。

消融定性。DressCode 的 Tokenizer (第二列) 产生了锯齿状、不切实际的形状。AIpparel 的 Tokenizer (第三列) 产生了干净的几何线条，与文本输入“喇叭形下摆”一致。

差异是显而易见的。纯离散的 Tokenizer (DressCode) 在处理平滑曲线和精确对称性方面很吃力，导致伪影。AIpparel 的混合方法保持了矢量图形的几何完整性。

结论

AIpparel 建立了生成式时尚的新基准。通过将缝纫版型视为一种语言，并在大规模标注数据集上训练大型多模态模型，研究人员创建了一个系统，能够根据模糊的描述、图像或特定的编辑命令设计出可制造的服装。

主要收获:

多模态是关键: 结合文本、图像和几何数据，比单模态方法能带来更优越的理解能力。
混合 Token 化: 对于涉及精确尺寸的工程任务 (如缝纫或 CAD) ，标准的 LLM Token 化是不够的。使用回归头来处理连续参数是一项强大的技术。
数据驱动设计: GCD-MM 数据集的创建本身就是一项贡献，为该领域的未来研究提供了可能。

虽然仍存在局限性——例如处理像口袋这样的非流形几何形状还很困难——但 AIpparel 为未来铺平了道路，在那时，设计一件定制的、合身的服装就像输入提示词或上传草图一样简单。这架起了网络“数字知识”与服装制造“物理现实”之间的桥梁。

挑战: 为什么 AI 难以处理缝纫版型#

基础: GCD-MM 数据集#

方法: 教 LLM “讲”缝纫语言#

1. 将版型视为语言#

2. 混合架构: 离散 Token 与连续数值#

3. 训练目标#

实验与结果#

任务 1: 图像转服装预测#

任务 2: 多模态生成#

任务 3: 语言指令编辑#

消融实验: 为什么新的 Tokenizer 很重要#

结论#