驯服幻觉：利用 DocCGen 掌握特定领域的代码生成

引言

如果你使用过像 GitHub Copilot 或 Amazon CodeWhisperer 这样的工具，你一定见识过这种魔力: 看着大型语言模型 (LLM) 将简单的注释转化为可运行的 Python 函数或复杂的 Java 类。这些在海量通用代码库上训练出来的模型，已经彻底改变了软件开发。

然而，当你从 Python 或 C++ 等主流语言转向领域特定语言 (DSL) 的世界时，这种魔力往往会消失。

想象一下，一位企业 DevOps 工程师正在编写用于服务器自动化的 Ansible YAML 配置或复杂的 Bash 脚本。这些语言受制于严格且特定的模式 (Schema)，且不同模块之间的模式各不相同。当 LLM 试图生成此类代码时，它经常会“产生幻觉”——编造不存在的标志 (flag)、臆造参数，或无法遵守 YAML 严格的缩进规则。

为什么会发生这种情况？因为通用的 LLM 在预训练期间根本没见过足够多这类专门的企业级库。虽然标准的微调或上下文学习 (向模型展示示例) 能有所帮助，但在数据稀缺的情况下——这对于自定义企业 DSL 来说几乎是常态——它们往往会失效。

在这篇文章中，我们将深入探讨 DocCGen (基于文档的受控代码生成) 。这个由印度理工学院孟买分校 (IIT Bombay) 和 IBM 研究院的研究人员提出的框架，为“DSL 鸿沟”引入了一个强有力的解决方案。通过将代码生成视为一个涉及检索和受控解码的两步过程，DocCGen 强制 LLM 严格遵守它们甚至从未见过的库的文档。

图 1: 微调和 DocPrompting 方法的缺陷与 DocCGen 的对比示意图。

如图 1 所示，标准方法 (如 DocPrompting 或简单的微调) 经常生成带有无效参数的命令。相比之下，DocCGen 通过严格遵循文档，成功识别出了正确的参数 (如 chcon --role) 。

DSL 与 LLM 的难题

要理解为什么 DocCGen 是必要的，我们首先需要了解领域特定语言的独特挑战。

像 Python 这样的语言是“资源丰富”的。公开可用的 Python 代码有数十亿行可供模型学习。相比之下，像 Ansible YAML、JSON、HCL (HashiCorp Configuration Language) 或特定的 Bash 工具属于“结构化”语言。它们用于配置系统、管理基础设施和自动化工作流。

这些语言给标准 LLM 带来了两个主要障碍:

严格的模式 (Schema): 一个 Python 函数即使写法略有不同可能也能工作。但在特定 Ansible 模块的 YAML 配置中，如果模式期望的是 username 而你提供了 user_name，程序就会崩溃。
未见过的库: 企业经常创建自定义的内部库。LLM 无法记住其训练数据中不存在的库的语法。

试图使用检索增强生成 (RAG)——即在提示词中向模型提供相关文档——来解决这个问题虽然有帮助，但还不够。即使文档就在眼前，LLM 仍然是概率性地生成 Token。如果某个错误的关键字在其训练分布中统计概率较高，模型仍可能“猜”错，从而忽略提示词中提供的文档。

DocCGen 框架

研究人员提出了一种神经符号 (neuro-symbolic) 方法，它不仅要求模型遵循文档，而且强制它遵循。

DocCGen 在两个不同的阶段运行:

信息检索 (IR): 检测正确的库并检索其文档。
受控生成: 使用从文档中提取的语法和模式规则来约束模型的输出 logits。

让我们分解一下这个架构。

图 2: DocCGen 概览。流程从用户查询开始，到检索、模板创建，最后是受控生成。

第一阶段: 信息检索

一切始于用户的自然语言 (NL) 查询，例如“log in to your lastpass account” (登录你的 lastpass 账户) 。

第一个挑战是识别需要哪个工具或库。系统会在库文档池中进行搜索。作者尝试了两种类型的检索系统:

稀疏检索 (BM25): 这种传统方法匹配查询和文档之间的关键字。
稠密检索 (ColBERTv2): 这使用深度学习来理解查询的语义含义。

如下表所示，稠密检索 (特别是微调后的 ColBERTv2) 在识别正确库 (Hits@1) 方面显著优于稀疏检索，这是至关重要的第一步。如果你检索到了错误的手册，必然会生成错误的代码。

表 4: 稀疏检索和稠密检索在自然语言到代码任务中的性能对比。

一旦检索到相关文档 (例如 lpass 的手册) ，系统就会提取该库的语法和模式。

第二阶段: 受控解码

这是 DocCGen 的核心创新之处。该框架不是让 LLM 自由生成下一个 Token，而是根据检索到的模式限制模型的选择。

这是通过一个叫做模板 (Templates) 的概念实现的。模板编码了代码片段的结构。它由两部分组成:

静态部分: 必须存在的代码 (例如命令名称 git mv) 。
变量部分: 模型需要生成的动态元素 (例如像 --force 这样的标志或像 filename 这样的参数) 。

受控解码是如何工作的

当 LLM 生成代码时，它会为其词汇表中的每个可能的单词生成一个概率分布 (logits)。通常，我们会选择概率最高的单词。

在受控解码中，系统会查看当前模板和库模式。它识别出一组有效的下一个 Token。然后，它将所有无效 Token 的概率设置为负无穷大 (\(-\infty\))。这确保了模型在物理上无法生成语法错误或幻觉产生的标志。

该过程涉及多个协同工作的算法:

1. 字符串选择算法 该算法强制模型从预定义集合中准确生成一个字符串。例如，如果特定的 Ansible 模块仅允许键 src、dest 和 mode，字符串选择算法会将模型的词汇表限制为仅能组成这些特定单词的 Token。

2. 库选择 当过程开始时，系统已经检索到了 \(k\) 个潜在的库 (例如 lpass、last、gopass) 。模型首先被强制选择这些库模板中的一个。一旦选定，模型就被锁定在该库的特定语法中。

3. 动态模板演化与触发信号 DocCGen 最令人印象深刻的部分是它处理复杂嵌套结构的能力。代码并不总是线性的；在命令早期做出的决定可能会改变后续内容的有效性。

作者引入了触发信号 (Trigger Signals) 。这些规则检测特定的 Token 并即时更改引导模板。

Bash 示例: 在命令 git commit -m "message" 中，标志 -m 期望一个字符串参数。但是，如果用户输入了管道符号 |，这充当了一个触发信号。它告诉系统，“我们正在启动一个新进程”，系统随即重置，允许为管道的下一部分选择一个新的工具。
YAML 示例: 在 Ansible 中，缩进很重要。如果模型生成了一个换行符和一个缩进，严格的规则就会生效。如果缩进表明是一个嵌套对象, 触发信号会将活动模式切换到嵌套对象的规则。如果缩进无效，系统会回溯并强制进行正确的缩进。

实验设置

为了验证这一框架，作者在两种复杂的结构化语言上进行了广泛的实验: Bash 命令和 Ansible YAML 。

数据集

Bash: 他们使用了 TLDR 数据集，其中包含数千个 Bash 对。他们通过抓取 Linux 手册页 (man-pages) 来增强此数据，以获取每个工具的严格模式和描述。
Ansible YAML: 作者创建了一个全新的基准数据集。他们抓取了 Google BigQuery 和 Ansible Galaxy，整理了超过 18,000 个自然语言到 YAML 的配对，涵盖了超过 2,500 个模块。这是第一个公开可用的此类规模的自然语言到结构化代码生成基准。

表 5: 自然语言到 Ansible-YAML 数据集的统计数据。

评估设置

实验分为两个严格的设置:

域内 (ID): 测试集包含训练集中出现过的库，但示例非常少 (模拟低资源环境) 。
域外 (OOD): 测试集包含完全未见过的库。这是 DSL 生成的“圣杯”——模型能否仅通过阅读文档就为它从未受过训练的工具生成代码？

结果与分析

结果表明，DocCGen 始终优于最先进的基准模型，包括微调模型和像 DocPrompting 这样的标准 RAG 方法。

1. 语法和语义正确性

使用的主要指标是 Token F1 (与真实值的重叠度) 、Schema Correct (代码是否有效？) 和 Ansible Aware (是否捕获了正确的键/值？) 。

在域内 (ID) 设置中，即模型以前见过这些库，DocCGen (下表中表示为 “base + IR + CD”) 显示出了巨大的改进。

表 2: 各微调语言模型在域内 (ID) 设置下的结果。

看看 StarCoder2 3B 模型的 Schema Correct (模式正确性) 分数。

基础微调仅达到 4.65% 的正确率。
添加检索 (IR) 后提升至 6.11% 。
添加受控解码 (DocCGen) 后分数飙升至 51.08% 。

这证明仅检索文档是不够的；必须约束生成过程以确保模型遵守检索到的模式。

2. 域外 (OOD) 性能

OOD 结果可能是最重要的。在这里，模型正在为它们在训练期间从未见过的库生成代码。

标准微调在这里灾难性地失败了，因为模型试图根据它知道的相似词汇来臆造命令。然而，DocCGen 检索新库的手册并强制执行其模板。这使得模型能够为全新的工具生成语法正确的代码。

3. 低资源场景下的性能

DocCGen 的主要动机之一是 DSL 通常只有很少的训练样本。研究人员分析了随着每个模块训练样本数量增加 (从 4 到 7) ，性能如何变化。

图 3: StarCoder 1B 在不同训练样本数量下处理自然语言到 Ansible-YAML 任务的性能表现。

在图 3 中，绿线 (DocCGen) 始终高于蓝线 (微调 + 检索) 和橙线 (纯微调) 。即使样本很少，受控解码也能确保高性能的基线，因为“语法”源自文档，而不是仅从稀缺的示例中学习。

这一趋势在不同规模的模型中都成立，从 GPT Neo 1.3B 到 StarCoder2 7B。

图 4: 各种模型在不同配置下的性能表现。

如图 4 所示，绿线 (DocCGen) 与其他线条之间的差距非常明显。橙线 (纯微调) 在“模式正确性”等指标上通常徘徊在零附近，这强调了如果没有约束，LLM 很难仅从少量示例中记住复杂的模式。

结论

“DocCGen” 论文强调了当前生成式 AI 的一个关键局限性: 虽然 LLM 具有创造性，但它们天生不善于遵守严格的规则。对于通用散文或 Python 来说，这种创造性是一个特性。对于通过 Ansible 配置防火墙或通过 Bash 执行文件操作来说，这是一个缺陷 (Bug)。

DocCGen 有效地弥合了这一鸿沟。通过将问题分解为库检索和受控解码 , 该框架确保:

模型知道要使用什么工具 (通过检索) 。
模型知道如何严格地使用它 (通过模板和模式约束) 。

给学生的关键要点

仅靠检索是不够的: 提供上下文 (RAG) 有所帮助，但模型仍可能忽略它。受控解码对于严格遵守规则是必要的。
神经符号方法很强大: 结合神经网络 (LLM) 的“模糊”推理和符号 AI (模板/语法) 的“严格”逻辑，可以兼得两者的优势。
文档即数据: 对于企业而言，维护内部 DSL 的高质量文档与维护代码数据集一样有价值。

DocCGen 描绘了这样一个未来: AI 助手不只是“猜测”如何使用你的内部工具——它们会阅读手册，并逐字逐句地遵循它。

引言#

DSL 与 LLM 的难题#

DocCGen 框架#

第一阶段: 信息检索#

第二阶段: 受控解码#

受控解码是如何工作的#

实验设置#

数据集#

评估设置#

结果与分析#

1. 语法和语义正确性#

2. 域外 (OOD) 性能#

3. 低资源场景下的性能#

结论#

给学生的关键要点#

引言