引言

像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 的兴起彻底改变了我们与技术交互的方式。从编写代码到总结法律文件,这些模型似乎无所不能。然而,对于处理高度敏感信息的行业——如医疗保健和金融——使用这些强大的工具面临着巨大的困境。

医院希望利用病历记录训练模型来辅助医生,银行希望分析交易历史来检测欺诈。但这些数据是严格保密的。你不能简单地将患者历史记录上传到公共 API,否则会违反隐私法律 (如 HIPAA 或 GDPR) 并面临数据泄露的风险。

这就造成了实用性 (让模型变聪明) 与隐私 (保证数据安全) 之间的根本性矛盾。

目前,从业者通常只能在两条有缺陷的路径中二选一:

  1. 基于 API 的方法: 使用强大的外部 API (如 OpenAI) 生成合成训练数据。虽然这能产生高质量的文本,但需要将隐私数据发送到第三方服务器,从而产生隐私风险。
  2. 本地模型方法: 使用较小的本地模型在内部处理所有事务。虽然这确保了隐私,但这些较小的模型往往缺乏生成高质量数据的智能,导致性能不佳。

图 1: 当前合成数据方法的困境。基于 API 的方法涉及更多隐私风险,而基于本地模型的方法因合成数据质量较低而面临性能下降。

如上图所示,我们要么被迫冒险泄露数据隐私 (窃听/数据滥用) ,要么被迫接受一个“愚笨”的模型 (性能下降) 。

在这篇文章中,我们将深入探讨一种名为 KnowledgeSG (基于知识的合成数据生成) 的新框架。这一方法由浙江大学和上海交通大学的研究人员提出,它提供了一个巧妙的第三种选择: 一种客户端-服务器架构,允许本地模型从强大的服务器端“专业”模型中学习,而无需暴露原始隐私数据。

背景: 隐私与实用性的差距

在了解解决方案之前,我们需要明白为什么这个问题如此难以解决。

记忆化 (Memorization) 的风险

LLM 本质上是巨大的模式匹配机器。如果你用包含“张三的诊断是 2 型糖尿病”这样的句子训练 LLM,模型可能会记住这一事实。之后,如果用户提示模型“张三的诊断是什么?”,模型可能会复述出这一隐私信息。这就是所谓的记忆化

为了对抗这种情况,研究人员通常使用差分隐私 (Differential Privacy, DP) 。 简单来说,DP 会在训练过程中加入数学“噪声”。它确保模型学习一般的模式 (例如,“症状 X 和 Y 通常意味着诊断 Z”) ,而不会学习任何个人的具体细节。

“幼儿园学生 vs 博士生”的问题

为什么不直接在本地训练一个小的、保护隐私的模型呢?问题在于能力。特定领域的数据 (如病历) 非常复杂。

图 5: 我们发现的模型理解能力与数据复杂性之间差距的示意图。我们通过类比描述了一个学生被要求根据给定示例创建新问题的情况。

如上面的类比所示,要求一个通用的本地小模型生成合成医疗数据,就像要求一个幼儿园学生写微积分试卷一样。他们可能会模仿格式,但内容将是一派胡言。一个“博士生” (一个大型的专业模型) 可以轻松做到这一点,但这种模型通常运行在云服务器上,我们不能用隐私数据去访问它。

核心方法: KnowledgeSG

研究人员提出了 KnowledgeSG 框架来弥补这一差距。它从联邦学习中汲取灵感——即把模型移动到数据所在的地方,而不是把数据移动到模型所在的地方。

目标是生成一个高质量的合成数据集 , 该数据集能捕捉到隐私数据中的有用模式,但不包含任何敏感信息 (个人身份信息,PII) 。然后,这个合成数据可以安全地用于训练强大的模型。

系统架构

该过程分为两个不同的环境: 客户端 (隐私数据所在的地方) 和服务器 (强大的“专业”模型所在的地方) 。

图 2: KnowledgeSG 系统架构概览。\\(\\mathbb { W } _ { L o c }\\): 本地基座模型;\\(\\mathbb { W } _ { D P }\\): 经过 DP 微调的 \\(\\mathbb { W } _ { L o c }\\);\\(\\mathbb { W } _ { T a r g e t }\\): 最终目标模型;\\(\\mathbb { W } _ { P r o }\\): 专业模型。从左到右,\\(\\mathbb { W } _ { L o c }\\) 在客户端从隐私数据中学习知识,并在服务器端从 \\(\\mathbb { W } _ { P r o }\\) 获取知识蒸馏。

让我们一步步分解上图所示的工作流程。

第一步: 客户端学习 (DP 微调)

在客户端 (安全环境) ,我们从一个本地基座模型 (\(\mathbb{W}_{Loc}\)) 开始,例如 Llama-2-7B。我们在隐私数据 (\(\mathbb{D}_{Pri}\)) 上对该模型进行微调。

关键在于,这种微调使用了差分隐私 (DP-SGD) 。 这意味着模型学习了隐私数据的“形态”和主题 (例如,医患对话的结构) ,但在数学上被阻止了记忆具体姓名或敏感细节。

第二步: 高效传输 (LoRA)

微调整个 LLM 非常繁重,而且通过互联网发送巨大的模型也很慢。为了解决这个问题,研究人员使用了 LoRA (低秩自适应) 。 LoRA 冻结主模型,只训练一个微小的“适配器 (adapter) ”层。

表 1: Llama2-7B 在使用与不使用 LoRA rank 16 时的参数数量和模型大小。

如表 1 所示,差异是惊人的。客户端不需要发送 26 GB 的模型,只需发送 33 MB 的适配器。这使得通信非常快速且高效。

第三步: 服务器端生成与过滤

一旦服务器收到受隐私保护的适配器,它将其与自己的基座模型副本结合。现在,服务器拥有了一个“知道”隐私数据长什么样,但没有记忆其秘密的模型。

  1. 生成: 服务器提示该模型生成“原始合成指令”。这些是类似于用户在隐私数据集中可能提出的问题或提示。
  2. 过滤: 服务器生成许多指令并进行过滤。它可以使用简单的指标 (如 BLEU 分数) 来确保新指令与现有指令不太相似,或者要求专业模型 (\(\mathbb{W}_{Pro}\)) 判断指令是否与特定领域相关 (例如,“这是一个有效的医学问题吗?”) 。

第四步: 知识蒸馏 (“老师”介入)

这是 KnowledgeSG 最关键的创新。

本地模型擅长生成问题 (指令) ,因为它见过隐私数据的结构。然而,它可能不擅长生成正确的答案 (回复) ,因为它是一个较小的模型,而且 DP 噪声降低了它的准确性。

为了解决这个问题,该框架利用了驻留在服务器上的专业模型 (\(\mathbb{W}_{Pro}\)) 。这是一个大型专家模型 (如医学领域的 AlpaCare 或金融领域的 FinGPT) 。服务器将合成指令输入专业模型,以生成高质量、准确的回复

现在我们拥有了一对完美的组合:

  • 指令: 源自隐私数据分布 (通过本地模型) 。
  • 回复: 源自专家知识 (通过专业模型) 。

第五步: 最终优化与返回

最后,服务器使用这个新的、高质量的合成数据集对本地模型进行最后一次微调 (不使用 DP,因为合成数据已经是安全的) 。这个“目标模型” (\(\mathbb{W}_{Target}\)) 随后被发送回客户端。

现在,客户端拥有了一个表现得像专家并理解其特定领域的模型,而隐私数据从未离开过大楼,服务器也从未见过它。

实验与结果

研究人员在两个高度敏感的领域测试了 KnowledgeSG: 医学金融 。 他们将该方法与几个基线进行了比较,包括:

  • 非隐私 (Non-Private) : 直接在隐私数据上训练 (性能的“非法”上限) 。
  • ICL / Self-Instruct: 合成数据生成的标准方法。
  • DP-Gene / DP-Instruct: 以前最先进的隐私保护方法。

隐私评估: 重构攻击

最重要的指标是隐私。攻击者能从模型中重构出真实的患者姓名吗?

为了测试这一点,研究人员进行了“重构攻击”。他们掩盖了训练数据中的姓名,并试图强迫模型猜测缺失的姓名。

表 2: 不同基线在医学和金融领域的重构率比较。Inc 表示特定基线与随机猜测之间重构率的增加。较高的重构率表明对隐私数据的记忆更多。两个领域的结果都表明,包括 KnowledgeSG 在内的合成数据方法实现了比非隐私方法明显更好的隐私保护。

表 2 显示了结果。

  • 非隐私训练具有巨大的重构率 (~97%) ,这意味着它几乎记住了每个人的名字。
  • KnowledgeSG 在医学领域将其降至 0.87%——基本等同于随机猜测。它提供了顶级的隐私保护,甚至优于其他一些合成数据方法。

性能评估: 模型真的有用吗?

如果模型变得愚笨,隐私也就毫无意义。研究人员评估了模型回答问题和遵循指令的能力。

金融领域

在金融领域,他们测试了模型在情感分析任务 (判断财经新闻是正面还是负面) 上的表现。

表 3: 在金融基准测试中与基线的比较,使用了来自 FinGPT (Yang et al., 2023) 的情感分析数据集。考虑了四个评估数据集,包括 FPB、FIQA-SA、TFNS 和 NWGI。我们还展示了 GPT-3.5/4、Llama2-7B 和 FinGPT v3.3 的结果作为参考。我们利用 Llama2-7B 作为基座模型,FinGPT v3.3 作为专业模型。结果表明,KnowledgeSG 优于所有其他基线,并且与 GPT-3.5/4 的性能相当。

如表 3 所示, KnowledgeSG (最后一行) 在其他隐私基线中占据主导地位。值得注意的是,尽管它是一个受隐私限制训练的小得多的模型,但在几个基准测试中,它甚至达到了与 GPT-3.5 和 GPT-4 相当的性能。

医学领域

在医学领域,准确性关乎生死。研究人员使用了“自由形式评估”,即向模型提出医学问题,并让 GPT-4 判断哪个答案更好 (胜率) 。

表 4: 医学领域自由形式指令评估的性能结果和比较分析。KnowledgeSG 优于所有其他基线,比非隐私方法相对提高了 120.39%。带下划线的数字表示性能超过了专业模型 AlpaCare (Zhang et al., 2023)。

表 4 的结果令人震惊。 KnowledgeSG 取得了 0.562 的胜率,明显高于非隐私方法 (0.255) 。这意味着由服务器端专业模型生成的合成数据实际上比原始、嘈杂的隐私数据更适合用于训练。事实上,在某些指标上,学生 (KnowledgeSG) 甚至超过了老师 (AlpaCare) !

为什么 KnowledgeSG 更好?

研究人员使用称为 IFD (指令遵循难度) 的指标分析了合成数据的质量。分数越低意味着数据越干净,模型越容易学习。

图 3: 不同基线使用 Llama2-7B 作为基座模型的指令遵循难度。较低的 IFD 分数表明合成数据质量更好。我们对第 4.4 节实验期间生成的合成数据集进行评估。

图 3 证实 KnowledgeSG 生成的数据 (标记为“Ours”) 具有最低的 IFD 分数。通过过滤不良指令并使用专业模型编写答案,该框架创建了一个“黄金数据集”,其质量优于本地模型自行生成的数据。

讨论与启示

你可能会想: “为什么不直接用程序查找并删除姓名 (数据清洗/擦除) 呢?”

虽然存在用于擦除个人身份信息 (PII) 的工具,但它们并不完美。

图 4: ICliniq 数据集中包含的个人姓名示例 (Li et al., 2023c)。个人姓名作为 PII 的一种形式,可用于识别相应的个人。为了匿名化,我们如附录 B.2 所述用合成名称替换原始名称。

图 4 显示了 PII 可能有多么隐蔽。它不仅仅是“我的名字是 X”。它可能是“亲爱的 Eluned 医生”,或者是医生回复“你好 Elaine”。自动擦除工具经常遗漏这些细微差别 (召回率约为 80-97%) ,留下了危险的漏洞。KnowledgeSG 通过从不对最终模型使用原始文本进行训练,完全避免了这个问题——它只使用从数学权重生成的合成文本进行训练。

结论

KnowledgeSG 代表了隐私保护 AI 的重要一步。它成功解决了必须在隐私和性能之间做出选择的困境。

通过拆分工作负载——让客户端通过受隐私保护的权重提供“本地上下文”,让服务器通过专业模型提供“智能”——我们获得了两全其美的效果。

主要收获:

  1. 隐私优先: 差分隐私和合成数据生成有效地防止了模型记忆敏感用户数据。
  2. 服务器端蒸馏: 小型本地模型是不够的。利用服务器上的大型“专业”模型来优化合成数据,可以大幅提升质量。
  3. 低带宽: 使用 LoRA 适配器允许客户端上传他们的“知识”,而无需上传大量文件或原始数据。

对于进入可信 AI 领域的学生和研究人员来说,KnowledgeSG 突显了一个关键趋势: 未来的方向不仅仅是构建更大的模型,而是构建更智能的架构,使我们能够在现实世界中安全地使用这些模型。