想象一下,你有一位跟了你十年的私人助理。当你让他们“给老板写封邮件”时,不需要扔给他们一本十页的风格指南,也不需要一堆你以前的邮件作为参考。他们就是知道你的语气。他们知道你喜欢用“Best regards”而不是“Sincerely”,也知道你在周一往往言简意赅。

现在,将其与 GPT-4 或 Llama-2 等大语言模型 (LLM) 进行比较。这些模型能力超群,但它们是“一刀切”的。为了让它们听起来像你,你通常需要在提示词 (Prompt) 中塞满你的写作示例或详细说明。这就是 AI 个性化的现状: 主要通过提示工程 (Prompt Engineering) 和上下文检索来实现。

但是,如果你能真正“拥有”模型的一部分呢?如果是神经网络大脑中的一小块切片完全致力于你的特定行为模式呢?

在这篇文章中,我们将深入探讨一篇题为 “Democratizing Large Language Models via Personalized Parameter-Efficient Fine-tuning” (通过个性化参数高效微调实现大语言模型民主化) 的论文。研究人员提出了一个名为 OPPU (One PEFT Per User,每位用户一个 PEFT) 的新颖框架。这是一种将个性化从上下文窗口转移到模型参数本身的方法,从而提供更好的性能、隐私和所有权。

问题所在: 为什么仅靠提示是不够的

在理解解决方案之前,我们必须先了解当前方法的不足之处。目前,如果我们想要个性化一个 LLM,通常依赖于 非参数化知识 (Non-Parametric Knowledge) 。 这实际上意味着我们并没有改变模型的“大脑” (它的参数) ;我们只是在推理的那一刻给它提供信息 (上下文) 。

常见的方法有三种:

  1. 原生个性化 (Vanilla Personalization) : 将你的历史记录直接粘贴到提示词中。
  2. 检索增强生成 (RAG) : 在你的历史记录数据库中搜索相关片段,并将其添加到提示词中。
  3. 画像增强 (PAG) : 使用 AI 将你的偏好总结为“画像”文本,并附在每个查询中。

虽然这些方法在一定程度上有效,但它们面临两个巨大的障碍: 所有权 (Ownership)行为转变 (Behavior Shift)

图 1 展示了 LLM 所有权和行为转变的概念。左侧,不同的用户将历史记录输入个性化的机器人化身中。右侧展示了用户行为历史如何发生转变,要求模型适应明显的新行为。

挑战 1: 所有权与隐私

如上图 1 左侧面板所示,真正的定制意味着所有权。在标准的 RAG 或 PAG 设置中,你的数据 (历史和画像) 通常被发送到中心化的模型 API。你并不“拥有”这个模型;你只是在租用一个巨大的、通用大脑的时间。这引发了重大的隐私担忧。如果模型是中心化的,你的数据是如何存储的?谁能看到它?

挑战 2: 行为转变与干扰

第二个挑战更微妙但同样令人沮丧。人类是动态的。你的行为会发生转变。有时你写正式报告;有时你发随意的笑话推文。

当使用 检索 (RAG) 时,系统会寻找与你当前查询相似的历史记录。但是,如果你正在做一些新的事情呢?如果你正在写一个以前从未讨论过的话题,检索器可能会抓取不相关的旧历史。研究表明,LLM 很容易被不相关的上下文“分散注意力”。如果检索到的历史记录与当前任务不匹配,模型就会感到困惑,表现往往比标准的、非个性化的模型更差

解决方案: One PEFT Per User (OPPU)

为了解决这些问题,研究人员推出了 OPPU 。 其核心理念简单而强大: 与其仅仅依赖外部上下文 (提示) ,不如利用 参数高效微调 (PEFT) 将用户的个性“烘焙”进模型的权重中。

什么是 PEFT?

每一位用户微调一个巨大的 70 亿或 700 亿参数的模型,成本高得离谱。这需要为每个人存储一份完整模型的副本。

PEFT 技术,如 LoRA (低秩自适应) , 解决了这个问题。它们冻结巨大的基座模型,只训练极少量的适配器层 (通常不到总参数的 1%) 。这些微小的层是轻量级且可移植的。

OPPU 如何工作

OPPU 建议每位用户都拥有自己专属的 PEFT 模块。

图 2 提供了 OPPU 架构的概览。它展示了非参数化知识 (检索和画像) 和参数化知识 (个人 PEFT 参数) 输入到个人 LLM 中以生成输出。

如图 2 所示,该架构结合了两个世界:

  1. 参数化知识 (橙色框) : 这是用户“拥有”的大脑切片。这是一个专门在该用户历史上训练的 LoRA 模块。它捕捉深层的行为模式——比如你如何写作,而不仅仅是你写了什么
  2. 非参数化知识 (蓝色框) : OPPU 不会丢弃 RAG 或画像。它将它们视为补充。你仍然可以检索相关的历史记录,但它会流经一个已经根据你的风格进行过微调的模型。

这种混合方法允许用户将其个人参数“插入”到基座 LLM 中。服务提供商托管庞大的基座模型,而用户拥有轻量级的 PEFT 文件。

个性化的数学原理

让我们分解一下它是如何实际训练的。研究人员提出了一个多阶段的训练过程。

阶段 1: 基座模型适配

首先,基座 LLM (例如 Llama-2) 需要在一个任务 (如总结新闻或标记电影) 上表现良好,无论针对哪个特定用户。研究人员使用 LoRA 在通用数据集上微调基座模型。

他们定义了三种类型的基座模型:

  • 基础版 (B): 标准的任务微调。
  • 检索增强版 (R): 训练时预期提示词中包含检索到的文档。
  • 画像增强版 (P): 训练时预期提示词中包含用户画像摘要。

这些基座模型的损失函数如下所示:

方程块显示了基座、检索增强和画像增强 LLM 训练的交叉熵损失函数。

不要被符号吓倒。\(\mathcal{L}\) 只是我们要最小化的损失 (误差) 。\(\Theta\) 代表模型参数。这些方程本质上是在说: “训练模型在给定输入查询 (\(q_u\)) 以及可选的检索文档 (\(\mathcal{D}_u\)) 或画像 (\(s_u\)) 的情况下,预测正确的答案 (\(r_u\))。”

阶段 2: 个性化参数

一旦基座模型准备好并冻结,我们就创建用户特定的模块。对于用户 \(u\),我们创建一个特定的参数更新,表示为 \(\Delta\Theta_u\)。

方程块显示了如何通过将用户特定的增量参数添加到冻结的基座模型参数来形成个性化参数。

这里,\(\oplus\) 代表参数的合并。用户得到的模型是 冻结的基座模型 (\(\Theta\)) + 他们的个人模块 (\(\Delta\Theta_u\)) 的总和。

这个个人模块的训练目标是最小化用户特定历史记录 (\(x_u\) 和 \(y_u\)) 上的误差:

方程块显示了用于在用户历史记录上训练个人 PEFT 模块的用户特定损失函数。

这一步确保了 PEFT 模块捕捉到用户的独特风格。因为这个模块很小,它可以被快速训练并廉价存储。

实验结果: 它有效吗?

研究人员在 LaMP 基准测试 上测试了 OPPU,这是一个包含大量个性化任务的集合,范围从电影标签分类、新闻分类到推文改写。

结果是决定性的。

表 1 显示了 LaMP 基准测试的主要实验结果。OPPU 方法 (右栏) 在所有指标上均优于非个性化、仅 RAG 和仅 PAG 的基准。

如表 1 所示, OPPU (Our) 全面超越了基准线。

  • 对比非个性化: 巨大的提升 (例如,在引文识别中,准确率从 0.659 跃升至 0.772) 。
  • 对比 RAG (检索) : OPPU 始终更优。即使 RAG 检索了 4 个项目 (\(k=4\)),在其之上添加 OPPU 仍能进一步提升性能。
  • 赢家: 最好的结果通常来自 PAG + OPPURAG + OPPU 。 这证实了参数化个性化 (PEFT) 和非参数化上下文 (检索/画像) 结合时效果最佳。

一个具体的案例研究

数字很好,但让我们看一个真实的例子来明白为什么这很重要。在“个性化电影标签分类”任务中,模型必须根据用户过去标记电影的方式,为电影描述应用一个标签。

图 5: 个性化电影标签分类的案例研究。非个性化模型猜测“twist ending” (结局反转) 并失败了。个性化 OPPU 模型通过分析历史模式,正确识别了用户对“based on a book” (根据书本改编) 这一标签的偏好。

在图 5 中,我们看到一位用户经常使用“based on a book” (根据书本改编) 这个标签 (16 次) 。

  • 非个性化模型: 猜测“twist ending” (结局反转,一个通用的猜测) 。 错误。
  • 检索增强模型: 它试图在历史记录中找到类似的电影,但被查询中具体的情节细节 (恐怖、公寓) 分散了注意力。它未能发现模式。 错误。
  • OPPU: 个人 PEFT 模块在训练期间已经“阅读”了用户的整个历史。它内化了用户关心电影是否改编自书本这一统计倾向。 正确。

这凸显了 OPPU 的优势: 它捕捉的是 模式 , 而不仅仅是关键词。

为什么 OPPU 能更好地处理“行为转变”

论文中最有趣的发现之一是当用户做一些新的事情时 OPPU 的表现。

在传统的 RAG 设置中,如果用户问了一个与其历史记录完全不相关的问题,检索器会抓取“不相关”的文档,因为它必须抓取一些东西。这种噪声通常会混淆模型。

研究人员通过强制检索器抓取 不相关 的历史记录来模拟这种情况。

  • 仅检索: 性能崩溃。它变得仅比非个性化模型好一点点 (甚至有时更差) 。
  • OPPU: 性能保持稳健。即使没有相关的上下文可供“抄袭”,PEFT 模块仍然保留了用户的总体风格偏好和决策模式。

这证实了微调学会了“如何像用户一样思考”,而检索仅提供了“用户以前说过什么”。

通用性与效率

你可能会想: “LoRA 是唯一的途径吗?”或者“这训练起来需要很长时间吗?”

兼容不同的 PEFT 方法

研究人员测试了 OPPU 与不同的微调方法: LoRAPrompt Tuning (提示微调)(IA)³

图 6 绘制了使用不同 PEFT 方法 (LoRA、Prompt Tuning、IA^3) 的 OPPU 性能。LoRA 通常表现最好,这与其具有略高的参数数量相关。

图 6 显示 OPPU 适用于所有这些方法,但 LoRA (黄色条) 通常表现最好。研究人员将其归因于 LoRA 相比 Prompt Tuning (0.001%) 拥有稍多的可训练参数 (约占模型的 0.01%) 。在个性化方面,多一点容量来存储用户的怪癖是有帮助的。

检索数量的影响

增加更多检索项是否有助于 OPPU?

图 4 绘制了随着检索项数量 (k) 增加,OPPU 与仅检索基准的性能对比。OPPU 保持领先优势。

如图 4 所示,增加检索项的数量 (\(k\)) 对每个人都能提升性能。然而,OPPU (橙色线) 与基准 (蓝色线) 之间的差距依然明显。有趣的是,即使在 \(k=0\) (完全没有检索) 的情况下,OPPU 的表现也令人钦佩,证明用户的画像已成功存储在权重中。

效率

训练这些模块的速度惊人地快。因为只更新了网络的一小部分,训练一个个人模块只需要几分钟到几小时 (取决于历史记录的长度) ,而不是几天。

图 8 展示了效率分析。训练时间随历史项目数量和 Token 长度呈线性增长,保持在计算可行的范围内。

图 8 证明了训练时间呈线性增长。这使得该方法在现实世界的部署是可行的。服务提供商可以轻松地在后台训练这些模块。

结论: AI 所有权的未来

“One PEFT Per User” (每位用户一个 PEFT) 框架代表了让 LLM 真正个性化迈出的重要一步。通过将 通用能力 (基座模型) 与 个人偏好 (PEFT 模块) 分离,OPPU 解决了几个关键问题:

  1. 隐私与所有权: 理论上,你可以将 PEFT 文件保存在本地设备上,只将轻量级的参数发送到云端 (或者如果基座模型可用,则完全在本地运行) 。
  2. 鲁棒性: 你的模型理解你的风格,而不仅仅是你的关键词。当你改变话题时,它不会崩溃。
  3. 性能: 它能产生比单纯使用提示词更好、更一致的结果。

随着我们迈向每个人都拥有 AI 助手的未来,“一刀切”的时代正在结束。像 OPPU 这样的方法确保了你的 AI 不仅仅是一个通用的智能工具,而是你大脑的专属延伸——一个你真正拥有的延伸。