当前的人工智能格局给工程师和用户带来了一种令人沮丧的两难境地。一方面,我们拥有基于云的大型语言模型 (LLMs) , 如 GPT-4 或 Claude 3 Opus。它们非常聪明,能够进行复杂的推理,并掌握海量的知识。然而,它们的运行成本高昂,依赖网络延迟,并且引发了数据隐私方面的担忧。
另一方面,我们拥有本地 LLM——像 Llama-3-8B 或 Phi-3 这样可以直接在笔记本电脑甚至手机上运行的较小模型。它们速度快,部署后运行免费,且私密性好。但问题在于,它们往往难以应对复杂的推理。如果你问它们一个多步骤的逻辑难题,它们很容易“产生幻觉”或者在半途丢失逻辑线索。
长期以来,行业的解决方案是非此即彼的: 要么支付高昂的云端费用,要么接受本地设备的局限性。但是,如果存在一个中间地带呢?如果本地模型可以处理简单的任务,只有在卡住时才“求助场外朋友” (云端模型) ,情况会怎样?
这就是 ADASWITCH 背后的前提,这是由北京大学、百度公司等机构的研究人员提出的一个引人入胜的新框架。在这篇深度文章中,我们将探讨 ADASWITCH 如何允许小型本地智能体与大型云端智能体进行适应性协作,以一小部分的计算成本实现巨型模型的性能。
核心概念: 协作智能
ADASWITCH 的灵感来自于人类行为。想象一下,一位初级实习生正在处理一个复杂的项目。实习生可以独立处理 80% 的日常任务。然而,当他们遇到特别困难的计算或战略决策时,他们不会胡乱猜测;他们会停下来,意识到自己可能会犯错,并向高级导师寻求帮助。一旦导师指导他们完成了那个特定步骤,实习生就会继续工作。
ADASWITCH 将这一逻辑应用于 LLM。它由两个主要模块组成:
- 本地智能体 (Local Agent) : 一个较小、高效的模型 (例如 DeepSeek-Coder-1.3B) ,负责处理常规的推理步骤。
- 云端智能体 (Cloud Agent) : 一个庞大、强大的模型 (例如 Llama-30B 或更大) ,负责介入处理复杂的推理。
其中的“魔法”不仅仅在于连接它们;而在于教会小型智能体学会内省 (introspective) 。 本地智能体需要知道它何时即将失败,以便它可以主动寻求帮助。

如图 1 所示,考虑一个关于鸡兔同笼的数学问题。本地智能体试图计算鸡的数量,但意识到其逻辑有缺陷 (由“上一步错了吗?是”的检查标记表示) 。它没有沿着错误的路径继续,而是交换了角色。云端智能体介入,建立了正确的方程,然后将控制权交还。随后,本地智能体完成简单的计算 (8 只鸡减去 4 只兔子) ,得出最终答案。
方法论: 教模型“认识你自己”
研究人员并没有仅仅硬编码一套切换规则。他们开发了一个三阶段的学习范式,以此训练本地智能体变得具有自我意识。
智能体框架
在深入探讨训练阶段之前,让我们先建立数学基础。在这个框架中,一个智能体 (LLM \(\mathcal{M}\)) 根据之前的历史记录 (\(\tau_{t-1}\)) 生成一个“想法” (\(s_t\)) 和一个“动作” (\(a_t\)) 。然后环境返回一个观察结果 (\(o_t\)) 。

目标是优化这个循环,使得本地智能体执行大部分生成工作 (\(\mathcal{M}\)) ,但在必要时将 \(\tau_{t-1}\) 移交给云端智能体。
第一阶段: 自我练习 (Self-Practicing)
第一阶段是直接的监督微调。本地智能体在标准数据集 (如用于数学的 GSM8K) 上进行训练,其中问题配有标准的推理步骤。

在第一阶段 , 模型学习如何使用工具 (如计算器) 以及如何构建思维链的基础知识。这建立了尝试解决问题所需的“基本推理能力”。
第二阶段: 协作测验 (Collaborative Examination)
这是 ADASWITCH 方法论创新的地方。一旦本地智能体掌握了基本技能,它就被迫在训练集上参加“考试”。
研究人员让本地智能体尝试解决问题。然而,他们雇佣了一名监督者 (使用基于规则的检查或更强大的模型) 来监控步骤。
- 如果本地智能体采取的步骤与正确的推理路径相符,它就继续。
- 如果本地智能体犯了错误 , 云端智能体立即被激活,擦除错误的步骤并生成正确的步骤。

至关重要的是,这个过程创建了一个新的、丰富的 “纠错轨迹” 数据集。它准确地捕捉到了小型模型倾向于在哪里失败,以及智能模型是如何修复它的。
第三阶段: 反思学习 (Reflective Learning)
现在,本地智能体在第二阶段生成的轨迹上进行重新训练。这与第一阶段不同,因为数据现在包含了失败和纠正的时刻。

通过在这些混合轨迹上进行训练,本地智能体学习了两项关键的新技能:
- 自我纠正: 它学会识别导致错误的模式。
- 适应性切换: 它学会了当达到高度不确定的状态 (“困难步骤”) 时,下一个正确的 token 通常来自外部帮手。
协作推理 (Collaborative Inference)
一旦部署,本地智能体将在一种称为“协作推理”的模式下运行。它生成一个想法,并为其自身的置信度计算一个概率分数。
如果上一步骤错误的概率超过阈值 \(p\),系统就会调用云端智能体。
激活阈值 (\(p\)) 充当用户的调节旋钮:
- 低 \(p\): 频繁寻求帮助。 (准确率更高,成本更高) 。
- 高 \(p\): 尝试独自解决。 (成本更低,准确率可能更低) 。

如表 2 所示,这种权衡是显而易见的。在阈值为 0.1 时,智能体在 GSM8K 上实现了 57.60% 的准确率,但消耗了 121.80 FLOPs。将阈值提高到 0.9 会将成本大幅降低至 37.90 FLOPs,但准确率下降至 48.50%。ADASWITCH 赋予用户选择最佳平衡点的能力。
实验与关键结果
研究人员在涵盖数学推理 (例如 GSM8K, SVAMP) 和复杂问答 (例如 HotpotQA, MuSiQue) 的 7 个基准测试上评估了 ADASWITCH。
他们使用了不同大小的本地智能体 (1.3B 和 3B 参数) 和云端智能体 (最高 30B 和 70B 参数) 。
1. 性能提升
结果令人信服。混合方法的性能始终显著优于本地智能体,并且通常能与云端智能体的性能相媲美。

查看表 1 (上图) ,特别是“Using 1.3B Local Agent” (使用 1.3B 本地智能体) 这一部分:
- 独立的 1.3B 本地智能体在 GSM8K 上仅得分 29.30% 。
- 当增强了 ADASWITCH 后,该分数跃升至 53.90% 。 这是超过 80% 的相对提升 。
- 在 “G_Hard” 数据集 (更难的数学问题) 上,性能几乎翻倍,从 25.20% 提高到 47.10%。
这证实了本地智能体不仅仅是在“猜测”何时寻求帮助;它成功地识别了它无法独自解决的最困难步骤。
2. 消融实验: 我们需要云端吗?
你可能会问: “也许提升仅仅来自于本地模型对自己错误的反思?”研究人员通过移除云端智能体 (仅自我反思) 和完全移除反思机制来测试这一点。

图 3 显示了细分情况。
- 蓝色柱 (w/o RL) : 基线性能。
- 橙色柱 (w/o Reflection) : 轻微提升。
- 绿色柱 (w/o Cloud) : 智能体尝试自我纠正。这有帮助,但小型模型通常缺乏修复自身错误的知识。
- 红色柱 (Ours) : 完整的 ADASWITCH。从绿色到红色的跳跃证明, 外部帮助对于显著的收益是必要的。小型模型可以意识到自己错了,但它通常需要一个“大脑”来告诉它什么是对的。
3. 成本效益
这项研究的最终目标是效率。ADASWITCH 是否真的比所有事情都用云端更便宜?

图 4 绘制了成本 (x轴) 与准确率 (y轴) 的关系。理想的位置是左上角 (高准确率,低成本) 。
- 绿色三角形 (独立的本地智能体) 很便宜,但准确率低。
- 云端模型 (未绘制,但暗示为天花板) 在成本方面将位于最右侧。
- ADASWITCH (红星) 占据了“帕累托最优”位置。它在保持成本相对较低的同时实现了高准确率。论文指出,ADASWITCH 可以实现与更大模型相似的结果,同时使用的计算开销减少了 3 到 5 倍 。
案例研究: 实战演示
为了真正理解切换是如何发生的,让我们看一个论文中提供的具体例子,涉及一个关于音乐练习的数学应用题。
问题: Carolyn 每天练习钢琴 20 分钟,练习小提琴的时间是钢琴的三倍……她一个月 (4 周) 练习多少分钟?

在图 5 的左侧面板中:
- 步骤 1 (蓝色) : 本地智能体正确计算了小提琴的时间 (20 * 3 = 60) 。
- 步骤 2 (蓝色) : 本地智能体试图计算总每日时间。它计算了
60 + 60(错误地假设钢琴时间等于小提琴时间,或者是类似的逻辑错误) 。 - 反思: 本地智能体抓住了自己的错误!它将上一步标记为“错误”。
- 切换 (红色) : 云端智能体介入。它正确计算了
20 + 60 = 80。 - 步骤 4 (蓝色) : 现在回到正轨,本地智能体接管乘法运算 (
80 * 6 * 4) 以得出最终答案。
如果没有云端干预,本地智能体会在问题的其余部分级联那个最初的加法错误,导致错误的答案。如果没有本地智能体,云端将不得不浪费算力在步骤 1 和 4 的琐碎乘法上。
结论与启示
ADASWITCH 代表了“端云协作”向前迈出的重要一步。它让我们摆脱了必须在本地设备的隐私/速度与云端的智能之间做出选择的想法。
通过将这种互动视为一种导师制——本地模型学会识别自己的弱点——我们创建了一个系统,它是:
- 高效的: 仅卸载最困难的 10-20% 的推理步骤。
- 有效的: 大幅提升小型模型的能力 (DeepSeek-Coder-1.3B 的表现像一个更大的模型) 。
- 自适应的: 允许用户通过阈值动态调整成本/准确率比率。
随着移动设备变得越来越强大,“小语言模型” (SLMs) 变得越来越好,像 ADASWITCH 这样的框架可能会成为部署人工智能应用的标准。你未来的智能手机助手可能会在本地处理你的日常日程安排,但当你要求它解一个复杂的谜题时,它会无缝地在瞬间 ping 一下服务器,让你在不耗尽电池或钱包的情况下两全其美。
](https://deep-paper.org/en/paper/2410.13181/images/cover.png)