简介
在快速发展的人工智能领域,多模态模型——能够理解和处理文本、图像和音频等多种类型数据的系统——正在开辟新的天地。正如 CLIP 等视觉-语言模型 (VLMs) 通过连接图像与自然语言彻底改变了计算机视觉一样,音频-语言模型 (ALMs) 也正在为声音领域带来同样的变革。
这些模型使得 零样本音频识别 (Zero-Shot Audio Recognition) 成为可能。想象一下,向一个从未经过显式训练来分类“狗叫声”的 AI 模型播放一段狗叫的音频片段。你只需要提供文本“一段狗的录音 (A recording of a dog) ”,模型就会将音频特征与文本特征进行匹配,从而正确识别出声音。
然而,这其中存在一个陷阱。这些模型的性能对文本提示词 (prompt) 的具体措辞极其敏感。将“一段狗的录音”改为“这是狗的声音”可能会极大地改变准确率。这种依赖性迫使研究人员通过“提示工程 (prompt engineering) ”——一个枯燥的过程——来手动猜测最佳的措辞。
在这篇文章中,我们将探讨一篇名为 “PALM: Few-Shot Prompt Learning for Audio Language Models” 的研究论文。作者提出了一种名为 PALM 的新颖且高效的方法来自动化这一过程。PALM 不再纠结于手工编写的句子,而是直接在模型的特征空间内学习最佳上下文,从而以远低于先前方法的计算成本实现了最先进的结果。
手工提示词的问题
要理解为什么 PALM 是必要的,我们首先需要看看当前标准方法的局限性: 零样本推理。
在一个典型的 ALM 设置中 (如本研究中使用的 PENGI 模型) ,模型有两个主要分支: 一个 音频编码器 (Audio Encoder) 和一个 文本编码器 (Text Encoder) 。 音频编码器将声波转化为数学嵌入 (向量) ,文本编码器则对文本做同样的处理。为了对声音进行分类,模型会计算音频嵌入与各种文本嵌入 (例如“狗”、“汽车”、“雨”) 之间的余弦相似度。相似度得分最高的类别获胜。
问题在于文本编码器非常敏感。作者通过使用八种不同的提示模板在标准数据集上测试 PENGI 模型,证明了这一点。

如 图 2 所示,准确率会随着使用的模板不同而发生显著波动。对于 ESC50 数据集,像 {CLASS NAME} 这样的简单提示仅产生 43.3% 的准确率,而“The is a recording of {CLASS NAME}”则跃升至 53.5%。依靠人工工程来寻找那个“魔法句子”既低效又不可靠。
现有解决方案及其缺陷
计算机视觉社区在 VLM 中也面临着同样的问题,并开发了诸如 COOP (上下文优化) 和 COCOOP (条件上下文优化) 等“提示学习”解决方案。
这些方法用可学习的“上下文 Token”取代了手动文本提示。它们不再输入“A recording of”这样的单词,而是将可学习的向量输入到文本编码器的 输入端 。 在训练过程中,模型会调整这些输入向量以最大化准确率。
虽然有效,但将 COOP 和 COCOOP 调整到音频-语言模型中需要付出沉重的计算代价。因为这些方法优化的是 输入空间 , 所以在训练期间,误差梯度必须反向传播经过巨大的文本编码器。这需要大量的内存和处理能力。
PALM 解决方案: 优化特征空间
PALM 的作者采用了不同的方法。他们问道: 既然可以优化输出,何必优化输入?
PALM (Prompt Learning in Audio Language Models) 将焦点从 Token 嵌入空间 (输入) 转移到了特征空间 (输出) 。
架构
让我们看看 PALM 与传统的零样本方法以及 COOP 基线相比如何。

如 图 3 所示:
- Zero-Shot (a): 使用固定的、手工制作的提示词。
- COOP (b): 在管道的 起始端 (文本编码器的输入) 学习上下文。这需要通过整个编码器 (灰色框) 进行反向传播。
- PALM (c): 首先将简单的类别名称通过冻结的文本编码器。然后,它使用可学习的参数修改生成的特征向量。
因为修改发生在文本编码器 之后,梯度不需要回流通过编码器。编码器保持完全冻结状态,使得训练极其快速和高效。
PALM 的数学原理
PALM 实际上是如何修改特征的?它巧妙地结合了原始文本特征和学习到的上下文向量。
首先,文本提示 \(t_i\) (即类别名称) 通过文本编码器 \(f_T\) 得到一个特征向量。然后,PALM 使用以下公式计算修改后的特征向量 \(f'_T(t_i)\):

其中:
- \(f_T(t_i)\) 是来自冻结编码器的原始特征向量。
- \(z_i\) 是特定于该类别的 可学习上下文向量 。
- \(\lambda_i\) 是一个 可学习标量 (在 0 到 1 之间) ,作为一个门控,决定在多大程度上依赖预训练知识与学习到的上下文。
一旦创建了修改后的文本特征,模型就会使用余弦相似度将它们与音频特征 (\(f_A(\mathbf{x})\)) 进行比较。最终的预测逻辑与标准零样本推理相似,但使用了优化后的文本特征:

训练
模型在 少样本 (few-shot) 设置下进行训练。这意味着每个类别它只能看到少量的样本 (例如 16 个音频片段) 。目标是最小化预测类别与实际标签之间的差异。目标函数最小化标准的交叉熵损失:

重要的是,在这个优化过程中, 只有 上下文向量 (\(z\)) 和门控参数 (\(\lambda\)) 会被更新。巨大的音频和文本编码器保持冻结状态。
效率分析
PALM 最强有力的论据之一是它的效率。通过避免梯度通过文本编码器的需求,与 COCOOP 等基线相比,PALM 大幅减轻了计算负担。

如 表 3 所示,PALM 所需的 可学习参数比 COCOOP 少了约 87% (12,393 vs 98,880) 。这使得模型存储更轻便,训练更快,同时没有牺牲预训练编码器中嵌入的复杂理解能力。
实验与结果
为了验证他们的方法,研究人员在涵盖从情绪识别到乐器识别等广泛任务的 11 个不同音频数据集上测试了 PALM。

性能比较
结果与三个基线进行了比较:
- Zero-Shot: 标准的预训练 PENGI 模型。
- COOP: 改编自视觉-语言模型。
- COCOOP: 带有反馈循环的 COOP 进阶版。
比较结果总结在下面的图表中:

PALM 明显胜出。
- Zero-Shot 基线的平均准确率为 39.7% 。
- COOP 将其提高到了 71.1% 。
- COCOOP 达到了 73.5% 。
- PALM 实现了最高的准确率,达到 76.6% 。
这表明,对于音频-语言模型,优化特征空间不仅更高效,而且比优化输入空间更有效。PALM 的表现平均比 COOP 高出 5.5%,比 COCOOP 高出 3.1%。
为什么它有效? (消融实验)
研究人员进行了“消融实验”——旨在移除系统的部分组件以观察其重要性的实验。
1. 可学习上下文真的有帮助吗? 他们将 PALM 与移除了可学习上下文嵌入 (\(z_i\)) 、只保留原始文本特征的版本进行了比较。

图 4 显示,移除上下文 (由橙色条形 PALM\(^{\dagger}\) 表示) 导致几乎所有数据集的准确率大幅下降。这证实了学习到的向量 \(z_i\) 捕获了单纯类别名称所遗漏的关键信息。
2. 更多数据有帮助吗? 由于这是一种少样本学习方法,“样本数 (shots) ” (训练示例的数量) 很重要。

图 5 证实了正相关性: 随着样本数的增加 (从 1 到 16) ,PALM 在各种数据集上的准确率持续提高。
结论
PALM 论文为音频-语言模型迈出了重要的一步。它解决“提示工程瓶颈”的方法不是要求人类编写更好的提示词,而是允许模型自己学习最佳的表示。
通过将优化从输入空间 (Tokens) 转移到特征空间 (嵌入) ,PALM 实现了“两全其美”:
- 高准确率: 它优于 COCOOP 等最先进的基线。
- 高效率: 它使用的参数显著减少,并消除了通过文本编码器进行昂贵反向传播的需要。
对于多模态 AI 领域的学生和研究人员来说,PALM 提供了宝贵的一课: 有时调整大型预训练模型最有效的方法不是重新训练它或调整其输入,而是用一个轻量级的、可学习的层来微调其输出。随着 ALM 的普及,像 PALM 这样高效的提示学习技术对于将这些模型部署到实际应用中将至关重要。
](https://deep-paper.org/en/paper/2409.19806/images/cover.png)