介绍
在人工智能领域,对比语言-图像预训练 (Contrastive Language-Image Pre-training, CLIP) 是一个分水岭时刻。通过大规模地学习将图像与其文本描述联系起来,CLIP 使模型能够以零样本 (zero-shot) 的方式理解视觉概念,这在以前是无法想象的。如果你向标准的计算机视觉模型展示一张它未经过训练的特定品种的狗的照片,它会失败。但展示给 CLIP,它就能理解。
然而,CLIP 的统治地位在很大程度上依赖于 Transformer 架构。虽然 Transformer 功能强大,但它们也伴随着巨大的代价: 二次计算复杂度 (\(O(N^2)\))。随着图像分辨率的增加或文本序列长度的增长,所需的内存和处理能力会直线上升。此外,从互联网上抓取用于训练这些模型的海量数据集通常充斥着噪声——充满了不相关的 alt 文本、糟糕的语法和语义不匹配。
如果我们能够获得 Transformer 的性能,但同时拥有循环神经网络 (RNN) 的效率呢?如果在模型看到数据之前,我们就能自动清洗和升级这些噪声数据呢?
RWKV-CLIP 登场。

如上图 1 所示,RWKV-CLIP 是一种新的视觉语言表示学习器,它挑战了现状。它的准确性匹配——甚至经常超过——基于 Transformer 的模型,同时消耗的 GPU 内存显著减少,并提供更快的推理速度。在本文中,我们将拆解 RWKV-CLIP 论文,探索它如何利用“接受度加权键值” (Receptance Weighted Key Value, RWKV) 架构和新颖的“多样化描述生成”框架来构建更稳健、更高效的多模态模型。
背景: 现代视觉语言模型的瓶颈
要理解为什么需要 RWKV-CLIP,我们首先需要审视当前领域的局限性。
Transformer 的二次复杂度魔咒
大多数最先进的视觉语言模型使用视觉 Transformer (ViT) 处理图像,使用文本 Transformer 处理字幕。Transformer 依赖于 自注意力 (Self-Attention) 机制。对于每一个 token (图像的一部分或句子中的一个单词) ,模型都要计算它与每一个其他 token 的关系。
如果你将 token 的数量加倍 (例如,更高的图像分辨率) ,计算成本不仅仅是加倍——它是四倍。这就是二次复杂度。它为我们高效处理高分辨率视觉数据或超长文档的能力设定了上限。
网络数据噪声问题
CLIP 模型非常饥渴;它们需要数十亿对图像-文本对。这些数据通常是从互联网上抓取的。问题在于,与网络图像相关的“文本”通常是垃圾信息。它可能是文件名 (IMG_0045.jpg)、SEO 关键词,或者与视觉内容完全无关。
以前试图解决这个问题的尝试,如 ALIP (Adaptive Language-Image Pre-training,自适应语言-图像预训练),使用较小的 AI 模型生成的合成字幕来平滑噪声。然而,这些合成字幕往往缺乏细节或过于简单,无法捕捉图像的细微差别。
RWKV 解决方案
RWKV (Receptance Weighted Key Value) 是一种新颖的架构,旨在弥合 RNN 和 Transformer 之间的差距。
- 像 Transformer 一样: 它可以并行训练。这一点至关重要,因为传统的 RNN (如 LSTM) 必须按顺序训练 (第 1 步,然后第 2 步…) ,这在现代硬件上极其缓慢。
- 像 RNN 一样: 在推理 (使用) 过程中,它线性地处理数据 (\(O(N)\))。它维护一个随着读取数据而演变的“状态”,而不是保留每一个先前 token 交互的海量历史记录。
RWKV-CLIP 将这种效率应用于 CLIP 的双编码器结构中。
核心方法
研究人员提出了一种双管齐下的方法: 首先提高数据质量,然后部署高效的 RWKV 架构。
1. 多样化描述生成框架
垃圾进,垃圾出。为了确保模型学习到稳健的表示,作者设计了一个管道,为训练图像生成高质量、多样化的描述。他们不仅仅依赖原始的网络文本或单一的合成字幕。相反,他们综合了多种信息来源。

如 图 2 所示,该过程如下运作:
- 输入: 原始图像。
- 字幕生成: 一个 OFA (One-For-All) 模型生成一个基本的合成字幕。这确保了文本至少在视觉上是相关的。
- 标签生成: 一个开放集标签模型 (RAM++) 检测图像中的特定物体和概念 (例如,“人”,“纸袋”,“手套”) 。这捕捉了字幕可能遗漏的细粒度细节。
- 指令微调 (大脑): 一个 LLM (大型语言模型) 充当合成器。具体来说,作者微调了 LLaMA-3,使其接收充满噪声的原始文本、合成字幕和检测标签,并将它们合并成一个单一、全面且语法正确的描述。
这导致有三种类型的文本可用于训练:
- 原始文本 (\(T_r\))
- 合成字幕 (\(T_s\))
- 生成的多样化描述 (\(T_g\))
在训练过程中,模型使用一种采样策略随机选择其中一个文本源。这增强了数据,防止模型过拟合到特定的文本风格,并使其接触到更丰富的词汇。

2. RWKV-CLIP 架构
现在,让我们看看引擎盖下的引擎。RWKV-CLIP 将图像和文本编码器中的 Transformer 块替换为 RWKV 块 。

如 图 3 所示,该架构反映了标准的 CLIP——用于图像和文本的双塔结构——但内部机制不同。输入图像被分块 (patched),文本被标记化 (tokenized)。然后它们通过包含 空间混合 (Spatial Mixing) 和 通道混合 (Channel Mixing) 的层。
空间混合: 注意力的替代品
在 Transformer 中,“注意力”混合了不同位置的信息 (空间混合) 。RWKV 使用一种称为 Bi-WKV 的机制以线性复杂度实现了这种混合。
在混合发生之前,模型使用一种“移位”操作,这里称为 Lerp (线性插值) 。 这允许模型在没有巨大计算成本的情况下“窥视”相邻的 token。
Lerp 的通用公式为:

对于图像 (Q-Lerp): 图像是二维的,所以模型需要向所有方向看。作者使用了 四向 Lerp (Quad-directional Lerp) 。 它将图像特征向上、下、左、右移动,并将它们拼接起来以捕捉局部纹理和边缘。

对于文本 (B-Lerp): 文本是一个序列,所以模型使用 双向 Lerp (Bi-directional Lerp) 。 它向前和向后移动特征,允许当前单词受到紧接其前后的单词的影响。

Bi-WKV 机制
在移位 (Lerp) 创建了键 (\(K\))、值 (\(V\)) 和接受度 (\(R\)) 之后,核心的 Bi-WKV 计算发生了。这是注意力的数学等价物,但是是以循环方式计算的。
为了避免依赖静态权重,模型使用了一个动态时间衰减因子 (\(w\))。这允许模型根据当前的输入,即时决定要记住或忘记多少历史信息。

使用这种衰减,通过 Bi-WKV 函数计算全局注意力。它看起来很吓人,但它本质上是使用线性扫描而不是 \(N^2\) 矩阵乘法来聚合来自所有先前 token (以及由于双向设计而来的未来 token) 的信息。

输出随后由作用于接受度 (\(G\)) 的 Sigmoid 函数 (\(\sigma\)) 进行门控,确保模型控制有多少信息流向下一层。

通道混合
在 token 共享了空间信息后,每个 token 被独立处理以演变其特征 (类似于 Transformer 中的前馈网络) 。这称为通道混合。它也使用 Lerp,但严格用于混合特征维度 (\(R\) 和 \(K\))。

输出使用了 Squared ReLU 激活函数 (\(\rho\)),这已被发现在 RWKV 架构中非常有效。

目标函数
最后,图像和文本表示被带入一个共享的嵌入空间。模型使用标准的对称交叉熵损失 (对比损失) 进行训练。目标很简单: 最大化正确图像-文本对 (矩阵对角线) 之间的相似度,并最小化与所有错误对的相似度。

实验与结果
研究人员在 YFCC15M 数据集 (1500 万图像-文本对) 上预训练了 RWKV-CLIP,并在更大规模的 LAION400M 数据集子集 (10M 和 30M) 上进行了验证。
1. 线性探测 (Linear Probing)
测试预训练模型最好的方法之一是“线性探测”。你冻结庞大的预训练模型,并在其之上为特定任务训练一个微小的分类器。如果预训练模型学到了好的特征,微小的分类器应该表现良好。
RWKV-CLIP 表现出比标准 CLIP、DeCLIP 和 ALIP 等基线显著的提升。

如 表 1 所示,RWKV-CLIP 在几乎每个数据集上都优于 ALIP 基线,平均提升近 2%。这证实了 RWKV 主干学到的特征更具辨别力和鲁棒性。
为了更细致地观察,作者将测试扩展到了 26 个不同的数据集。

图 5 可视化了这一增益。无论是在 1000 万还是 3000 万个样本上进行预训练,RWKV-CLIP (紫色条) 始终显示出比 ALIP 正向的分数差异。
2. 零样本能力
零样本分类是指识别模型在训练期间从未明确见过的类别的能力。

表 3 强调了相对于原始 CLIP 惊人的 12.6% 的平均提升,以及相对于强大的 ALIP 基线 2.7% 的提升。在 “Food101” (一个食品分类数据集) 上,准确率从 45.4% (ALIP) 跃升至 50.6% (RWKV-CLIP)。
3. 处理幻觉
使用 LLM 生成训练数据 (字幕) 的一个主要风险是“幻觉”——AI 编造图像中不存在的细节。作者将他们的框架与另一种字幕生成方法 “CapsFusion” 进行了比较。


在 图 4 和 图 10 中,请注意红色文本。CapsFusion 经常产生幻觉细节 (例如,想象一个人在“演奏旋律乐器”,而实际上这只是一张狗的画) 。RWKV-CLIP 数据管道 (标记为 “Ours”) 使用检测标签来约束 LLM,从而产生准确的描述 (绿色文本) ,而没有虚构的废话。
4. 模态对齐
类 CLIP 模型以最终目标是将具有相同含义的图像和文本映射到几何空间中的同一点。

图 7 展示了 UMAP 可视化,它将高维特征投影到二维平面上。
- ALIP (左): 紫色 (文本) 和蓝色 (图像) 点在某种程度上是分离的。这表明存在“模态间隙”——模型难以完美地桥接这两种类型的数据。
- RWKV-CLIP (右): 这些点混合得更加紧密。这种更紧密的耦合表明了卓越的跨模态对齐。
5. 效率与消融实验
最后,关于效率的数学计算站得住脚吗?

表 8 证实,RWKV-CLIP 使用的浮点运算次数 (FLOPs) 比标准的基于 ViT 的 CLIP 少,同时具有相当的参数数量。
作者还测试了混合架构 (例如,对图像使用视觉 Transformer,但对文本使用 RWKV) 。

表 7 揭示了一个有趣的发现: 纯 RWKV (图像和文本都使用 RWKV) 效果最好。混合 Transformer 和 RWKV 导致性能下降,这表明这两种架构的特征空间可能不像同构架构那样自然对齐。
结论
RWKV-CLIP 代表了大规模 AI 普及化迈出的重要一步。通过从计算昂贵的 Transformer 架构转向线性复杂度的 RWKV,研究人员创建了一个模型,它:
- 更快、更轻量: 能够处理更高的 token 数量,同时显着减少内存 (如引言中所述) 。
- 在数据处理上更智能: 利用复杂的管道,使用 LLM 和目标检测来清洗充满噪声的网络数据。
- 更准确: 在线性探测和零样本任务上取得了最先进的结果。
这项工作证明了我们并没有被锁定在 Transformer 范式中。高效的、基于 RNN 的架构可以在最高水平的视觉语言理解上进行竞争,这可能为不久的将来在消费级硬件上运行强大的多模态模型打开大门。
本博客文章中的分析基于 Tiancheng Gu 等人的研究论文 “RWKV-CLIP: A Robust Vision-Language Representation Learner”。
](https://deep-paper.org/en/paper/2406.06973/images/cover.png)