自然语言处理 (NLP) 领域一直被经典巨头主导——循环神经网络 (RNN) 、LSTM,以及最近的 Transformer。这些模型依靠大量的计算资源和数百万 (有时甚至数十亿) 个参数来理解人类语言。
但一种新的范式正在兴起: 量子计算 。
多年来,量子计算与 NLP 的交叉领域——通常称为 QNLP——主要停留在理论层面。然而,随着我们步入“量子优势”时代,研究人员提出了一个关键问题: 量子模型能否执行文本分类等序列任务,并且能够高效地执行?
在论文 “Quantum Recurrent Architectures for Text Classification” 中,Quantinuum 的研究人员给出了一个令人着迷的答案。他们开发了一种混合量子-经典模型,模拟 RNN 的行为,但运行在量子计算机的复希尔伯特空间中。
最令人震惊的发现是什么?他们的量子模型仅运行在 4 个量子比特上,其性能却与使用 200 维隐藏状态的经典模型相当。在这篇文章中,我们将拆解这个架构,解释如何将单词转化为量子态,并看看那些表明量子模型可能比经典模型更精简、学习速度更快的实验结果。
背景: 从比特到量子比特
要理解量子 RNN (QRNN) 的工作原理,我们需要先建立关于量子力学的共同语言。如果你来自经典机器学习背景,你习惯于使用实数向量。量子计算通过使用 qubits (量子比特) 改变了游戏规则。
量子比特与叠加态
经典比特要么是 0,要么是 1。然而,量子比特处于 superposition (叠加态) 。 数学上,量子比特的状态 \(|\psi\rangle\) 是二维复向量空间 (希尔伯特空间) 中的一个向量:

这里,\(\alpha\) 和 \(\beta\) 是代表概率幅的复数。当我们测量量子比特时,它会根据这些概率坍缩为 0 或 1。
指数级空间的威力
当你把量子比特堆叠在一起时,真正的魔法就发生了。在经典计算机中,如果有 2 个比特,你就拥有 2 个不同的信息片段。在量子计算机中,一个 2 量子比特系统由一个大小为 4 (\(2^2\)) 的向量表示。

如你所见,向量大小呈指数增长。本文使用的 4 量子比特系统拥有 \(2^4 = 16\) 个复数维度的状态空间。如果我们有 50 个量子比特,状态空间将是 \(2^{50}\),这是一个巨大的数字。这种特性使得量子模型能够用极少的实际计算单元来表示极其复杂的数据结构。
量子门
就像我们使用逻辑门 (与、或、非) 来操作比特一样,我们使用 量子门 来操作量子比特。这些门由酉矩阵表示。
本文的一个关键门是 旋转门 (RX) 。 与简单的“翻转”门不同,旋转门接受一个参数 \(\theta\) (角度) 。这允许我们在布洛赫球面上将量子比特的状态绕轴旋转特定的量。

这种参数化的特性使得我们可以“训练”量子电路。通过调整角度 \(\theta\),我们可以改变电路的输出,就像调整神经网络中的权重一样。
核心方法: 构建量子 RNN
研究人员提出了一种 混合 方法。我们不能简单地将原始文本输入量子电路;我们需要一座桥梁。该架构包含三个主要阶段:
- 经典编码: 将单词转换为参数。
- 量子处理: 演化量子态 (“隐藏状态”) 。
- 测量: 提取经典统计数据用于分类。
1. 从单词到角度
标准 NLP 使用词嵌入 (如 Word2Vec 或 GloVe) 将单词转换为实数向量。作者保留了这一步。每个单词 \(w_i\) 首先被转换为经典嵌入向量。
然而,量子电路不接受向量;它接受门参数 (角度) 。因此,作者使用经典的仿射变换 (一个简单的线性层) 将词嵌入向量映射为一组角度,记为 \(\theta\)。

这些角度随后用于控制量子电路内部的旋转门。这有效地将单词的语义含义“编码”进量子电路的操作中。
2. 循环量子电路
论文的核心是循环机制。在经典 RNN 中,“隐藏状态”是在每个时间步更新的向量。在这个 QRNN 中, 隐藏状态就是量子态本身。
作者提出了两种架构,如图 1 所示。

让我们分解标记为 (a) 的架构,即更复杂的“丢弃 (Discarding) ”模型:
- 初始化: 我们从一组初始化为 \(|0\rangle\) 的量子比特开始。
- 单词拟设 (Word Ansatz \(\mathbf{W}\)) : 使用我们要生成的角度,将当前句子中的单词编码到底部的两条线路上。这创建了单词的量子表示。
- 循环块 (\(\mathbf{R}\)) : 这是单元的“大脑”。它接收前一个隐藏状态 (顶部线路) 和新单词状态 (底部线路) 并将它们纠缠在一起。这将句子的历史信息与新单词混合在一起。
- 丢弃 (Discarding) : 这是新颖的部分。为了保持量子比特数量恒定,顶部的两条线路被“丢弃” (概念上重置或偏迹) ,底部的两条线路成为下一步的新隐藏状态。这模仿了经典 RNN 中新输入与旧记忆融合的信息流。
架构 (b) 更简单。它不需要为每个单词使用新的线路。相反,它直接将单词编码应用于现有状态。
“拟设” (量子神经网络)
标记为 \(\mathbf{R}\) 的方框内究竟发生了什么?这是一个 参数化量子电路 (PQC) 。 它包含一种特定的门排列设计,具有高度的表达能力——意味着它可以到达希尔伯特空间中的许多不同状态。
作者使用了一种特定的配置 (来自 Sim et al., 2019 的 Ansatz 14) ,如下所示:

注意两点:
- 旋转 (RY, RX) : 这些门的参数是在训练期间学习的。
- 纠缠: 垂直线代表将量子比特连接在一起的受控门。这产生了纠缠,允许系统对单词历史和当前输入之间的复杂依赖关系进行建模。
3. 测量与分类
在逐词处理完整个句子后,最终的量子态包含了句子的“含义”。
为了得到预测,我们对特定量子比特执行 测量 (通常在 Z 基上) 。这将量子态坍缩为实数 (期望值) 。这些值就像经典神经网络中的“logits”。它们被输入到 Softmax 函数中以产生概率分布 (例如,正面情感 vs. 负面情感) 。
实验与结果
作者在 Rotten Tomatoes (烂番茄) 数据集上测试了该架构,这是二元情感分析 (正面或负面电影评论) 的标准基准。
他们将量子 RNN (QRNN) 与三个经典基线进行了比较:
- 标准 RNN
- GRU (门控循环单元)
- LSTM (长短期记忆网络)
训练是通过精确模拟 (在经典 GPU 上完美计算数学公式) 进行的。这使得他们能够使用反向传播来优化量子门中的角度。
“大卫与歌利亚”式的对决
结果总结在下面的表 1 中。

从表中可以得出两个主要结论:
- 具有竞争力的准确率: QRNN 达到了 78.7% 的测试准确率。这实际上与 LSTM (78.5%) 和 GRU (77.2%) 相同。
- 参数效率: 请看 \(|\theta|\) (参数计数) 一列。
- 经典 LSTM 需要 240,000 个参数。
- 经典 RNN 需要 60,000 个参数。
- QRNN 仅需要 1,600 个参数。
这是最重要的发现。量子模型用 少几个数量级的参数 达到了类似的性能。这验证了一个假设: 即便是少量量子比特 (仅仅 4 个!) 的高维希尔伯特空间也提供了巨大的表示能力。
快速收敛
模型不仅尺寸高效,学习效率也很高。下面的学习曲线显示,QRNN (带标记的线条) 比经典基线 (普通线条) 更快地收敛到良好的解。

当经典模型需要许多个 epoch 才能缓慢爬升到约 78% 的准确率时,QRNN 几乎立即就冲上去了。这表明对于此类任务,这些量子模型的优化景观可能更有利,需要更少的训练迭代。
真实量子硬件验证
批评者常指出模拟是完美的,但真实的量子计算机充满噪声。为了解决这个问题,作者将他们训练好的模型放在 Quantinuum H1 模拟器上运行了测试集。该模拟器模仿了当前量子硬件的实际噪声分布和物理限制。
结果如何?模型保持了较高的准确率 (约 77-80%) ,证明了这些架构足够稳健,不仅能停留在理论白板上,还能运行在近期中等规模量子 (NISQ) 设备上。
结论与启示
论文 “Quantum Recurrent Architectures for Text Classification” 提供了一个令人信服的概念验证。它证明了我们不需要数百万个量子比特就可以开始做有趣的量子 NLP 工作。
主要要点:
- 混合动力: 结合经典嵌入与量子处理,利用了两者的优势。
- 4 的力量: 仅仅 4 个量子比特,代表 16 维复数空间,就能匹敌 200 维的经典隐藏状态。
- 效率: 量子模型所需的参数不到经典对应模型的 1%。
这对未来意味着什么? 目前,我们模拟这些模型是因为经典 GPU 比今天的量子计算机更快。然而,随着量子硬件规模的扩大和错误率的降低,这些架构可能为建模复杂的序列数据提供真正的优势。通过酉演化 (天生防止梯度消失问题) 来建模长程依赖关系是未来 NLP 研究的一个有前途的方向。
虽然我们不会明天就用 4 量子比特的电路取代 ChatGPT,但这项研究为未来奠定了基石,在这个未来中,量子处理器可能会以惊人的效率处理最复杂的语言推理任务。
](https://deep-paper.org/en/paper/file-3526/images/cover.png)