](https://deep-paper.org/en/paper/2110.13985/images/cover.png)
序列模型的瑞士军刀:深入探究线性状态空间层
循环神经网络 (RNN) 、卷积神经网络 (CNN) 和 Transformer 已经彻底改变了我们处理文本、音频和时间序列等序列数据的方式。每种范式都很强大,但也都有其自身的局限性: RNN 在推理时效率很高,但在长序列上训练缓慢,并且存在梯度消失问题。 CNN 可以并行训练,速度快,但它们在固定感受野之外表现不佳,且推理成本高。 Transformer 能够捕捉全局上下文,但其内存和计算量会随序列长度呈二次方增长。 如果我们能将这些方法的优点结合起来会怎样?想象一个具有以下特性的模型: ...