Why Are Linear RNNs More Parallelizable?

该论文通过建立线性 RNN 与非线性 RNN 与标准复杂度类(如NC1\mathsf{NC}^1L\mathsf{L}P\mathsf{P})之间的紧密联系,从理论层面揭示了线性 RNN 之所以能像 Transformer 一样高效并行化,是因为其可被建模为对数深度算术电路,而非线性 RNN 因能解决L\mathsf{L}P\mathsf{P}完全问题而存在根本性的并行化障碍。

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs