Why Are Linear RNNs More Parallelizable?
Questo lavoro stabilisce un legame fondamentale tra le classi di complessità computazionale e le architetture delle reti ricorrenti, dimostrando che le RNN lineari sono parallelizzabili come i transformer perché corrispondono a circuiti aritmetici di profondità logaritmica, mentre le RNN non lineari risolvono problemi completi per P che ne impediscono un'efficiente parallelizzazione.