NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches
O artigo apresenta o NOBLE, uma arquitetura que adiciona ramificações de baixo rank não lineares permanentes às camadas lineares dos transformers para acelerar o pré-treinamento do zero, alcançando ganhos significativos de eficiência e velocidade de convergência com sobrecarga mínima de parâmetros e tempo.