NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches
Il paper introduce NOBLE, un'architettura che accelera l'addestramento dei transformer da zero mediante rami a basso rango non lineari permanenti, ottenendo significativi miglioramenti nell'efficienza e nella velocità di convergenza con un minimo sovraccarico di parametri.