NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches
Het paper introduceert NOBLE, een architecturale uitbreiding die permanente niet-lineaire laag-rang takken toevoegt aan transformer-lijnen voor training vanaf nul, wat leidt tot aanzienlijke verbeteringen in trainingsefficiëntie en een snellere convergentie met minimaal extra parameteroverhead.