Grouter: Decoupling Routing from Representation for Accelerated MoE Training
Le papier présente Grouter, une méthode de routage préemptive qui découple l'optimisation structurelle de la mise à jour des poids en utilisant des structures distillées pour accélérer significativement l'entraînement des modèles MoE et améliorer leur convergence.