ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits
ButterflyMoE est une méthode qui permet de stocker de multiples experts sur des appareils à ressources limitées en remplaçant le stockage linéaire de matrices de poids indépendantes par une représentation géométrique sub-linéaire basée sur des rotations appliquées à un prototype ternaire partagé, réduisant ainsi la consommation mémoire de 150 fois sans perte significative de précision.