Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models
Questo studio analizza la consistenza del routing locale nei modelli Mixture-of-Experts, proponendo nuove metriche per valutare l'efficacia dell'offloading degli esperti e rivelando come il bilanciamento del carico locale e le scelte architetturali influenzino le prestazioni su dispositivi con memoria limitata.