Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : Un Restaurant Trop Grand pour une Petite Cuisine

Imaginez un restaurant de luxe (c'est le Modèle de Langage, comme ceux qui écrivent des textes ou répondent à vos questions). Pour être ultra-puissant, ce restaurant possède une cuisine gigantesque avec des centaines de chefs spécialisés (les "Experts").

Le problème : Si vous voulez cuisiner un plat simple, vous n'avez pas besoin de tous les chefs en même temps. Le modèle utilise seulement quelques chefs à la fois (c'est le principe du "Mixture of Experts" ou MoE).
La contrainte : Mais pour que ça marche, il faut que tous les chefs soient présents dans la cuisine (la mémoire de l'ordinateur). Or, sur un téléphone portable ou un petit ordinateur, la cuisine est trop petite pour accueillir tout le monde.

La solution actuelle (Le "Déménagement") : On garde les chefs les plus populaires dans la cuisine (mémoire rapide), et on envoie les autres dans un entrepôt loin (mémoire lente). Quand un client commande un plat qui nécessite un chef absent, il faut aller le chercher dans l'entrepôt. C'est lent !

🚦 La Question de l'Étude : Les Clients Commandent-ils de la Même Manière ?

Les chercheurs se sont demandé : "Est-ce que les clients (les mots du texte) commandent toujours les mêmes chefs pendant une longue période ?"

Scénario A (Idéal) : Un client commande une pizza. Le chef pizza arrive. Le client suivant commande une pizza aussi. Le chef pizza reste. Le troisième aussi.
- Résultat : On garde le chef pizza dans la cuisine. Pas besoin de courir chercher personne. C'est super rapide !
Scénario B (Chaos) : Un client commande une pizza, le suivant un sushi, le suivant un burger, puis un dessert, puis une pizza...
- Résultat : Il faut constamment aller chercher des chefs dans l'entrepôt. Le service est lent et fatiguant.

Ce phénomène s'appelle la "Cohérence du Routage Local". Si les clients sont cohérents (Scénario A), on peut optimiser le système. Si c'est le chaos (Scénario B), le système de déménagement est inutile.

🔍 Ce Que Les Chercheurs Ont Découvert

Ils ont analysé 20 modèles différents (de la taille d'un petit smartphone à celle d'un supercalculateur) et ont inventé deux outils pour mesurer cette cohérence :

Le "Test de Prévision" (SRP) : Si on disait à un manager : "Pour les 10 prochains clients, ne changez pas d'équipe, gardez toujours ces 3 chefs", est-ce que ça fonctionnerait bien ?
- Résultat : Certains modèles (comme LLaMA-MoE ou OLMoE) sont très prévisibles. Les mêmes chefs travaillent ensemble pendant de longues séquences.
- Résultat : D'autres modèles (comme SwitchTransformers) sont très imprévisibles. Les équipes changent tout le temps.
Le "Test de la Boîte à Outils" (SCH) : Imaginons une petite boîte où on ne peut mettre que 2 chefs à la fois. Si on essaie de prédire quels chefs seront nécessaires dans les 10 prochaines minutes, combien de fois on aura le bon chef dans la boîte ?
- Résultat : Pour les modèles prévisibles, on peut avoir une boîte de taille moyenne (environ 2 fois le nombre de chefs actifs) et tout fonctionner parfaitement.

💡 Les Grandes Leçons (Les Analogies)

Voici les découvertes clés expliquées simplement :

1. L'Équilibre entre "Ordre" et "Chaos"

Il y a un compromis. Si un modèle essaie d'être trop équitable (chaque chef travaille exactement le même nombre de fois), il devient imprévisible. C'est comme un chef qui change de poste toutes les 5 minutes pour être juste : on ne sait jamais qui est où.

Leçon : Pour que le système soit rapide sur un téléphone, il vaut mieux accepter que certains chefs travaillent plus que d'autres, tant qu'ils restent ensemble pendant un moment.

2. Les Chefs Spécialisés sont les Héros

Les modèles qui ont des chefs spécialisés par domaine (un chef expert en maths, un autre en code, un autre en histoire) fonctionnent beaucoup mieux.

Analogie : Si vous écrivez un texte sur la cuisine, le chef "Cuisine" reste dans la cuisine pendant tout le texte. Si vous écrivez sur l'histoire, le chef "Histoire" prend le relais. C'est très cohérent !
À l'inverse, les chefs qui sont spécialisés par "mots précis" (un chef qui ne connaît que le mot "banane") sont moins utiles pour cette cohérence.

3. Le Secret des "Chefs Partagés"

Certains modèles ont des chefs "partagés" qui travaillent sur tout. Les chercheurs ont vu que cela gâche la cohérence.

Pourquoi ? C'est comme si le manager disait : "Tout le monde fait tout un peu". Résultat : personne ne reste longtemps sur un sujet précis, et il faut changer d'équipe constamment.

4. La Taille de la Boîte Magique

Combien de chefs faut-il garder dans la cuisine (mémoire rapide) pour que ça tourne vite ?

La réponse magique : Environ 2 fois le nombre de chefs nécessaires pour un seul mot.
Si vous avez besoin de 2 chefs pour cuisiner, gardez-en 4 dans la cuisine. C'est le point idéal entre la vitesse et la taille de la mémoire.

🏁 Conclusion : Pourquoi c'est important pour vous ?

Ce papier nous dit que tous les modèles ne sont pas égaux pour fonctionner sur nos téléphones.

Si vous voulez un modèle rapide sur un petit appareil, il faut choisir un modèle qui a une forte cohérence locale (qui reste sur le même sujet avec les mêmes "chefs" pendant un moment).
Les concepteurs de modèles doivent arrêter de chercher à être parfaitement équitables avec leurs chefs et accepter de créer des équipes spécialisées par sujet.

En résumé : Pour aller vite, il faut savoir rester concentré sur une tâche avant de changer d'outil. Les modèles qui font ça sont les gagnants pour le futur de l'IA sur mobile ! 📱✨

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage de grande taille (LLM) basés sur l'architecture Mixture-of-Experts (MoE) permettent une mise à l'échelle efficace en activant uniquement un sous-ensemble d'experts pour chaque token. Cependant, le déploiement de ces modèles sur des appareils à mémoire limitée (comme les mobiles) nécessite une technique d'offloading d'experts : une partie des experts est conservée en mémoire rapide (GPU), tandis que le reste est stocké sur une mémoire lente (CPU/disque) et chargé à la demande.

Le défi majeur réside dans la localité des activations d'experts. Si les choix de routage changent constamment d'un token à l'autre, le système doit fréquemment charger/décharger des experts, ce qui dégrade considérablement les performances d'inférence. Bien que certaines études aient observé une certaine cohérence locale (des tokens consécutifs activant les mêmes experts), l'étendue de ce phénomène varie énormément d'un modèle à l'autre et reste mal comprise. La question centrale est : tous les modèles MoE sont-ils également adaptés à l'offloading d'experts basé sur la mise en cache ?

2. Méthodologie

Les auteurs proposent une analyse systématique de la cohérence de routage local (Local Routing Consistency - LRC) à travers deux nouvelles métriques quantitatives et une étude empirique sur 20 modèles MoE (de 3B à 54B de paramètres) ainsi que sur des modèles "jouets" (toy models) pré-entraînés à partir de zéro pour isoler des facteurs architecturaux spécifiques.

A. Métriques Proposées

SRP (Segment Routing Best Performance) :
- Évalue dans quelle mesure un routeur simplifié, qui sélectionne un groupe fixe d'experts pour un segment entier de tokens, peut imiter les décisions du routeur original (token par token).
- Mesurée par le score F1 maximal possible.
- Permet une analyse fine-granulaire sans paramètres externes, reflétant la capacité intrinsèque d'un expert ou d'un groupe d'experts à maintenir une activation cohérente sur une fenêtre temporelle.
SCH (Segment Cache Best Hit Rate) :
- Mesure le taux de succès (hit rate) d'un cache d'experts "oracle" (idéal) avec une limite de taille stricte.
- Le cache évacue l'expert le moins utilisé dans les $m$ tokens futurs.
- Cette métrique intègre la contrainte réelle de la taille du cache et sert de pont entre la théorie (SRP) et l'efficacité pratique des systèmes d'offloading.

B. Expérimentation

Corpus : 22 528 échantillons couvrant 11 domaines (C4, GitHub, OpenMath, OpenCode, etc.).
Modèles : 20 modèles MoE réels (Mixtral, DeepSeek-V2, Qwen3, LLaMA-MoE, etc.) et une série de modèles jouets modifiant des hyperparamètres clés (équilibre de charge, experts partagés, granularité).
Analyse : Étude de la corrélation entre la cohérence de routage, l'équilibre de charge, la spécialisation des experts (domaine vs vocabulaire) et les performances de cache.

3. Résultats Clés

A. Trade-off entre Cohérence Locale et Équilibre de Charge

Il existe un fort compromis (trade-off) entre la cohérence de routage locale et l'équilibre de charge local. Les modèles avec une très haute cohérence locale tendent à avoir une distribution d'activation déséquilibrée (certains experts sont très sollicités, d'autres rarement).
Cependant, un équilibre de charge global (sur l'ensemble des requêtes) peut coexister avec une haute cohérence locale. Cela signifie que différents sujets activent différents ensembles d'experts, couvrant ainsi tout le modèle au fil du temps, même si un segment spécifique est très cohérent.

B. Impact de l'Architecture

Experts Partagés (Shared Experts) : La présence d'experts partagés (qui contournent le routage) réduit considérablement la cohérence de routage locale. Cela diminue l'espace des combinaisons d'experts possibles, limitant la capacité du routeur à faire des ajustements locaux fins.
Espace de Combinaison : Une plus grande variété de combinaisons d'experts (plus d'experts actifs ou moins d'experts partagés) favorise une meilleure cohérence locale.
Couches Intercalées : L'intercalage de couches denses et MoE a un impact moins significatif que la présence d'experts partagés.

C. Spécialisation des Experts

Les experts spécialisés par domaine (ex: experts pour le code ou les mathématiques) contribuent davantage à la cohérence de routage locale que les experts spécialisés par vocabulaire.
Les modèles possédant des experts fortement spécialisés par domaine (comme Qwen3, Phi-3.5-MoE, GRIN-MoE) montrent une cohérence locale élevée et un bon équilibre de charge global.

D. Taille Optimale du Cache

L'analyse de la métrique SCH révèle un point de bascule (turning point) pour le ratio de cache $\rho$ (taille du cache / nombre d'experts actifs).
Pour la plupart des modèles, une taille de cache d'environ 2 fois le nombre d'experts actifs ( $\rho \approx 2$ ) offre le meilleur compromis entre l'efficacité du cache (taux de succès) et l'efficacité du déploiement (mémoire utilisée). Au-delà, les gains marginaux diminuent.

4. Contributions Principales

Définition de la Cohérence de Routage Local : Introduction d'une propriété fondamentale des modèles MoE qui détermine leur compatibilité avec l'offloading d'experts.
Nouvelles Métriques (SRP et SCH) : Développement d'outils de mesure quantitatifs pour évaluer cette cohérence, permettant de prédire l'efficacité des systèmes de cache sans avoir à implémenter de systèmes complexes.
Analyse Architecturale et Empirique : Identification des facteurs architecturaux (experts partagés, équilibre de charge) et des types de spécialisation (domaine vs vocabulaire) qui influencent la cohérence.
Recommandation de Déploiement : Établissement d'une règle pratique pour la conception de systèmes d'offloading : une taille de cache de 2x les paramètres actifs est optimale pour la majorité des modèles MoE modernes.

5. Signification et Impact

Ce travail démontre que tous les modèles MoE ne sont pas égaux face à l'offloading d'experts. Certains architectures (comme celles avec des experts partagés ou un routage très aléatoire) souffriront de performances médiocres sur des dispositifs à mémoire limitée, peu importe l'optimisation du système de cache.

Les résultats ouvrent la voie à :

La conception de nouveaux modèles MoE optimisés spécifiquement pour le déploiement sur edge (téléphones, appareils IoT) en favorisant la cohérence de routage locale.
Le développement de systèmes d'inférence adaptatifs qui peuvent choisir des stratégies de cache différentes selon le modèle cible.
Une meilleure compréhension de la dynamique interne des routeurs MoE, reliant la spécialisation des experts à l'efficacité du système.

En résumé, l'article fournit une feuille de route pour le déploiement efficace de modèles MoE massifs sur des ressources contraintes, en soulignant que la structure du modèle est aussi critique que l'optimisation logicielle.