Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

Each language version is independently generated for its own context, not a direct translation.

🧠 De "Super-Team" die niet altijd samenwerkt

Stel je een heel groot kunstmatige intelligentie (een LLM) voor als een gigantisch kantoor met duizenden specialisten. Dit zijn de "Experts".
Normaal gesproken zou je voor elke vraag die je stelt, alle specialisten moeten raadplegen. Dat is echter te duur en te traag, vooral op een telefoon of een kleine laptop.

Daarom gebruiken moderne AI-modellen een slimme truc: Mixture-of-Experts (MoE).
In plaats van iedereen te laten werken, kijkt een "Router" (een manager) naar je vraag en roept hij slechts een paar specialisten bij elkaar. De rest blijft slapen. Dit maakt het sneller en zuiniger.

🚚 Het probleem: De vrachtwagen is te klein

Het probleem is dat al die specialisten (de "experts") in het geheugen van je apparaat moeten staan om te kunnen werken. Maar op een telefoon is het geheugen vaak te klein om alle specialisten tegelijk te houden.

De oplossing? Expert Offloading (uitwaaieren).
Je houdt een kleine, snelle kast (het geheugen van je telefoon) vol met de specialisten die je nu waarschijnlijk nodig hebt. De rest van de specialisten staan in een grote, trage schuur (het CPU-geheugen of de harde schijf).

Als de manager een specialist nodig heeft die in de trage schuur staat, moet hij die eerst ophalen. Dat kost tijd. Als dit te vaak gebeurt, wordt je telefoon traag en begint hij te blozen.

❓ De grote vraag: Is de manager voorspelbaar?

De onderzoekers van dit paper (uit 2026) vroegen zich af: Is de manager voorspelbaar?
Als je een verhaal schrijft, vraagt de manager vaak dezelfde specialisten om hulp voor een hele reeks zinnen.

Voorbeeld: Als je over wiskunde praat, roep je 10 keer op rij dezelfde wiskundige specialist.
Voorbeeld: Als je over koken praat, roep je 10 keer op rij dezelfde kok.

Als dit gebeurt, is het makkelijk: je houdt die specialisten in je snelle kast en je hoeft ze niet steeds uit de trage schuur te halen. Dit noemen ze "Lokale Routingsconsistentie".

Maar... werkt dit bij alle modellen? Nee. Sommige modellen wisselen hun specialisten zo vaak en zo willekeurig dat je kast nooit vol genoeg is. Dan moet je constant naar de trage schuur rennen, en dat is een ramp voor de snelheid.

🔍 Wat hebben ze ontdekt? (De Metingen)

De onderzoekers hebben 20 verschillende AI-modellen onderzocht en twee nieuwe meetinstrumenten bedacht om te zien hoe goed een model zich laat "cachen" (in de snelle kast houden):

SRP (Segment Routing Best Performance):
- Analogie: Stel je voor dat je een voorspelling doet: "Als ik de komende 10 zinnen over 'koken' praat, welke specialisten heb ik dan nodig?"
- Als je met één groepje specialisten die 10 zinnen perfect kunt afhandelen, is je model consistent.
- Als je voor elke zin een nieuwe specialist nodig hebt, is je model chaotisch.
SCH (Segment Cache Best Hit Rate):
- Analogie: Dit is de test voor de "trage schuur". Hoe vaak moet je echt naar de schuur rennen als je een slimme strategie gebruikt?
- Een hoge score betekent: "Je hoeft bijna nooit naar de schuur, alles zit al in de snelle kast."

💡 De belangrijkste conclusies

1. Niet alle modellen zijn even goed voor telefoons
Sommige modellen (zoals LLaMA-MoE-v2 en OLMoE) gedragen zich als een goed georganiseerd team. Ze blijven lang bij dezelfde specialisten. Deze zijn perfect om op een telefoon te draaien.
Andere modellen (zoals SwitchTransformers) springen als gekken van de ene specialist naar de andere. Die zijn heel lastig om op een telefoon te laten werken; ze worden dan erg traag.

2. De "Gedeelde" specialisten zijn een valkuil
Sommige modellen hebben "gedeelde experts" (specialisten die altijd meedoen, ongeacht de vraag).

Analogie: Het is alsof je een team hebt waar 5 mensen altijd aanwezig zijn, maar de rest van de 50 mensen willekeurig wisselt.
Het onderzoek toont aan dat dit slecht is voor de consistentie. Het maakt het voor de manager moeilijker om te voorspellen wie hij nodig heeft, waardoor je vaker naar de trage schuur moet.

3. Specialisten voor specifieke onderwerpen zijn goud waard
Modellen die specialisten hebben die echt goed zijn in één ding (bijvoorbeeld alleen wiskunde of alleen code), werken het beste.

Analogie: Als je een wiskundevraag stelt, roept de manager altijd dezelfde wiskundige. Dat is voorspelbaar!
Modellen die specialisten hebben die alleen goed zijn in bepaalde woorden (maar niet per se onderwerpen), zijn minder voorspelbaar.

4. De magische kastgrootte: 2x zo groot
Hoe groot moet die snelle kast (cache) zijn?
De onderzoekers ontdekten dat de kast ongeveer twee keer zo groot moet zijn als het aantal specialisten dat je normaal gesproken per vraag nodig hebt.

Voorbeeld: Als je normaal 2 specialisten nodig hebt, houd er dan 4 in de snelle kast. Dan heb je de perfecte balans tussen snelheid en geheugengebruik.

🚀 Waarom is dit belangrijk?

Dit onderzoek helpt ontwikkelaars om AI-modellen te bouwen die echt op je telefoon kunnen werken, zonder dat je batterij direct leeg is of dat het apparaat bevriest.

Door te kiezen voor modellen met een hoge "lokale consistentie" (voorspelbare specialisten) en de juiste kastgrootte, kunnen we in de toekomst superkrachtige AI hebben die direct in je broekzak past, zonder dat je internet nodig hebt.

Kort samengevat:
Niet elke AI is geschikt om op een telefoon te draaien. Sommige modellen wisselen hun "hulpjes" te vaak. Door te kijken naar hoe voorspelbaar een model is, kunnen we bepalen welke modellen snel werken op kleine apparaten en welke niet. De sleutel is: voorspelbaarheid en een slimme opslagstrategie.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Mixture-of-Experts (MoE) modellen zijn een populaire architectuur voor het schalen van Large Language Models (LLMs) door slechts een subset van experts (neuronale netwerken) te activeren per token. Dit zorgt voor efficiëntie, maar vereist dat alle experts in het geheugen geladen zijn, wat problematisch is voor apparaten met beperkt geheugen (zoals mobiele telefoons).
Om dit op te lossen, wordt expert offloading gebruikt: een subset van experts wordt in snel geheugen (GPU) bewaard, terwijl de rest in langzamere opslag (CPU/RAM) blijft. Systemen laden experts dynamisch in of berekenen ze op de CPU als ze niet in het cache-geheugen zitten.
Echter, frequente CPU-offloads of het laden van experts op vraag vertragen de inferentie aanzienlijk. Bestaande systemen vertrouwen op het idee dat er lokale consistentie is in de routering: opeenvolgende tokens activeren vaak dezelfde experts, waardoor caching effectief is. Het paper stelt dat deze consistentie niet universeel is; sommige modellen vertonen dit patroon sterk, andere nauwelijks. Het ontbreekt aan een systematische meting en begrip van welke modelarchitecturen hier geschikt voor zijn.

Methodologie

De auteurs introduceren twee nieuwe metrieken om de lokale routeringsconsistentie (Local Routing Consistency - LRC) kwantitatief te meten:

Segment Routing Best Performance (SRP):
- Dit meet hoe goed een vereenvoudigde "segment-router" (die voor een blok van $m$ tokens dezelfde experts kiest) de beslissingen van de originele token-per-token router kan benaderen.
- Het wordt berekend als de maximale F1-score die haalbaar is voor een segment-benadering. Een hoge SRP betekent dat experts binnen een segment consistent worden geactiveerd.
- SRP is modelonafhankelijk en analyseert de intrinsieke eigenschappen van de experts.
Segment Cache Best Hit Rate (SCH):
- Dit simuleert een ideale (oracle) cache met een harde limiet op het aantal experts dat tegelijkertijd in het snelle geheugen kan zitten.
- De cache verwijdert experts die in de komende $m$ tokens het minst vaak worden geactiveerd.
- SCH meet de hit-rate van deze ideale cache. Het fungeert als een brug tussen de theoretische consistentie (SRP) en de praktische prestaties van offloading-systemen.

Experimenten:

Datasets: 20 verschillende MoE-LLMs (van 3B tot 57B parameters), waaronder populaire modellen zoals Mixtral, DeepSeek-V2, Qwen3 en Jamba.
Toy Models: Een reeks aangepaste OLMoE-achtige modellen (1.43B parameters) die vanaf nul zijn getraind met gevarieerde architecturale parameters (bijv. aantal gedeelde experts, load-balancing loss, expert-granulariteit) om causale factoren te isoleren.
Data: Een corpus van 22.528 samples afkomstig uit diverse domeinen (code, wiskunde, algemene tekst, etc.).

Belangrijkste Bijdragen

Definitie en Meting van LRC: De paper introduceert het concept van lokale routeringsconsistentie en biedt twee robuuste metrieken (SRP en SCH) om dit te kwantificeren.
Empirische Analyse: Een uitgebreide studie van 20 bestaande modellen en 10 toy-modellen om te bepalen welke architecturale keuzes consistentie bevorderen of belemmeren.
Ontdekking van Trade-offs: Het inzicht dat lokale consistentie vaak ten koste gaat van lokale load-balancing, maar dat globale load-balancing wel kan samengaan met hoge consistentie.
Praktische Richtlijnen: Een aanbeveling voor de optimale cache-grootte voor MoE-deployments.

Kernresultaten

Variatie in Consistentie: Niet alle modellen zijn even geschikt voor offloading. Modellen zoals LLaMA-MoE-v2 en OLMoE tonen zeer hoge SRP-waarden (sterke consistentie), terwijl modellen als SwitchTransformers en NLLB-MoE lage waarden vertonen.
Factoren die Consistentie Beïnvloeden:
- Load Balancing: Er is een sterke trade-off. Modellen met een zeer strikte load-balancing (gelijke activatie van alle experts) hebben vaak lage lokale consistentie. Modellen met een ongelijkmatige verdeling (sommige experts worden veel vaker gebruikt) hebben juist hoge consistentie.
- Gedeelde Experts (Shared Experts): Het gebruik van gedeelde experts (experts die altijd actief zijn, ongeacht de routering) verlaagt de lokale consistentie aanzienlijk. Dit beperkt de ruimte voor expert-combinaties en maakt het moeilijker om lokale patronen te vormen.
- Expert Combinatie Ruimte: Een grotere ruimte voor mogelijke expert-combinaties (meer experts, minder gedeelde experts) bevordert consistentie.
Specialisatie van Experts:
- Domein-specialisatie: Experts die gespecialiseerd zijn in specifieke domeinen (bijv. wiskunde of code) dragen het meest bij aan lokale consistentie. Als de context binnen dat domein blijft, worden dezelfde experts consistent geactiveerd.
- Vocabulaire-specialisatie: Specialisatie op basis van specifieke woorden (vocabulaire) heeft een veel kleinere impact op consistentie dan domein-specialisatie.
Optimale Cache Grootte:
- De analyse van SCH toont aan dat voor de meeste modellen een cache-grootte van ongeveer 2x het aantal actieve experts het beste evenwicht biedt tussen cache-efficiëntie (hit-rate) en geheugenefficiëntie.
- Modellen met hoge consistentie vertonen een "knie" in hun prestatiecurve rond $\rho = 2$ (cache ratio).

Betekenis en Impact

Deze bevindingen zijn cruciaal voor de toekomstige ontwikkeling en deploy van MoE-modellen, vooral op randapparatuur (edge devices):

Modelontwerp: Ontwikkelaars kunnen nu bewust kiezen voor architecturale keuzes (zoals het vermijden van gedeelde experts en het toestaan van ongelijkmatige load-balancing) om modellen "offloading-vriendelijk" te maken zonder de inferentiesnelheid te verliezen.
Systeemoptimalisatie: Het inzicht dat cache-groottes van 2x de actieve parameters ideaal zijn, helpt bij het dimensioneren van geheugen op mobiele apparaten en servers.
Selectie van Modellen: Niet elk MoE-model is geschikt voor offloading. Systemen die op beperkt geheugen draaien, moeten modellen kiezen met hoge lokale routeringsconsistentie (zoals de Group 1 modellen in de studie) om trage CPU-offloads te minimaliseren.

Kortom, het paper levert het theoretische en empirische fundament om MoE-modellen efficiënter te maken voor real-world toepassingen met beperkte resources, door de intrinsieke routeringspatronen van de modellen te begrijpen en te benutten.

Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

🧠 De "Super-Team" die niet altijd samenwerkt

🚚 Het probleem: De vrachtwagen is te klein

❓ De grote vraag: Is de manager voorspelbaar?

🔍 Wat hebben ze ontdekt? (De Metingen)

💡 De belangrijkste conclusies

🚀 Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Kernresultaten

Betekenis en Impact

Meer zoals dit

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models