The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Each language version is independently generated for its own context, not a direct translation.

De "qs"-ongelijkheid: Waarom slimme AI-modellen soms trager zijn dan je denkt

Stel je voor dat je een enorm groot kantoor bouwt om een superintelligente assistent (een AI) te trainen. Dit kantoor heeft duizenden gespecialiseerde experts in dienst: sommigen zijn goed in wiskunde, anderen in geschiedenis, weer anderen in poëzie.

Dit is hoe MoE-modellen (Mixture-of-Experts) werken. In plaats dat één grote, saaie persoon alles moet doen, roep je bij elke vraag alleen de experts aan die je nodig hebt. Dit is heel efficiënt tijdens het leren (training): je gebruikt minder energie en tijd omdat niet iedereen tegelijk aan het werk hoeft.

Maar, zo zegt dit nieuwe onderzoek van AMD, er zit een groot probleem in als je deze assistent daadwerkelijk gaat gebruiken (inference), vooral als je heel lange verhalen of documenten laat lezen. Het kantoor raakt dan in de war en wordt juist trager dan een kantoor met één grote, alles-kunnende persoon.

Hier is hoe dat werkt, vertaald naar alledaagse beelden:

1. Het probleem: De "Reis naar de Expert"

Stel je voor dat je een klas van 100 leerlingen hebt (de data).

Bij een "Dicht" model (Dense): Alle 100 leerlingen zitten in één grote zaal. De leraar (de AI) loopt naar het bord, pakt één set lesmateriaal en geeft het aan iedereen. Het materiaal wordt één keer opgehaald en door iedereen gebruikt. Dit is heel efficiënt.
Bij een "MoE" model: De klas is verdeeld over 100 verschillende kleine kamers (de experts). Als de leraar een les moet geven, moet hij eerst beslissen: "Jij gaat naar kamer 3, jij naar kamer 50, jij naar kamer 12."
- Het probleem: De leraar moet nu constant heen en weer rennen om materiaal uit 100 verschillende kamers te halen. Omdat de groepen in elke kamer klein zijn, moet hij het materiaal vaak opnieuw ophalen. Hij staat meer te rennen dan te werken.

In de AI-wereld noemen ze dit "Reuse Fragmentation" (hergebruik-fragmentatie). De "materiaal" is de kennis van de AI. Bij MoE wordt deze kennis versnipperd, waardoor de computer meer tijd kwijt is aan het ophalen van data dan aan het rekenen.

2. De tweede klap: De "Parkeergarage"

Nu komt de tweede, nog erger, klap.
Stel je voor dat je een parkeergarage hebt (het geheugen van de computer).

Bij het Dichte model heb je één grote auto nodig. Er is veel ruimte over voor de "herinneringen" (de KV-cache) die de AI nodig heeft om te onthouden wat hij net heeft gezegd in een lang gesprek.
Bij het MoE-model moet je alle experts in de garage parkeren, ook diegene die op dat moment niet werken. Je hebt dus 100 auto's nodig in plaats van 1.
- Het gevolg: De garage zit vol met geparkeerde experts. Er is bijna geen ruimte meer over voor de "herinneringen" van het gesprek. Als het gesprek lang wordt (bijvoorbeeld een heel boek), moet je de groep leerlingen (de batch) verkleinen zodat ze allemaal in de garage passen.
- Het resultaat: Je hebt nu minder leerlingen per expert, wat betekent dat de leraar nog vaker moet rennen om materiaal te halen. Het is een vicieuze cirkel.

3. De "qs"-regel (De qs-ongelijkheid)

De auteurs van het paper hebben een simpele formule bedacht om te voorspellen wanneer dit misgaat. Ze noemen het de qs-ongelijkheid.

q (Kwaliteit): Hoeveel groter moet een "Dicht" model zijn om even slim te zijn als het MoE-model? (Vaak moet het 4 tot 5 keer zo groot zijn).
s (Sparsiteit): Hoeveel experts worden er eigenlijk gebruikt? (Bij MoE is dit vaak heel klein, bijvoorbeeld 1 op de 100).

De regel is simpel: Als q × s < 1, dan is het MoE-model trager dan het Dichte model, zelfs als het MoE-model slimmer lijkt tijdens het trainen.

Bij de meeste moderne, super-slimme AI-modellen is dit product kleiner dan 1. Dat betekent: Je betaalt een hoge prijs in snelheid voor de slimheid die je tijdens het trainen hebt gekocht.

4. Wat betekent dit voor de toekomst?

Het onderzoek toont aan dat bij het lezen van lange teksten (zoals hele boeken of uur lange video's), de Dichte modellen vaak 4 tot 5 keer sneller zijn dan de MoE-modellen.

Korte context: MoE kan soms nog winnen als de internetverbinding (communicatie) heel snel is.
Lange context: De "parkeergarage" zit vol en de "leraar" moet te veel rennen. Dan wint het Dichte model altijd.

De conclusie in één zin:
MoE is een fantastische truc om AI snel en goedkoop te leren (training), maar het is vaak een slecht idee om diezelfde architectuur direct te gebruiken om de AI te laten werken (inference).

De oplossing?
Misschien moeten we AI-modellen zo bouwen dat ze eerst leren met MoE (om slim te worden), en daarna die kennis "overzetten" naar een Dicht model voor het daadwerkelijke gebruik. Zo krijg je het beste van twee werelden: de slimheid van MoE en de snelheid van een Dicht model.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "The qs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference" in het Nederlands.

Titel: De qs-ongelijkheid: Het kwantificeren van de dubbele straf van Mixture-of-Experts bij inferentie

1. Het Probleem

Mixture-of-Experts (MoE) modellen zijn populair geworden omdat ze extreem grote modelcapaciteiten mogelijk maken met een relatief lage trainingskost (FLOPs) door slechts een klein deel van de parameters per token te activeren. Echter, dit paper identificeert een fundamenteel probleem: de efficiëntie die tijdens het trainen wordt bereikt, verdwijnt vaak volledig tijdens de inferentie (decoding).

De auteurs stellen dat de inferentie van autoregressieve modellen (zoals LLM's) niet wordt gedomineerd door rekenkracht (FLOPs), maar door geheugenbandbreedte en data-overdracht. MoE-architectures lijden hieronder door een "dubbele straf":

Fragmentatie van hergebruik (Reuse Fragmentation): Expert-routing verdeelt een microbatch over verschillende experts. Dit vermindert de kans dat gewichten worden hergebruikt binnen een batch, waardoor de FFN (Feed-Forward Network) uitvoering bandbreedte-gebonden wordt in plaats van rekenkracht-gebonden.
Verlies van geheugenruimte voor KV-cache: Omdat het volledige pool van experts in het High-Bandwidth Memory (HBM) moet blijven resident, neemt MoE meer geheugen in beslag dan een vergelijkbaar dicht model. Dit laat minder ruimte over voor de Key-Value (KV) cache, wat de maximale batchgrootte beperkt, vooral bij lange contexten.

2. Methodologie

De auteurs ontwikkelen een analytisch kader om de inferentie-efficiëntie te modelleren, gebaseerd op de volgende principes:

Het Hergebruiksprincipe: Inferentie-efficiëntie hangt af van het aantal tokens dat elke gewichtslezing hergebruikt, niet van het aantal vermeden FLOPs. Dichte modellen amortiseren gewichtsoverdracht over de hele batch; MoE doet dit niet onder realistische inferentiecondities.
Latentie-decompositie: De per-token latentie wordt opgesplitst in $T_{ffn}$ (FFN), $T_{attn}$ (Attention) en $T_{comm}$ (Communicatie). De auteurs tonen aan dat bij lange contexten $T_{ffn}$ (geheugengebonden) de dominante factor wordt.
De qs-ongelijkheid: De auteurs leiden een voorspellend criterium af dat twee factoren combineert:
- $s$ (Sparsity): Het fractie van geactiveerde parameters per token ( $s = k/E$ , waarbij $k$ het aantal experts en $E$ het totaal is).
- $q$ (Quality-equivalence factor): De vermenigvuldigingsfactor die nodig is voor een dicht model om dezelfde kwaliteit (verlies) te bereiken als het MoE-model.
- De ongelijkheid: Als $qs < 1$ , is het MoE-model structureel nadelig ten opzichte van een dicht model van gelijke kwaliteit. In dit regime verplaatst het MoE-model meer gewichtsbytes per token dan het dichte model.
Evaluatie: Het paper gebruikt een gedetailleerd kostenmodel voor de decode-fase, rekening houdend met HBM-capaciteit, KV-cache-residentie, en parallelle strategieën (Tensor, Expert, Pipeline Parallelism). Er wordt getest op frontier-modellen zoals DeepSeek-V3, Qwen3-235B, Grok-1 en Switch-C op GPU-clusters.

3. Belangrijkste Bijdragen

Identificatie van Weight Reuse: De auteurs stellen dat gewichtshergebruik (en niet het FLOP-aantal) de sleutelbepaler is voor inferentie-efficiëntie.
Formalisatie van Reuse Fragmentation: Ze tonen wiskundig aan dat de hergebruiksfactor bij MoE schaalt als $R_{moe} \approx B \cdot (k/E)$ , wat leidt tot een drastische daling van de efficiëntie bij kleine batches of lange contexten.
De qs-ongelijkheid: Een nieuwe, compacte regel ( $qs < 1$ ) die voorspelt wanneer MoE inferentie structureel minder goed presteert dan een dichte tegenhanger.
Empirische Validatie: Kwantificering van capaciteits- en throughput-effecten bij moderne MoE-modellen, waarbij wordt aangetoond dat dichte modellen tot 5,3x hogere throughput kunnen bereiken bij gelijke kwaliteit.

4. Resultaten

De evaluatie op state-of-the-art modellen levert de volgende bevindingen op:

DeepSeek-V3 (128k context): Een kwaliteits-gematcht dicht model (Dense-5) behaalt een 4,5x hogere throughput dan het MoE-model. Bij kortere contexten (16k) is dit verschil zelfs 5,3x.
Oorzaak van het verschil:
- Bij korte contexten is het verschil voornamelijk communicatie-gedreven (All-to-All collectieven voor routing kosten veel tijd bij grote batches).
- Bij lange contexten (128k) wordt het verschil geheugen-gedreven. Het MoE-model heeft minder ruimte voor KV-cache, wat de batchgrootte verkleint. Hierdoor wordt de FFN-executie volledig bandbreedte-gebonden, terwijl het dichte model nog steeds efficiënter gewichten kan hergebruiken.
Switch-C (Extreme Sparsity): Bij modellen met extreme sparsity (zoals Switch-C met 2048 experts) is inferentie bij lange contexten (128k) onmogelijk op een standaard cluster, omdat de residentie van alle experts het geheugen vollegt. Een dicht model van gelijke kwaliteit blijft hier wel uitvoerbaar.
Grok-1: Dit model heeft een grovere sparsity en presteert beter, maar zelfs hier is het dichte model sneller (1,6x tot 2,3x, afhankelijk van de gekozen kwaliteitsfactor $q$ ).

5. Betekenis en Conclusie

Het paper concludeert dat trainings-efficiëntie (FLOPs) een onbetrouwbare proxy is voor inferentie-efficiëntie, vooral bij lange contexten.

Architecturale Implicatie: MoE is misschien wel het beste te zien als een trainings-optimalisatie. De voordelen van sparsity tijdens het trainen (meer capaciteit voor dezelfde rekenkosten) vertalen zich niet naar inferentievoordelen.
Aanbevolen Strategie: Een praktische aanpak zou kunnen zijn om MoE te gebruiken voor training, gevolgd door distillatie naar een dicht model voor de inferentie-deployment. Dit combineert de trainingsvoordelen van MoE met de inferentie-efficiëntie van dichte modellen.
Toekomst: Voor MoE om echt competitief te zijn bij inferentie, zijn er doorbraken nodig in netwerkstacks (lagere latentie collectieven) of moet de contextlengte extreem groot zijn (miljoenen tokens) waar de batchgrootte zo klein wordt dat het hergebruik van dichte modellen ook instort.

Kortom, de "qs-ongelijkheid" biedt een wiskundige basis om te begrijpen waarom de hype rond MoE-inferentie mogelijk overschat is en waarom dichte modellen in veel realistische scenario's superieur kunnen zijn.

The qsqsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

1. Het probleem: De "Reis naar de Expert"

2. De tweede klap: De "Parkeergarage"

3. De "qs"-regel (De qs-ongelijkheid)

4. Wat betekent dit voor de toekomst?

Titel: De qs-ongelijkheid: Het kwantificeren van de dubbele straf van Mixture-of-Experts bij inferentie

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference