Each language version is independently generated for its own context, not a direct translation.
De "qs"-ongelijkheid: Waarom slimme AI-modellen soms trager zijn dan je denkt
Stel je voor dat je een enorm groot kantoor bouwt om een superintelligente assistent (een AI) te trainen. Dit kantoor heeft duizenden gespecialiseerde experts in dienst: sommigen zijn goed in wiskunde, anderen in geschiedenis, weer anderen in poëzie.
Dit is hoe MoE-modellen (Mixture-of-Experts) werken. In plaats dat één grote, saaie persoon alles moet doen, roep je bij elke vraag alleen de experts aan die je nodig hebt. Dit is heel efficiënt tijdens het leren (training): je gebruikt minder energie en tijd omdat niet iedereen tegelijk aan het werk hoeft.
Maar, zo zegt dit nieuwe onderzoek van AMD, er zit een groot probleem in als je deze assistent daadwerkelijk gaat gebruiken (inference), vooral als je heel lange verhalen of documenten laat lezen. Het kantoor raakt dan in de war en wordt juist trager dan een kantoor met één grote, alles-kunnende persoon.
Hier is hoe dat werkt, vertaald naar alledaagse beelden:
1. Het probleem: De "Reis naar de Expert"
Stel je voor dat je een klas van 100 leerlingen hebt (de data).
- Bij een "Dicht" model (Dense): Alle 100 leerlingen zitten in één grote zaal. De leraar (de AI) loopt naar het bord, pakt één set lesmateriaal en geeft het aan iedereen. Het materiaal wordt één keer opgehaald en door iedereen gebruikt. Dit is heel efficiënt.
- Bij een "MoE" model: De klas is verdeeld over 100 verschillende kleine kamers (de experts). Als de leraar een les moet geven, moet hij eerst beslissen: "Jij gaat naar kamer 3, jij naar kamer 50, jij naar kamer 12."
- Het probleem: De leraar moet nu constant heen en weer rennen om materiaal uit 100 verschillende kamers te halen. Omdat de groepen in elke kamer klein zijn, moet hij het materiaal vaak opnieuw ophalen. Hij staat meer te rennen dan te werken.
In de AI-wereld noemen ze dit "Reuse Fragmentation" (hergebruik-fragmentatie). De "materiaal" is de kennis van de AI. Bij MoE wordt deze kennis versnipperd, waardoor de computer meer tijd kwijt is aan het ophalen van data dan aan het rekenen.
2. De tweede klap: De "Parkeergarage"
Nu komt de tweede, nog erger, klap.
Stel je voor dat je een parkeergarage hebt (het geheugen van de computer).
- Bij het Dichte model heb je één grote auto nodig. Er is veel ruimte over voor de "herinneringen" (de KV-cache) die de AI nodig heeft om te onthouden wat hij net heeft gezegd in een lang gesprek.
- Bij het MoE-model moet je alle experts in de garage parkeren, ook diegene die op dat moment niet werken. Je hebt dus 100 auto's nodig in plaats van 1.
- Het gevolg: De garage zit vol met geparkeerde experts. Er is bijna geen ruimte meer over voor de "herinneringen" van het gesprek. Als het gesprek lang wordt (bijvoorbeeld een heel boek), moet je de groep leerlingen (de batch) verkleinen zodat ze allemaal in de garage passen.
- Het resultaat: Je hebt nu minder leerlingen per expert, wat betekent dat de leraar nog vaker moet rennen om materiaal te halen. Het is een vicieuze cirkel.
3. De "qs"-regel (De qs-ongelijkheid)
De auteurs van het paper hebben een simpele formule bedacht om te voorspellen wanneer dit misgaat. Ze noemen het de qs-ongelijkheid.
- q (Kwaliteit): Hoeveel groter moet een "Dicht" model zijn om even slim te zijn als het MoE-model? (Vaak moet het 4 tot 5 keer zo groot zijn).
- s (Sparsiteit): Hoeveel experts worden er eigenlijk gebruikt? (Bij MoE is dit vaak heel klein, bijvoorbeeld 1 op de 100).
De regel is simpel: Als q × s < 1, dan is het MoE-model trager dan het Dichte model, zelfs als het MoE-model slimmer lijkt tijdens het trainen.
Bij de meeste moderne, super-slimme AI-modellen is dit product kleiner dan 1. Dat betekent: Je betaalt een hoge prijs in snelheid voor de slimheid die je tijdens het trainen hebt gekocht.
4. Wat betekent dit voor de toekomst?
Het onderzoek toont aan dat bij het lezen van lange teksten (zoals hele boeken of uur lange video's), de Dichte modellen vaak 4 tot 5 keer sneller zijn dan de MoE-modellen.
- Korte context: MoE kan soms nog winnen als de internetverbinding (communicatie) heel snel is.
- Lange context: De "parkeergarage" zit vol en de "leraar" moet te veel rennen. Dan wint het Dichte model altijd.
De conclusie in één zin:
MoE is een fantastische truc om AI snel en goedkoop te leren (training), maar het is vaak een slecht idee om diezelfde architectuur direct te gebruiken om de AI te laten werken (inference).
De oplossing?
Misschien moeten we AI-modellen zo bouwen dat ze eerst leren met MoE (om slim te worden), en daarna die kennis "overzetten" naar een Dicht model voor het daadwerkelijke gebruik. Zo krijg je het beste van twee werelden: de slimheid van MoE en de snelheid van een Dicht model.