Speculating Experts Accelerates Inference for Mixture-of-Experts

Dit paper introduceert een expert-prefetching-methode die interne modelrepresentaties gebruikt om toekomstige experts te voorspellen, waardoor CPU-GPU-overdrachten tijdens inferentie van Mixture-of-Experts-modellen overlappen met berekeningen en de tijd per output-token tot 14% wordt verkort.

Vivan Madan, Prajwal Singhania, Abhinav Bhatele, Tom Goldstein, Ashwinee Panda

Gepubliceerd 2026-03-23
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische bibliotheek hebt met miljoenen boeken (de kennis van een kunstmatige intelligentie), maar je kunt er maar een paar tegelijk op je bureau houden. De rest staat in een enorme kelder (het CPU-geheugen).

Elke keer als je een vraag stelt, moet de bibliothecaris (de AI) snel een specifiek boek uit de kelder halen, het op je bureau leggen, het lezen, en dan weer terugbrengen voordat hij de volgende vraag kan beantwoorden. Dit heen-en-weer slepen kost enorm veel tijd. De AI zit vaak te wachten op de bibliothecaris in plaats van te denken. Dit is precies het probleem bij moderne, slimme AI-modellen die "Mixture-of-Experts" (MoE) worden genoemd.

Het probleem: De "Wachtrij"
In deze modellen zijn er duizenden kleine experts (boeken) die elk een specifiek onderwerp kennen. De AI moet voor elk woord dat hij zegt, beslissen welk expert hij nodig heeft. Omdat de computergeheugen (GPU) te klein is voor alle experts, moeten ze worden opgeslagen in de langzamere CPU-geheugen.

  • Huidige situatie: De AI denkt na, stopt, wacht tot het juiste boek uit de kelder is gehaald, leest het, en gaat dan pas verder. Dit wachten maakt het hele proces traag.

De oplossing: De "Vooruitziende Blik"
De auteurs van dit paper hebben een slimme truc bedacht: Speculeren (voorspellen).
In plaats van te wachten tot de AI precies weet welk boek hij nodig heeft, kijken ze naar de huidige gedachten van de AI om te raden welk boek hij binnenkort nodig zal hebben.

Hier is hoe het werkt, met een paar creatieve vergelijkingen:

1. De "Quasi-Verborgen Staat" (De Voorspeller)

Stel je voor dat de AI een kok is die een recept maakt.

  • Normaal: De kok wacht tot hij de pan heeft leeggemaakt, om dan pas te beslissen of hij peper of zout nodig heeft. Dan rent hij naar de voorraadkast (CPU) om het te halen.
  • Met deze nieuwe methode: De kok kijkt naar de geur en de damp van de pan terwijl hij nog aan het koken is. Hij ziet dat de soep dikker wordt en denkt: "Ah, binnen een paar seconden ga ik waarschijnlijk zout nodig hebben."
  • De actie: Terwijl de kok nog steeds roert (rekenen), stuurt hij alvast een boodschapper naar de voorraadkast om het zout op te halen. Als de kok het zout echt nodig heeft, ligt het er al klaar. Als hij het niet nodig heeft, is dat ook niet erg; de boodschapper heeft gewoon even gelopen.

In technische termen gebruiken ze een "quasi-verborgen staat". Dit is een soort voorspelling gebaseerd op de huidige input, die zegt: "De volgende stap zal waarschijnlijk Expert A of Expert B nodig hebben."

2. Het Overlappen van Tijden (De Magische Dubbelgang)

Het echte geheim zit in het overlappen.

  • Vroeger: Rekenen -> Wachten -> Rekenen -> Wachten.
  • Nu: Rekenen (terwijl de boodschapper de volgende boeken haalt) -> Rekenen (terwijl de volgende boeken worden gehaald).

De tijd die normaal wordt verspild aan het wachten op de data, wordt nu gebruikt om de volgende data alvast op te halen. Het is alsof je een trein hebt die niet stopt om passagiers in te laten stappen, maar waar de passagiers al in de trein staan voordat de trein überhaupt stopt.

3. Wat als de voorspelling fout is? (De "Gok")

Soms raadt de AI verkeerd. Hij denkt dat hij zout nodig heeft, maar hij heeft juist suiker nodig.

  • Oude methode: Als je een fout raadt, moet je de suiker alsnog uit de kelder halen. Je bent tijd kwijt.
  • Nieuwe methode: De auteurs ontdekten iets verrassends: Het maakt vaak niet uit als je een fout raadt.
    • Als de AI "zout" gebruikt in plaats van "suiker", is het resultaat vaak nog steeds goed genoeg om de zin te begrijpen. De AI is zo slim dat hij de fout kan compenseren.
    • Zelfs als de voorspelling niet 100% klopt, is het sneller dan wachten. Het is beter om een beetje onnauwkeurig te zijn en snel te zijn, dan perfect te zijn en traag.

4. De "Slimme Assistent" (Neurale Schatting)

Bij sommige modellen (zoals Qwen) is de voorspelling in de beginfase wat onzekerder. De geur van de pan is nog niet duidelijk genoeg.
Om dit op te lossen, hebben ze een heel klein, slim hulpmiddel (een "neuraal schatter") getraind. Dit is als een assistent die alleen kijkt naar de eerste paar stappen van het recept en zegt: "Zorg dat je zeker de juiste kruiden hebt, want hier maken mensen vaak fouten."
Dit helpt om de voorspellingen in de kritieke beginfase nauwkeuriger te maken, zonder dat het systeem traag wordt.

Het Resultaat

Door deze techniek toe te passen, kunnen deze enorme AI-modellen 5% tot 14% sneller werken op hardware die niet superkrachtig is (zoals een gewone gaming-PC).

  • Het betekent dat je een slimme AI op je eigen laptop kunt draaien zonder dat het uren duurt om een antwoord te krijgen.
  • Het maakt de "grote" AI-modellen toegankelijk voor gewone mensen, omdat je niet meer een dure server nodig hebt om ze snel te laten draaien.

Samenvattend:
De auteurs hebben een manier gevonden om de AI te leren vooruit te denken. In plaats van te wachten tot hij weet wat hij nodig heeft, haalt hij het alvast op terwijl hij nog aan het werk is. Zelfs als hij een beetje verkeerd raadt, is het resultaat nog steeds goed, en vooral: het is veel sneller. Het is alsof je een auto hebt die niet stopt om te tanken, maar waar de brandstof al in de tank wordt gepompt terwijl je nog rijdt.