Speculating Experts Accelerates Inference for Mixture-of-Experts

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der „Koch", der ständig in den Keller rennt

Stell dir ein riesiges KI-Modell (wie einen super-intelligenten Koch) vor, der Texte schreibt. Um so intelligent zu sein, hat dieser Koch nicht nur ein großes Kochbuch, sondern tausende verschiedene Spezial-Rezepte (die sogenannten „Experten").

Das Problem ist: Der Koch (die Grafikkarte/GPU) ist sehr klein und hat nur wenig Platz auf dem Tresen, um alle Rezepte gleichzeitig auszubreiten. Die meisten Rezepte müssen im Keller (dem Arbeitsspeicher des Computers/CPU) lagern.

Wenn der Koch ein neues Wort schreiben will, muss er:

Überlegen, welches Rezept er braucht (das ist schnell).
In den Keller rennen, das Rezept holen und auf den Tresen legen (das ist langsam!).
Das Rezept kochen (das ist schnell).

In der aktuellen Technik rennt der Koch für jedes neue Wort in den Keller. Das Warten auf den Keller (den Datentransfer) dauert so lange, dass der Koch eigentlich gar nicht mehr kochen kann. Er steht nur rum und wartet. Das ist wie ein Ferrari, der im Stau steht.

Die Lösung: „Spekulatives Vorhersagen" (Der kluge Assistent)

Die Autoren dieses Papers haben eine geniale Idee: Warum warten, bis der Koch weiß, was er als Nächstes braucht? Lass ihn es erraten!

Sie haben einen klugen Assistenten (den „Router") entwickelt, der dem Koch sagt: „Hey, basierend auf dem, was du gerade kochst, wirst du in der nächsten Sekunde wahrscheinlich Rezept A brauchen. Ich bringe das schon mal aus dem Keller hoch, während du Rezept B fertigkochst."

Das nennt man Vorhersage (Prefetching).

Wie funktioniert das Erraten?

Normalerweise muss der Koch erst das Rezept fertigkochen, um zu sehen, was als Nächstes kommt. Die Forscher haben aber entdeckt, dass der Koch schon während des Kochens kleine Signale aussendet (wie eine Art „Gedankenblitz" oder eine Vorahnung).

Sie haben eine Art Wettervorhersage für die Rezepte entwickelt:

Sie schauen sich an, was der Koch gerade tut.
Sie nutzen eine einfache Formel (die „Quasi-Versteckte-Form"), um zu raten: „Aha, bei diesem Wetter (diesem Text) wird er wahrscheinlich Rezept A brauchen."
Während der Koch noch an Rezept B arbeitet, wird Rezept A schon aus dem Keller geholt.

Der Clou: Wenn die Vorhersage stimmt (was sehr oft passiert), spart man sich den Lauf in den Keller komplett. Wenn sie falsch liegt, muss der Koch trotzdem noch schnell das richtige Rezept holen, aber das passiert selten genug, dass es sich lohnt.

Ein Bild aus dem Alltag: Die Pizza-Bestellung

Stell dir eine Pizza-Kette vor:

Der alte Weg (On-Demand): Der Kunde bestellt eine Pizza. Der Kellner rennt in die Küche, holt die Zutaten, macht die Pizza, bringt sie raus. Dann kommt der nächste Kunde. Der Kellner rennt wieder in die Küche. Viel Lauferei, wenig Pizza-Essen.
Der neue Weg (Spekulatives Vorhersagen): Der Kellner kennt den Kunden. Er weiß: „Wenn Herr Müller eine Margherita bestellt, bestellt er fast immer danach eine Pizza mit Pilzen."
- Während Herr Müller seine Margherita isst, holt der Kellner schon die Pilze aus dem Keller und legt sie bereit.
- Wenn Herr Müller die Pilze bestellt, sind sie schon da! Kein Warten mehr.

Was haben die Forscher herausgefunden?

Es funktioniert super: In Tests konnten sie die Zeit, die der Koch für ein Wort braucht, um bis zu 14 % verkürzen. Das klingt nach wenig, aber bei tausenden Wörtern ist das wie eine ganze Stunde Zeitersparnis.
Es ist sicher: Manchmal sagt der Assistent das falsche Rezept voraus. Aber die Forscher haben gezeigt: Selbst wenn er sich mal irrt, wird das Ergebnis (der Text) nicht schlechter. Der Koch kann das richtige Rezept einfach schnell nachholen, ohne dass der Kunde merkt, dass etwas schiefgelaufen ist.
Ein kleiner Trick für schwierige Fälle: Bei manchen sehr komplexen Modellen (wie dem „Qwen"-Modell) war die Vorhersage in den ersten Schritten unsicher. Dafür haben sie einen kleinen, schnellen „Lern-Assistenten" (eine Art Mini-KI) trainiert, der nur für diese schwierigen Schritte die richtigen Rezepte vorhersagt. Das hat die Genauigkeit wieder auf ein hohes Niveau gebracht.

Warum ist das wichtig?

Früher waren diese riesigen, intelligenten KI-Modelle nur auf teuren Super-Computern in Rechenzentren möglich. Mit dieser Technik können wir diese Modelle effizienter machen.

Das bedeutet: Wir können diese super-intelligenten KIs bald auf ganz normalen Laptops oder sogar auf deinem Handy laufen lassen, ohne dass sie so langsam werden, weil sie ständig Daten laden müssen. Es macht die KI zugänglicher und schneller für alle.

Zusammengefasst: Die Forscher haben dem KI-Koch beigebracht, seine nächsten Schritte zu erraten, damit er nicht mehr so oft in den Keller rennen muss. Ergebnis: Die KI wird schneller, bleibt aber genauso schlau.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Mixture-of-Experts (MoE)-Modelle haben sich als effiziente Architektur zum Skalieren von Large Language Models (LLMs) etabliert, da sie durch spärliche Aktivierungen die Parameteranzahl erhöhen, ohne den Rechenaufwand pro Token proportional zu steigern.
Das Hauptproblem entsteht jedoch in speicherbeschränkten Inferenzumgebungen (z. B. auf Consumer-GPUs mit begrenztem VRAM). Da die Gesamtgröße der Experten-Parameter die GPU-Speicherkapazität übersteigt, müssen die meisten Experten auf den CPU-RAM ausgelagert werden.

Der Engpass: Während der Dekodierungsphase (Decode-Phase) müssen die für das aktuelle Token benötigten Experten-Weights von der CPU zur GPU transferiert werden.
Folge: Diese CPU-GPU-Transfers dominieren die Latenz pro Ausgabetoken (Time Per Output Token, TPOT). In Tests (z. B. Qwen3-30B-A3B auf einer A6000 GPU) machten diese Transfers 84–88 % der TPOT aus, während die eigentliche Berechnung nur einen kleinen Bruchteil einnahm. Herkömmliche „On-Demand"-Ladeverfahren blockieren die GPU, bis die Daten angekommen sind, was den Durchsatz drastisch reduziert.

2. Methodik

Die Autoren schlagen ein Experten-Prefetching-Schema vor, das zukünftige Experten-Selektionen vorhersagt, um Speichertransfers mit Berechnungen zu überlappen (Overlap).

A. Vorhersage durch interne Repräsentationen

Anstatt auf externe Modelle oder komplexe Scheduler zu setzen, nutzt das System interne Zustände des MoE-Modells selbst:

Default Vector ( $d_l$ ): Ein offline berechneter Vektor, der die durchschnittliche Aktivierung eines Experten repräsentiert.
Quasi-Hidden State ( $q_l$ ): Dies ist der Kern der Vorhersage. Er wird aus dem normalisierten Residual-Stream ( $r_l$ ) und dem Default Vector ( $d_l$ ) der aktuellen Schicht $l$ berechnet:
$q_l = \text{LN}_{l+1}(d_l + r_l)$
Dieser Zustand dient als Approximation für den Eingabevektor des Routers in der nächsten Schicht ( $l+1$ ).
Vorhersage: Der Router der Schicht $l+1$ wird basierend auf $q_l$ simuliert, um die wahrscheinlichsten Experten für die nächste Schicht zu identifizieren. Diese werden dann asynchron von der CPU zur GPU geladen, während die GPU noch die Berechnungen für die aktuelle Schicht durchführt.

B. Spekulative Ausführung (Speculative Execution)

Ein entscheidender Unterschied zu früheren Ansätzen ist die Behandlung von Vorhersagefehlern:

Klassischer Ansatz: Bei einem Fehler (Cache-Miss) wird der falsche Experten ignoriert und der korrekte muss nachgeladen werden, was den Overlap unterbricht.
Dieser Ansatz: Die vorhergesagten Experten werden spekulativ ausgeführt. Das Modell akzeptiert die Vorhersage, auch wenn sie nicht zu 100 % mit dem tatsächlichen Router-Ergebnis übereinstimmt.
Hypothese: Da die dominanten Experten (die mit den höchsten Routing-Gewichten) oft korrekt vorhergesagt werden, bleibt die Genauigkeit der nachgelagerten Aufgaben (Downstream Accuracy) trotz kleiner Routing-Fehler erhalten.

C. Neuronale Schätzer (für hohe Drift)

Für Modelle, bei denen die Repräsentationsdrift (Unterschied zwischen $q_l$ und dem wahren Eingabevektor) in bestimmten Schichten zu groß ist (z. B. frühe Schichten von Qwen3-30B-A3B), wird ein leichter neuronaler Schätzer eingeführt.

Dieser wird durch Distillation trainiert, um die Router-Logits direkt aus dem Quasi-Hidden State vorherzusagen.
Er kann als „Hybrid"-Strategie eingesetzt werden: Nur in Schichten mit hoher Unsicherheit wird der Schätzer genutzt, ansonsten der Router-basierte Ansatz.

3. Schlüsselbeiträge

Parameterfreies Prefetching: Identifikation interner Repräsentationen (Quasi-Hidden State), die ausreichen, um Routing-Entscheidungen in modernen MoE-Architekturen ohne zusätzliches Training vorherzusagen.
Spekulative Ausführung mit Genauigkeitserhalt: Demonstration, dass das Ausführen vorhergesagter Experten (anstatt sie als Miss zu behandeln) die Genauigkeit in reasoning-lastigen Benchmarks weitgehend erhält.
Optimierte Implementierung: Integration in den Open-Source-Inferenz-Engine YALIS. Die Implementierung nutzt asynchrone CUDA-Streams und Double-Buffering, um Transfers und Berechnungen zu überlappen.
Leichtgewichtige Schätzer: Entwicklung eines effizienten neuronalen Netzwerks, das die Trefferquote (Hit Rate) in kritischen Schichten signifikant verbessert und so Genauigkeitsverluste kompensiert.

4. Ergebnisse

Die Evaluation wurde auf verschiedenen MoE-Modellen (Qwen3-30B-A3B, GPT-OSS-20B/120B, GLM-4.7-Flash) und Hardware-Konfigurationen (A6000, A100, GH200) durchgeführt.

Performance-Gewinn (TPOT):
- Im Vergleich zum On-Demand-Laden wurde eine Reduktion der TPOT um 5 % bis 14 % erreicht.
- Die größten Gewinne (bis zu 14 %) wurden auf GPUs mit geringerer Rechenleistung (A6000) und längeren Sequenzen erzielt, wo der Kopiervorgang den Engpass darstellt.
- Die Ergebnisse nähern sich dem theoretischen Maximum an, das durch die Überlappung von Berechnung und Kopie möglich ist (da Kopierzeiten oft die Berechnungszeiten dominieren).
Genauigkeit:
- Für Modelle wie GPT-OSS blieb die Genauigkeit auf Benchmarks (HumanEval, GSM8k, etc.) nahezu unverändert.
- Für Qwen3-30B-A3B führte reine Router-basierte Spekulation zu leichten Einbußen (besonders in Mathematik-Aufgaben). Durch den Einsatz des Hybrid-Ansatzes (Schätzer für frühe Schichten) konnte die Genauigkeit jedoch fast vollständig auf das Niveau des Baseline-Modells zurückgeführt werden (z. B. Wiederherstellung von ~37 % der Genauigkeitslücke bei GSM8k).
Hardware-Überlappung: Nsight Systems-Traces zeigen deutlich, dass CPU-GPU-Transfers nun parallel zur GPU-Berechnung stattfinden, anstatt die GPU zu blockieren.

5. Bedeutung und Ausblick

Diese Arbeit adressiert ein kritisches Hindernis für die lokale Bereitstellung großer MoE-Modelle auf Consumer-Hardware.

Praktische Relevanz: Durch die Reduzierung der I/O-Latenz wird die Inferenz auf GPUs mit begrenztem VRAM (z. B. 48 GB oder weniger) deutlich schneller und effizienter, ohne dass teure Hardware-Upgrades nötig sind.
Paradigmenwechsel: Der Ansatz zeigt, dass „Spekulation" in MoEs nicht nur für die Generierung von Texten (wie bei Speculative Decoding), sondern auch für das Management von Speicherressourcen genutzt werden kann, um die Hardware-Auslastung zu maximieren.
Zukunft: Die Autoren sehen Potenzial in der Erweiterung auf disk-basierte Offloading-Szenarien (z. B. Smartphones) und in der vollständigen Eliminierung des Routers während der Inferenz durch trainierte Schätzer, was den Serialitäts-Overhead weiter reduzieren könnte.

Zusammenfassend bietet das Paper eine elegante Lösung, um das „Memory Wall"-Problem bei MoE-Modellen zu überwinden, indem es die inhärenten Vorhersagekräfte des Modells nutzt, um Speichertransfers unsichtbar zu machen.