Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

Each language version is independently generated for its own context, not a direct translation.

🧠 Das große Rätsel: Warum manche KI-Modelle leichter zu speichern sind als andere

Stell dir vor, du hast einen riesigen Koch-Team (das ist das KI-Modell). Dieses Team besteht aus hundert verschiedenen Spezialisten: einem, der nur Pizza backt, einem, der nur Sushi macht, einem für Desserts und einem für Suppen.

Normalerweise würde ein Restaurant (ein Computer) versuchen, alle 100 Köche gleichzeitig in der Küche (dem Arbeitsspeicher/GPU) zu haben. Das ist aber unmöglich, wenn die Küche klein ist – wie bei einem Smartphone.

Die Lösung: "Expert Offloading" (Die Auslagerung)
Die Idee ist genial: Man behält nur die Köche, die man gerade braucht, in der schnellen Küche. Die anderen 90 Köche warten im kalten Keller (dem langsamen Arbeitsspeicher oder der Festplatte) und werden erst geholt, wenn sie gebraucht werden.

Das Problem:
Wenn du Pizza bestellst, kommt der Pizzakoch. Dann bestellst du sofort wieder Pizza. Der Pizzakoch muss nicht erst aus dem Keller geholt werden, er ist schon da! Das ist super schnell.
Aber wenn du nach der Pizza plötzlich Sushi bestellst, muss der Pizzakoch raus und der Sushi-Koch rein. Das kostet Zeit. Wenn du ständig zwischen Pizza, Sushi, Dessert und Suppe hin- und herwechselst, verbringt das Restaurant mehr Zeit damit, Köche hin- und herzuschicken, als damit, das Essen zu kochen. Das macht alles langsam.

📜 Was haben die Forscher herausgefunden?

Die Forscher von der Fudan University und der USC haben sich 20 verschiedene dieser "Koch-Teams" (KI-Modelle) angesehen und eine wichtige Frage gestellt: Wie oft wechseln diese Teams wirklich den Koch, und wie oft bleiben sie bei demselben?

Sie nannten das "Lokale Routings-Konsistenz" (ein sehr sperriger Begriff). Einfach gesagt: Bleibt das Modell eine Weile bei denselben Spezialisten, oder springt es wild umher?

1. Die zwei neuen Messwerkzeuge

Um das zu messen, haben sie zwei neue Methoden erfunden:

Die "Segment-Strategie" (SRP): Stell dir vor, du sagst dem Restaurant: "Für die nächsten 10 Bestellungen behalte ich nur diese 3 Köche in der Küche." Wie gut funktioniert das? Wenn das Modell oft bei denselben Themen bleibt (z. B. nur über Mathematik redet), funktionieren diese 3 Köche super. Das ist ein gutes Zeichen!
Der "Gläserne Keller" (SCH): Das ist wie ein perfekter Vorhersage-Keller. Wenn wir wissen könnten, welche Köche in den nächsten 10 Minuten gebraucht werden, wie viele würden wir dann nicht holen müssen? Je höher dieser Wert, desto besser kann man das Modell auf kleinen Geräten speichern.

2. Die überraschenden Ergebnisse

Nicht alle Modelle sind gleich: Manche Modelle (wie LLaMA-MoE-v2 oder OLMoE) sind wie ein Restaurant, das oft bei einem Thema bleibt. Wenn es über Mathematik spricht, bleiben die Mathe-Köche im Raum. Das ist super für kleine Geräte! Andere Modelle (wie Jamba oder SwitchTransformers) springen wild zwischen den Köchen hin und her. Das ist für kleine Geräte ein Albtraum.
Der Balance-Akt: Es gibt einen Konflikt. Ein Restaurant, das alle Köche gleichmäßig beschäftigt (Lastenverteilung), springt oft wild herum. Ein Restaurant, das sich auf wenige Köche konzentriert (hohe Konsistenz), ist effizienter für die Lagerung, aber die Köche haben unterschiedlich viel zu tun. Die Forscher fanden heraus: Man kann beides haben, wenn man die richtigen Spezialisten hat.
Spezialisten sind besser als Generalisten: Modelle, die Köche haben, die sich auf bestimmte Themen spezialisiert haben (z. B. ein "Code-Koch" oder ein "Mathe-Koch"), bleiben viel länger bei diesem Koch, wenn das Thema passt. Das ist viel besser als Köche, die nur auf bestimmte Wörter reagieren.
Die "Teilen"-Falle: Manche Modelle haben "Shared Experts" (geteilte Köche), die immer da sind. Das klingt gut, aber es verwirrt die anderen Köche und führt dazu, dass das Modell wilder springt. Das ist schlecht für die Speicher-Effizienz.

3. Die goldene Regel für die Zukunft

Die Forscher haben eine Faustregel gefunden:
Wenn du ein KI-Modell auf einem Handy speichern willst, solltest du den "Keller" (den Cache) so groß machen, dass er das Doppelte der Köche fasst, die du eigentlich gerade brauchst.

Du brauchst 2 Köche? Mach Platz für 4.
Das gibt dem System genug Puffer, um nicht ständig hin- und herzulaufen, ohne den Speicher zu sprengen.

🚀 Was bedeutet das für uns?

Diese Forschung ist wie ein Bauplan für effizientere KI.

Für Entwickler: Sie wissen jetzt, welche Modelle sie bauen sollen, damit sie auf Handys und Laptops schnell laufen, ohne dass man riesige Server braucht.
Für uns Nutzer: In Zukunft können wir vielleicht komplexe KI-Modelle direkt auf unserem Handy nutzen, die nicht langsam werden, nur weil sie "Köche" aus dem Keller holen müssen.

Zusammengefasst: Nicht jedes KI-Modell ist für den kleinen Speicher geeignet. Aber wenn man Modelle baut, die sich auf Themen konzentrieren und nicht wild hin- und herspringen, und den Speicherplatz smart nutzt (etwa doppelt so viel wie nötig), dann wird KI auf dem Handy endlich richtig schnell und effizient.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Mixture-of-Experts (MoE) Modelle ermöglichen das effiziente Skalieren von Large Language Models (LLMs) durch die spärliche Aktivierung von Experten während der Inferenz. Ein zentrales Problem bei der Bereitstellung dieser Modelle auf speicherbeschränkten Geräten (z. B. Mobilgeräten) ist der hohe Speicherbedarf, da alle Experten im RAM gehalten werden müssten. Um dies zu umgehen, wurde das Expert Offloading eingeführt: Eine Teilmenge der Experten wird im schnellen Speicher (GPU) zwischengespeichert, während der Rest im langsamen Speicher (CPU/Disk) liegt und bei Bedarf geladen wird.

Die Effizienz dieses Systems hängt stark davon ab, wie oft Experten geladen oder ausgetauscht werden müssen. Vorherige Arbeiten nutzten die Beobachtung, dass aufeinanderfolgende Tokens oft ähnliche Experten aktivieren (Lokalität). Allerdings ist der Grad dieser lokalen Routing-Konsistenz (Local Routing Consistency) zwischen verschiedenen MoE-Modellen stark unterschiedlich und bisher kaum systematisch untersucht worden. Wenn ein Modell keine konsistenten Routing-Muster aufweist, führt häufiges Offloading zu erheblichen Latenzen und Performance-Einbußen.

2. Methodik

Die Autoren führen eine umfassende Analyse an 20 verschiedenen MoE-basierten LLMs (Größen von 3B bis 54B Parameter) durch und nutzen zusätzlich kleine „Toy-Modelle", um architektonische Faktoren zu isolieren.

Neue Metriken zur Messung

Um die lokale Routing-Konsistenz quantitativ zu erfassen, schlagen die Autoren zwei Metriken vor:

Segment Routing Best Performance (SRP):
- Misst, wie gut ein vereinfachter Router, der für einen gesamten Segment von Tokens (Länge $m$ ) eine feste Gruppe von Experten auswählt, die Entscheidungen des originalen, token-basierten Routers nachahmen kann.
- SRP wird als maximale F1-Score berechnet, die ein solcher Segment-Router erreichen kann. Ein hoher SRP bedeutet, dass die Expertenaktivierung innerhalb eines Segments sehr konsistent ist.
- SRP ist eine intrinsische Eigenschaft des Modells und unabhängig von spezifischen Caching-Algorithmen.
Segment Cache Best Hit Rate (SCH):
- Simuliert einen idealen (orakelbasierten) Expert-Cache mit einer festen Kapazitätsgrenze (Cache-Ratio $\rho$ ).
- Der Cache nutzt zukünftige Informationen (über die nächsten $m$ Tokens), um ungenutzte Experten zu entfernen und die am häufigsten benötigten zu behalten.
- SCH misst die Trefferquote (Hit Rate) unter diesen Bedingungen. Sie dient als Brücke zwischen der theoretischen Konsistenz (SRP) und der praktischen Effizienz von Offloading-Systemen.

Experimentelles Setup

Modelle: 20 reale Modelle (u.a. Mixtral, DeepSeek, Qwen, LLaMA-MoE) und eine Reihe von Toy-Modellen mit modifizierten Architekturen (z. B. veränderte Anzahl geteilter Experten, Lastverteilungs-Loss-Koeffizienten).
Daten: Ein Korpus aus 22.528 Samples, abgedeckt durch verschiedene Domänen (Code, Mathematik, allgemeine Texte, wissenschaftliche Artikel).
Analyse: Untersuchung des Einflusses von Architekturmerkmalen (Shared Experts, Interleaving), Lastverteilung und Experten-Spezialisierung auf SRP und SCH.

3. Wichtige Ergebnisse

Trade-off zwischen Konsistenz und Lastverteilung

Es besteht ein starker Trade-off zwischen lokaler Routing-Konsistenz und lokaler Lastverteilung. Modelle mit sehr hoher lokaler Konsistenz (hoher SRP) neigen dazu, eine ungleiche Lastverteilung innerhalb eines kurzen Segments zu haben (einige Experten werden sehr oft, andere selten aktiviert).
Globale Lastverteilung ist jedoch mit hoher lokaler Konsistenz vereinbar: Über verschiedene Themen hinweg werden unterschiedliche Expertengruppen aktiviert, sodass alle Experten langfristig genutzt werden.

Einfluss der Architektur

Shared Experts (Geteilte Experten): Die Einführung von geteilten Experten (die von allen Tokens genutzt werden können) schadet der lokalen Routing-Konsistenz erheblich. Dies reduziert den Raum möglicher Experten-Kombinationen und zwingt den Router zu weniger differenzierten Entscheidungen.
Experten-Kombinationsraum: Modelle mit einem größeren Raum möglicher Kombinationen (weniger geteilte Experten, mehr aktive Experten pro Token) zeigen tendenziell höhere Konsistenz.
Interleaved Layers: Das Mischen von dichten und MoE-Schichten hat einen weniger signifikanten negativen Einfluss als Shared Experts.

Experten-Spezialisierung

Domänenspezifische Experten (Experten, die stark auf bestimmte Themen wie Mathematik oder Code spezialisiert sind) tragen wesentlich mehr zur lokalen Routing-Konsistenz bei als vokabularspezifische Experten.
Modelle mit starken domänenspezifischen Experten zeigen oft hohe SRP-Werte in diesen Domänen und gleichzeitig eine gute globale Lastverteilung.

Optimale Cache-Größe

Die Analyse der SCH zeigt, dass die meisten Modelle einen optimalen Kompromiss zwischen Cache-Effektivität und -Effizienz bei einer Cache-Größe von etwa dem Doppelten der Anzahl der aktivierten Experten ( $\rho \approx 2$ ) erreichen.
Modelle mit niedriger Konsistenz (z. B. SwitchTransformers, NLLB-MoE) zeigen kaum Vorteile durch Caching, da ihre Trefferquoten auch bei größeren Caches niedrig bleiben.

4. Hauptbeiträge

Konzept und Metriken: Einführung des Konzepts der „lokalen Routing-Konsistenz" und Entwicklung der Metriken SRP und SCH zur quantitativen Bewertung der Eignung von MoE-Modellen für Offloading-Szenarien.
Empirische Analyse: Umfassende Untersuchung von 20 Modellen und Toy-Modellen, die Schlüsselfaktoren identifiziert:
- Lokale Lastverteilung vs. Konsistenz (Trade-off).
- Negative Auswirkungen von Shared Experts.
- Positive Rolle domänenspezifischer Experten.
Praktische Leitlinie: Die Empfehlung, dass Cache-Größen von ca. $2\times$ der aktiven Parameter für die meisten Modelle optimal sind, und die Erkenntnis, dass nicht alle MoE-Modelle gleichermaßen für Offloading geeignet sind.

5. Bedeutung und Fazit

Die Arbeit zeigt, dass Expert Offloading nicht für jedes MoE-Modell gleichermaßen effektiv ist. Modelle mit hoher lokaler Routing-Konsistenz (wie LLaMA-MoE-v2, OLMoE, GRIN-MoE) profitieren stark von Caching-Strategien, während andere (wie SwitchTransformers) aufgrund ihrer inkonsistenten Routing-Muster ineffizient bleiben.

Die Ergebnisse bieten wichtige Design-Richtlinien für zukünftige MoE-Architekturen:

Vermeidung von Shared Experts, wenn Offloading auf Edge-Geräten geplant ist.
Förderung von domänenspezifischen Experten, um sowohl Konsistenz als auch globale Lastverteilung zu verbessern.
Akzeptanz einer gewissen lokalen Lastungleichheit zugunsten der lokalen Konsistenz, um die Inferenzgeschwindigkeit auf speicherbeschränkten Geräten zu maximieren.

Dies ermöglicht die Entwicklung von MoE-Modellen, die ohne Kompromisse bei der Inferenzgeschwindigkeit auf ressourcenbeschränkten Endgeräten eingesetzt werden können. Der Code für die Replikation der Experimente wurde veröffentlicht.