MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der überfüllte Supermarkt der KI

Stell dir vor, ein modernes KI-Modell (ein "Multimodales Large Language Model") ist wie ein riesiger, hochmodernster Supermarkt.

Die Regale sind die verschiedenen Experten (Neuronale Netze), die spezielle Aufgaben lösen.
Die Kunden sind die Daten, die das Modell verarbeitet (z. B. ein Bild einer Katze oder ein Text über das Wetter).

Bei herkömmlichen Modellen (MoE) wird für jeden Kunden ein festes Team von Experten hinzugezogen, egal ob der Kunde nur eine Banane kaufen will oder ein komplexes Finanzdokument analysieren muss. Das ist extrem ineffizient. Es ist so, als würde man für den Kauf einer einzigen Banane den gesamten Supermarkt mit 100 Kassierern, 50 Sicherheitsleuten und 20 Logistikern auf die Beine stellen. Das kostet viel Zeit und Strom.

Bisherige Methoden haben versucht, unnötige Experten einfach rauszuwerfen, indem sie schauten: "Wie wahrscheinlich ist es, dass dieser Experte gebraucht wird?" Aber das funktionierte bei Multimodalen Modellen (die Bilder und Text verstehen) schlecht. Warum? Weil sie zwei wichtige Dinge ignorierten:

Die Lage im Markt: Experten in den unteren Etagen (frühe Schichten) sind oft wichtiger als die in den oberen Etagen. Wenn man unten die falschen Leute wegschickt, stürzt das ganze Gebäude zusammen.
Die Art des Kunden: Ein Text-Kunde braucht andere Experten als ein Bild-Kunde. Bilder sind oft "redundanter" (man braucht weniger Experten, um ein Bild zu verstehen), während Text sehr präzise Experten erfordert.

Die Lösung: MoDES – Der cleere Einkaufswagen

Die Forscher haben MoDES entwickelt. Man kann sich MoDES wie einen super-intelligenten Einkaufswagen vorstellen, der nicht nur schaut, was gekauft wird, sondern auch wo im Supermarkt man sich gerade befindet.

MoDES besteht aus zwei genialen Tricks:

1. Der "Gesamt-Check" (GMLG – Globally-Modulated Local Gating)

Statt nur zu fragen: "Braucht dieser Experte hier jetzt den Kunden?", schaut MoDES auch auf die Gesamtstruktur des Supermarkts.

Die Analogie: Stell dir vor, du bist in der Tiefkühltruhe (eine tiefe Schicht). Hier sind die Experten weniger kritisch. Aber wenn du im Eingangsbereich (eine flache Schicht) bist, wo die ersten Entscheidungen getroffen werden, darfst du niemanden wegschicken, sonst verirren sich alle Kunden.
MoDES berechnet also einen "Wichtigkeits-Faktor" für jede Etage des Supermarkts. In den wichtigen Etagen werden Experten nur sehr zögerlich entlassen, in den weniger wichtigen Etagen wird viel stärker gespart.

2. Der "Zwei-Welten-Türsteher" (DMT – Dual-Modality Thresholding)

Hier kommt der zweite Clou. MoDES behandelt Text und Bilder unterschiedlich.

Die Analogie: Stell dir vor, der Supermarkt hat zwei Eingänge.
- Am Text-Eingang ist der Türsteher sehr streng. Er lässt nur die allerwichtigsten Experten rein, weil Text sehr empfindlich ist.
- Am Bild-Eingang ist der Türsteher entspannter. Er weiß, dass Bilder oft redundante Informationen haben, und lässt viele Experten einfach zu Hause bleiben, ohne dass das Ergebnis schlechter wird.
Frühere Methoden hatten nur einen Türsteher für alle. MoDES hat zwei, die genau auf die Bedürfnisse der jeweiligen "Kundenart" eingehen.

Der schnelle Planer (Frontier Search)

Damit MoDES weiß, wie streng die Türsteher sein sollen, muss es erst einmal testen, welche Einstellung die beste ist. Normalerweise würde man dafür wochenlang herumprobieren.
MoDES nutzt aber einen intelligenten Suchalgorithmus (Frontier Search).

Die Analogie: Stell dir vor, du suchst den perfekten Preis für ein Haus. Statt jedes einzelne Haus in der Stadt zu besichtigen (was Jahre dauert), nutzt du eine Karte, die dir sofort zeigt: "Wenn du hier bist, ist der Preis zu hoch; wenn du dort bist, ist er zu niedrig." Du findest den optimalen Punkt in wenigen Stunden statt in Tagen.

Das Ergebnis: Schneller und schlauer

Das Ergebnis ist beeindruckend:

Geschwindigkeit: Das Modell ist viel schneller. Die "Vorbereitungszeit" (Prefill) ist mehr als doppelt so schnell, und das eigentliche "Nachdenken" (Decoding) ist ebenfalls schneller.
Qualität: Trotz des Weglassens von bis zu 88% der Experten (fast 9 von 10 Kassierern!) bleibt die Qualität der Antworten fast gleich hoch. In manchen Fällen wird das Modell sogar besser, weil es durch das Weglassen von "Störern" klarer denkt.

Zusammenfassend:
MoDES ist wie ein effizienter Manager, der weiß, wann er Personal einsparen kann, ohne den Service zu beeinträchtigen. Er unterscheidet zwischen Text und Bildern und weiß genau, welche Abteilungen im Supermarkt kritisch sind und welche man ruhig etwas leeren kann. Das macht die KI schneller, günstiger und trotzdem extrem klug.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) auf Basis von Mixture-of-Experts (MoE)-Architekturen haben sich als leistungsstark für Vision-Language-Aufgaben erwiesen. Sie entkoppeln die Modellgröße von den Rechenkosten, indem sie für jedes Token nur eine Teilmenge der Experten (Subnetzwerke) aktivieren. Dennoch leiden diese Modelle unter erheblichen Ineffizienzen bei der Inferenz, da für jedes Token weiterhin viele Experten berechnet werden müssen.

Bestehende Methoden zum „Expert Skipping" (das dynamische Überspringen redundanter Experten), die ursprünglich für unimodale LLMs entwickelt wurden, versagen bei der Anwendung auf MoE-MLLMs. Dies führt zu einem signifikanten Leistungsabfall. Die Autoren identifizieren zwei Hauptgründe für dieses Versagen:

Ignorieren globaler Beiträge: Bisherige Methoden betrachten nur die lokalen Routing-Wahrscheinlichkeiten innerhalb einer Schicht. Sie übersehen jedoch, dass Experten in flachen Schichten einen viel kritischeren Einfluss auf das Endergebnis haben als Experten in tieferen Schichten. Ein pauschales Überspringen führt daher zu Fehlakkumulationen.
Modality Gap (Modus-Lücke): Text- und Visuelle-Token verhalten sich unterschiedlich beim Durchlaufen der Experten. Visuelle Token erfahren geringere Updates durch die Feed-Forward-Netzwerke (FFN) als Text-Token. Methoden, die dies nicht berücksichtigen, behandeln beide Modalitäten gleich, was suboptimal ist.

2. Methodik: MoDES Framework

MoDES (Multimodal Dynamic Expert Skipping) ist das erste training-freie Framework, das diese Probleme adressiert und eine adaptive Expertenauswahl ermöglicht. Es besteht aus zwei Kernkomponenten:

A. Globally-Modulated Local Gating (GMLG)

Um das Problem der layer-spezifischen Beiträge zu lösen, kombiniert MoDES lokale Routing-Wahrscheinlichkeiten mit einem globalen Modulationsfaktor.

Lokale Wahrscheinlichkeit ( $\pi$ ): Die standardmäßige Routing-Wahrscheinlichkeit für ein Token.
Globaler Faktor ( $\alpha$ ): Ein offline berechneter Kalibrierungswert pro Schicht, der die Sensitivität des Modells gegenüber dem Entfernen von Experten in dieser Schicht misst (via KL-Divergenz zwischen Original- und modifizierter Ausgabe).
Berechnung: Die endgültige Wichtigkeit eines Experten wird als $s = \alpha \cdot \pi$ berechnet. Dies gewichtet die lokale Entscheidung mit der globalen Bedeutung der Schicht.

B. Dual-Modality Thresholding (DMT)

Um die Unterschiede zwischen Text- und Visuellen-Token zu berücksichtigen, führt MoDES zwei separate Schwellenwerte ein: $\tau_t$ für Text und $\tau_v$ für Vision.

Experten werden übersprungen, wenn ihre berechnete Wichtigkeitsscore unter dem jeweiligen Schwellenwert der Token-Modalität fällt.
Dies ermöglicht eine aggressivere Reduktion bei visuellen Token (die oft redundanter sind) im Vergleich zu Text-Token.

C. Frontier Search Algorithmus

Um die optimalen Schwellenwerte ( $\tau_t, \tau_v$ ) unter einem gegebenen Budget an zu überspringenden Experten zu finden, wird ein effizienter Suchalgorithmus entwickelt.

Monotonie-Eigenschaft: Die Autoren nutzen die Eigenschaft aus, dass die Performance bei steigenden Schwellenwerten monoton abnimmt, während die Effizienz (Anzahl übersprungener Experten) zunimmt.
Komplexität: Statt einer exhaustiven Suche ( $O(N \cdot D^2)$ ) nutzt der Algorithmus eine „Frontier Search", die die Komplexität auf $O(N \cdot D)$ reduziert. Dies verkürzt die Suchzeit von mehreren Tagen auf wenige Stunden, ohne die Leistung zu beeinträchtigen.

3. Key Contributions (Hauptbeiträge)

Erste Analyse von MoE-MLLMs: Identifikation der kritischen Unterschiede zwischen unimodalen und multimodalen MoE-Modellen (globale Schichtbedeutung und Modalitätsunterschiede).
Training-Freies Framework: MoDES erfordert kein Nachtrainieren (Fine-Tuning) des Modells, was den Einsatz auf großen, proprietären Modellen erleichtert.
GMLG & DMT: Einführung neuer Mechanismen zur präzisen Schätzung der Expertenwichtigkeit unter Berücksichtigung von Schichttiefe und Token-Typ.
Effiziente Suche: Entwicklung eines Frontier-Search-Algorithmus, der die Hyperparameter-Optimierung drastisch beschleunigt.

4. Ergebnisse

Die Autoren evaluierten MoDES an drei MoE-MLLM-Familien (Kimi-VL, Qwen3-VL-MoE, InternVL-3.5) über 13 Benchmarks (Bild- und Videoverständnis).

Leistungssteigerung: MoDES übertrifft den State-of-the-Art (SOTA) deutlich. Bei einem extrem hohen Überspringen von 88% der Experten (Qwen3-VL-MoE-30B) erreicht MoDES eine Performance von 97,33% der Originalleistung, während andere Methoden (wie DiEP, MC-MoE) auf ca. 86,66% fallen. Dies entspricht einer relativen Verbesserung von bis zu 10,67% gegenüber den Baselines.
Geschwindigkeit:
- Prefill-Zeit: Beschleunigung um den Faktor 2,16x.
- Decoding-Zeit: Beschleunigung um den Faktor 1,26x.
Robustheit: Die Methode ist robust gegenüber der Wahl des Kalibrierungsdatensatzes und funktioniert effektiv über verschiedene Modellarchitekturen hinweg.
Kombinierbarkeit: MoDES lässt sich nahtlos mit Quantisierungstechniken kombinieren und zeigt dabei geringere Performance-Einbußen als konkurrierende Ansätze.

5. Signifikanz

MoDES adressiert eine kritische Lücke in der Effizienzsteigerung von Multimodal-Modellen. Während frühere Ansätze oft nur Text-LLMs betrachteten, zeigt MoDES, dass Multimodalität spezifische Anpassungen erfordert, um die Rechenlast zu reduzieren, ohne die komplexe Vision-Language-Verständnisfähigkeit zu beeinträchtigen.

Die Arbeit demonstriert, dass durch intelligente, datengetriebene dynamische Selektion von Experten (anstatt statischer Reduktion) massive Rechenressourcen eingespart werden können. Dies ist ein entscheidender Schritt hin zu skalierbaren, kosteneffizienten und schnellen Multimodal-Systemen für den praktischen Einsatz, insbesondere in Szenarien mit begrenzter Hardware-Ressourcen. Der Code ist öffentlich verfügbar, was die Reproduzierbarkeit und Weiterentwicklung fördert.