MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Die Arbeit stellt MoDES vor, ein trainingsfreies Framework, das durch einen global modulierten lokalen Gating-Mechanismus und eine dual-modale Schwellenwertoptimierung die Inferenz von Mixture-of-Experts Multimodal Large Language Models beschleunigt, ohne dabei die Genauigkeit zu beeinträchtigen.

Yushi Huang, Zining Wang, Zhihang Yuan, Yifu Ding, Ruihao Gong, Jinyang Guo, Xianglong Liu, Jun Zhang

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der überfüllte Supermarkt der KI

Stell dir vor, ein modernes KI-Modell (ein "Multimodales Large Language Model") ist wie ein riesiger, hochmodernster Supermarkt.

  • Die Regale sind die verschiedenen Experten (Neuronale Netze), die spezielle Aufgaben lösen.
  • Die Kunden sind die Daten, die das Modell verarbeitet (z. B. ein Bild einer Katze oder ein Text über das Wetter).

Bei herkömmlichen Modellen (MoE) wird für jeden Kunden ein festes Team von Experten hinzugezogen, egal ob der Kunde nur eine Banane kaufen will oder ein komplexes Finanzdokument analysieren muss. Das ist extrem ineffizient. Es ist so, als würde man für den Kauf einer einzigen Banane den gesamten Supermarkt mit 100 Kassierern, 50 Sicherheitsleuten und 20 Logistikern auf die Beine stellen. Das kostet viel Zeit und Strom.

Bisherige Methoden haben versucht, unnötige Experten einfach rauszuwerfen, indem sie schauten: "Wie wahrscheinlich ist es, dass dieser Experte gebraucht wird?" Aber das funktionierte bei Multimodalen Modellen (die Bilder und Text verstehen) schlecht. Warum? Weil sie zwei wichtige Dinge ignorierten:

  1. Die Lage im Markt: Experten in den unteren Etagen (frühe Schichten) sind oft wichtiger als die in den oberen Etagen. Wenn man unten die falschen Leute wegschickt, stürzt das ganze Gebäude zusammen.
  2. Die Art des Kunden: Ein Text-Kunde braucht andere Experten als ein Bild-Kunde. Bilder sind oft "redundanter" (man braucht weniger Experten, um ein Bild zu verstehen), während Text sehr präzise Experten erfordert.

Die Lösung: MoDES – Der cleere Einkaufswagen

Die Forscher haben MoDES entwickelt. Man kann sich MoDES wie einen super-intelligenten Einkaufswagen vorstellen, der nicht nur schaut, was gekauft wird, sondern auch wo im Supermarkt man sich gerade befindet.

MoDES besteht aus zwei genialen Tricks:

1. Der "Gesamt-Check" (GMLG – Globally-Modulated Local Gating)

Statt nur zu fragen: "Braucht dieser Experte hier jetzt den Kunden?", schaut MoDES auch auf die Gesamtstruktur des Supermarkts.

  • Die Analogie: Stell dir vor, du bist in der Tiefkühltruhe (eine tiefe Schicht). Hier sind die Experten weniger kritisch. Aber wenn du im Eingangsbereich (eine flache Schicht) bist, wo die ersten Entscheidungen getroffen werden, darfst du niemanden wegschicken, sonst verirren sich alle Kunden.
  • MoDES berechnet also einen "Wichtigkeits-Faktor" für jede Etage des Supermarkts. In den wichtigen Etagen werden Experten nur sehr zögerlich entlassen, in den weniger wichtigen Etagen wird viel stärker gespart.

2. Der "Zwei-Welten-Türsteher" (DMT – Dual-Modality Thresholding)

Hier kommt der zweite Clou. MoDES behandelt Text und Bilder unterschiedlich.

  • Die Analogie: Stell dir vor, der Supermarkt hat zwei Eingänge.
    • Am Text-Eingang ist der Türsteher sehr streng. Er lässt nur die allerwichtigsten Experten rein, weil Text sehr empfindlich ist.
    • Am Bild-Eingang ist der Türsteher entspannter. Er weiß, dass Bilder oft redundante Informationen haben, und lässt viele Experten einfach zu Hause bleiben, ohne dass das Ergebnis schlechter wird.
  • Frühere Methoden hatten nur einen Türsteher für alle. MoDES hat zwei, die genau auf die Bedürfnisse der jeweiligen "Kundenart" eingehen.

Der schnelle Planer (Frontier Search)

Damit MoDES weiß, wie streng die Türsteher sein sollen, muss es erst einmal testen, welche Einstellung die beste ist. Normalerweise würde man dafür wochenlang herumprobieren.
MoDES nutzt aber einen intelligenten Suchalgorithmus (Frontier Search).

  • Die Analogie: Stell dir vor, du suchst den perfekten Preis für ein Haus. Statt jedes einzelne Haus in der Stadt zu besichtigen (was Jahre dauert), nutzt du eine Karte, die dir sofort zeigt: "Wenn du hier bist, ist der Preis zu hoch; wenn du dort bist, ist er zu niedrig." Du findest den optimalen Punkt in wenigen Stunden statt in Tagen.

Das Ergebnis: Schneller und schlauer

Das Ergebnis ist beeindruckend:

  • Geschwindigkeit: Das Modell ist viel schneller. Die "Vorbereitungszeit" (Prefill) ist mehr als doppelt so schnell, und das eigentliche "Nachdenken" (Decoding) ist ebenfalls schneller.
  • Qualität: Trotz des Weglassens von bis zu 88% der Experten (fast 9 von 10 Kassierern!) bleibt die Qualität der Antworten fast gleich hoch. In manchen Fällen wird das Modell sogar besser, weil es durch das Weglassen von "Störern" klarer denkt.

Zusammenfassend:
MoDES ist wie ein effizienter Manager, der weiß, wann er Personal einsparen kann, ohne den Service zu beeinträchtigen. Er unterscheidet zwischen Text und Bildern und weiß genau, welche Abteilungen im Supermarkt kritisch sind und welche man ruhig etwas leeren kann. Das macht die KI schneller, günstiger und trotzdem extrem klug.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →