Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Each language version is independently generated for its own context, not a direct translation.

Titel: Quant Experts – Wie man riesige KI-Modelle auf die leichte Schulter nimmt, ohne dass sie ihre Intelligenz verlieren

Stellen Sie sich vor, Sie haben einen genialen, aber extrem schwerfälligen Bibliothekar (das Large Vision-Language Model oder VLM). Dieser Bibliothekar kann Bilder und Texte gleichzeitig verstehen, ist aber so groß und schwer, dass er kaum in einen normalen Rucksack passt. Um ihn mitzunehmen, wollen wir ihn „komprimieren" – also quasi auf ein kleineres Format herunterbrechen. Das nennt man Quantisierung.

Das Problem dabei: Wenn man einen solchen Bibliothekar einfach nur „zusammenfaltet" (quantisiert), verliert er oft wichtige Details. Er beginnt zu stolpern, verwechselt Bilder mit Texten oder vergisst wichtige Fakten.

Die Forscher aus Xi'an haben eine clevere Lösung namens Quant Experts (QE) entwickelt. Hier ist die Erklärung, wie das funktioniert, ganz ohne Fachchinesisch:

1. Das Problem: Nicht alle Fehler sind gleich

Bisherige Methoden haben versucht, den Bibliothekar zu reparieren, indem sie eine einheitliche Brille aufsetzten. Sie sagten: „Aha, dieser eine Teil des Gehirns ist immer etwas empfindlich, also passen wir ihn für alle Situationen an."

Aber die Forscher haben etwas Wichtiges entdeckt:

Der Kontext ändert sich: Manchmal ist der Bibliothekar bei Bildern von Hunden empfindlich, manchmal bei Texten über Autos.
Die „wichtigen Stellen" wandern: Was gerade wichtig ist, hängt davon ab, welches Wort oder welches Bild gerade betrachtet wird. Ein statischer Fix funktioniert nicht, weil sich die Bedürfnisse ständig ändern.

Es ist, als würde man versuchen, einen Schauspieler, der mal einen Clown und mal einen Richter spielt, mit nur einer einzigen Maske zu verkleiden. Das funktioniert nicht gut.

2. Die Lösung: Ein Team von Spezialisten (MoE)

Statt einer einzigen Brille oder eines einzigen Reparaturkünstlers, baut Quant Experts ein Team von Experten auf, das wie ein Mixture-of-Experts (MoE) System funktioniert.

Das Team besteht aus zwei Arten von Helfern:

A. Der „Ständige Wächter" (Shared Expert)

Dieser Experte kümmert sich um die Dinge, die immer wichtig sind, egal ob man gerade ein Bild oder einen Text betrachtet.

Analogie: Stellen Sie sich einen Sicherheitsbeamten vor, der immer am Eingang steht. Er repariert die grundlegenden Fehler, die bei fast jedem Gast auftreten (z. B. dass die Schuhe etwas schmutzig sind). Er ist fest installiert und arbeitet für alle.

B. Die „Fliegenden Spezialisten" (Routed Experts)

Das ist der geniale Teil. Es gibt mehrere dieser Spezialisten, die sich auf bestimmte Situationen spezialisiert haben.

Analogie: Stellen Sie sich einen Flughafen vor.
- Wenn ein Gast aus Deutschland kommt, wird er automatisch zum deutschen Gate geleitet.
- Wenn ein Gast aus Japan kommt, geht er zum japanischen Gate.
- Wenn ein Gast ein Hundebild mitbringt, geht er zum Tier-Experten.
- Wenn ein Gast einen Wissenschaftstext hat, geht er zum Physik-Experten.

In der KI heißt das: Das System schaut sich das aktuelle Wort oder Bild an (den „Token") und entscheidet blitzschnell: „Welcher Spezialist ist hier am besten?" und schickt die Reparaturarbeit dorthin.

3. Wie funktioniert das in der Praxis?

Das System lernt vorab (während einer kurzen Kalibrierungsphase), welche Experten wann gebraucht werden:

Analyse: Es schaut sich an, welche Teile des Modells bei welchen Eingaben „schreien" (also Fehler machen).
Gruppierung: Es sortiert diese Teile in Gruppen. Manche gehören immer zusammen (der „Ständige Wächter"), andere tauchen nur bei bestimmten Themen auf (die „Fliegenden Spezialisten").
Der Router: Ein kleiner, schlauer Vermittler (Router) entscheidet bei jedem neuen Input, welcher Spezialist gerade aktiviert wird.

Warum ist das so toll?

Effizienz: Man braucht nicht für jeden einzelnen Gast einen eigenen ganzen Reparaturtrupp. Man hat nur ein paar Spezialisten, die aber genau dann aktiv werden, wenn sie gebraucht werden.
Genauigkeit: Weil die Reparatur genau auf die Situation zugeschnitten ist, verliert der Bibliothekar kaum an Intelligenz, auch wenn er viel kleiner und leichter gemacht wurde.
Flexibilität: Es funktioniert bei kleinen Modellen (2 Milliarden Parameter) genauso gut wie bei riesigen Riesen (72 Milliarden Parameter).

Zusammenfassung in einem Satz

Quant Experts ist wie ein intelligenter Reiseleiter, der für jede Gruppe von Touristen (Bilder, Texte, verschiedene Themen) den perfekten, spezialisierten Führer aussucht, anstatt alle mit derselben, starren Anleitung durch die Gegend zu führen. So bleibt die KI schnell, klein und trotzdem extrem schlau.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Post-Training-Quantisierung (PTQ) ist eine Schlüsseltechnik, um den Rechen- und Speicheraufwand von Large Vision-Language Models (VLMs) zu reduzieren, indem Gewichte und Aktivierungen auf niedrige Bitbreiten komprimiert werden, ohne das Modell neu zu trainieren.

Trotz Fortschritten bestehen jedoch erhebliche Herausforderungen:

Statische Annahmen: Bestehende Methoden (z. B. SmoothQuant, MBQ) identifizieren empfindliche Kanäle oder Ausreißer oft statisch und global. Sie gehen davon aus, dass die Wichtigkeit dieser Kanäle über alle Eingaben hinweg konstant ist.
Dynamische Variation: Die Autoren beobachten, dass sich die Verteilung und Häufigkeit wichtiger Kanäle nicht nur zwischen verschiedenen Modalitäten (z. B. Bild vs. Text), sondern auch innerhalb derselben Modalität zwischen verschiedenen Tokens stark unterscheidet.
Folgen: Globale Kompensationsstrategien vernachlässigen diese lokalen, token-spezifischen Schwankungen, was zu unzureichender Fehlerrekonstruktion und einem signifikanten Leistungsabfall bei niedrigen Bitbreiten (z. B. 4-bit Gewichte, 6-bit Aktivierungen) führt.

2. Methodik: Quant Experts (QE)

Das vorgeschlagene Framework Quant Experts (QE) adressiert diese Dynamik durch eine token-bewusste adaptive Fehlerrekonstruktion unter Verwendung eines Mixture-of-Experts (MoE) Ansatzes.

Kernidee

QE unterteilt die wichtigen Kanäle in zwei Kategorien basierend auf ihrer Häufigkeit und Abhängigkeit von den Eingabetokens:

Token-unabhängige Kanäle: Kanäle, die in den meisten Tokens als wichtig identifiziert werden (globale Ausreißer).
Token-abhängige Kanäle: Kanäle, deren Wichtigkeit stark vom spezifischen Eingabetoken abhängt (lokale Schwankungen).

Architektur

Das System nutzt zwei Arten von „Experten", die als Low-Rank-Adapter (ähnlich wie LoRA) implementiert sind:

Shared Expert (Gemeinsamer Experte):
- Ziel: Kompensation von globalen Quantisierungsfehlern, die hauptsächlich von den token-unabhängigen Kanälen stammen.
- Funktionsweise: Ein einzelner, fester Low-Rank-Adapter wird für alle Tokens verwendet. Er rekonstruiert die stabilen, globalen Fehlermuster.
Routed Experts (Gelenkte Experten):
- Ziel: Adaptive Kompensation von lokalen Fehlern, die von token-abhängigen Kanälen verursacht werden.
- Vorbereitung (Kalibrierung):
  - Die Autoren berechnen die Ko-Auftretens-Häufigkeit (Co-occurrence) der token-abhängigen Kanäle über die Kalibrierungsdaten.
  - Mithilfe von spektraler Clustering (basierend auf NPMI - Normalized Pointwise Mutual Information) werden diese Kanäle in mehrere Cluster gruppiert.
  - Für jedes Cluster wird ein spezifischer Low-Rank-Adapter (ein „Routed Expert") trainiert.
- Inferenz: Ein leichter Router (Lightweight Router) analysiert die Eingabetokens und wählt dynamisch den am besten geeigneten Routed Expert aus, der den geringsten vorhergesagten Fehler für den aktuellen Token liefert.

Mathematische Formulierung

Das Ziel ist die Minimierung des Quantisierungsfehlers $E_l$ durch die Summe eines token-unabhängigen Terms ( $\tilde{E}^S_l$ ) und eines token-abhängigen Terms ( $\tilde{E}^R_l(x_l)$ ):
$\tilde{E}_l = \underbrace{L^S_{l,A} L^S_{l,B}}_{\text{Shared Expert}} + \underbrace{L^R_{l,i^*} A L^R_{l,i^*} B}_{\text{Gewählter Routed Expert}}$
wobei $i^*$ der Index des vom Router ausgewählten Experten ist.

Feinabstimmung (Refinement)

Optional können nur die Routed Experts und der Router für eine begrenzte Anzahl von Epochen feinabgestimmt werden, während die restlichen Parameter eingefroren bleiben, um die Genauigkeit weiter zu steigern.

3. Schlüsselbeiträge

Neue Beobachtung: Systematische Analyse zeigt, dass die Wichtigkeit von Kanälen in VLMs dynamisch ist und sich sowohl über Modalitäten als auch über Tokens hinweg ändert.
Token-aware MoE Framework: Einführung von Quant Experts, das globale Stabilität (Shared Expert) mit lokaler Adaptivität (Routed Experts) kombiniert.
Effiziente Implementierung: Nutzung von Low-Rank-Adaptoren und einem leichten Router, die einen minimalen Overhead verursachen, aber eine hohe Genauigkeit wiederherstellen.
Umfassende Evaluation: Validierung auf verschiedenen Modellskalen (2B bis 72B Parameter) und Quantisierungseinstellungen.

4. Ergebnisse

Die Methode wurde auf VLMs der Serien Qwen2VL (2B, 7B, 72B) und InternVL2 (2B, 8B) getestet und mit State-of-the-Art-Methoden wie SmoothQuant, MBQ, LQER und AWQ verglichen.

Leistungssteigerung: QE übertrifft konsistent alle Baselines.
- Im schwierigen W4A6-Setting (4-bit Gewichte, 6-bit Aktivierungen) für das Qwen2VL-72B-Modell konnte eine Genauigkeitssteigerung von 5,09 % im Durchschnitt erzielt werden, wodurch die Leistung fast dem Vollpräzisions-Modell (FP16) entspricht.
- Für das kleinere Qwen2VL-2B-Modell wurde im W4A6-Setting eine Verbesserung von 4,01 % gegenüber MBQ erreicht.
Robustheit: Die Methode funktioniert sowohl bei Weight-Activation-Quantisierung als auch bei Weight-Only-Quantisierung (W3A16) überlegene Ergebnisse.
Skalierbarkeit: Die Verbesserungen sind über alle getesteten Modellgrößen und Aufgaben (OCR, Text-VQA, wissenschaftliches Reasoning, Diagramm-Verständnis) konsistent.
Overhead: Die Berechnungskomplexität steigt nur marginal an (FLOPs: $sd^2 + sd(2r + N_r)$ ), was eine Hardware-Effizienzsteigerung von 3,5x bis 4,5x auf NPUs ermöglicht.

5. Bedeutung und Fazit

Das Paper „Quant Experts" adressiert eine kritische Lücke in der aktuellen PTQ-Forschung für multimodale Modelle. Während frühere Ansätze statische, globale Kompensation bevorzugten, erkennt QE die inhärente Dynamik von VLMs an.

Durch die Trennung in globale (Shared) und lokale (Routed) Fehlerquellen und die Nutzung eines MoE-Mechanismus ermöglicht QE:

Die effiziente Nutzung von sehr niedrigen Bitbreiten (z. B. 4-bit) ohne signifikanten Genauigkeitsverlust.
Eine bessere Generalisierung über verschiedene Modalitäten und Aufgaben hinweg.
Eine praktische Anwendbarkeit für ressourcenbeschränkte Umgebungen, da der Overhead minimal ist und die Inferenzgeschwindigkeit sogar durch optimierte Kernel-Implementierungen gesteigert werden kann.

Dieser Ansatz stellt einen wichtigen Schritt hin zur breiten Deployment-fähigen Quantisierung großer multimodaler Modelle dar.