Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem talentierten, aber riesigen und schwerfälligen Kunst-Koch (das ist dein Vision Transformer, ein KI-Modell, das Bilder erkennt). Dieser Koch kann Gerichte (Bilder) perfekt zubereiten, aber er braucht eine riesige Küche, unzählige Zutaten und viel Zeit. Du möchtest ihn aber in eine kleine, mobile Küche auf einem Campingplatz (ein Smartphone oder ein kleiner Chip) mitnehmen.

Das Problem: Der Koch ist zu groß und zu kompliziert für den kleinen Ofen.

Die Lösung heißt Quantisierung. Das bedeutet, man vereinfacht die Rezepte des Kochs, indem man die genauen Gramm-Zahlen durch grobe Schätzungen ersetzt (z. B. statt "123,45 Gramm Mehl" einfach "eine Handvoll"). Das macht den Koch viel schneller und spart Platz, aber oft schmeckt das Essen danach nicht mehr so gut, weil die Feinheiten verloren gehen.

Hier kommt diese Forschung ins Spiel. Sie löst zwei große Probleme auf eine clevere Art:

1. Der "Gemeinsame Tanz" statt Einzelkämpfer (Joint Optimization)

Das alte Problem:
Bisher haben Forscher versucht, den Koch Schritt für Schritt zu vereinfachen. Sie haben sich einen Teil des Rezepts angesehen, ihn vereinfacht, dann den nächsten Teil. Das Problem dabei: Ein KI-Modell wie ein Vision Transformer ist wie ein komplexer Tanz, bei dem alle Schritte aufeinander aufbauen. Wenn du den ersten Schritt vereinfachst, passt der zweite Schritt nicht mehr. Die alten Methoden haben die Tänzer einzeln trainiert, ohne auf den Partner zu hören. Das Ergebnis war ein chaotischer Tanz und ein schlechter Geschmack.

Die neue Lösung:
Die Autoren dieses Papiers sagen: "Nein, wir lassen alle Tänzer gemeinsam üben!"
Statt jeden Schritt einzeln zu optimieren, nehmen sie das gesamte Rezept und passen alles gleichzeitig an. Sie nutzen eine Art "Feedback-Schleife", bei der der vereinfachte Koch sofort merkt, wo er Fehler macht, und alle Parameter (die Schätzungen) gemeinsam korrigiert werden.

Der Vorteil: Das passiert extrem schnell (in nur einer Stunde auf einem normalen Computer) und funktioniert auch bei sehr groben Vereinfachungen (z. B. nur 3 oder 4 Bits an Information), bei denen andere Methoden komplett versagen.

2. Der "Magische Bild-Generator" ohne echte Fotos (Data-Free Calibration)

Das alte Problem:
Um den vereinfachten Koch zu trainieren, braucht man normalerweise Tausende von echten Fotos (z. B. von Hunden, Autos, Bäumen), um ihm zu zeigen: "Siehst du? Das ist ein Hund, vereinfache das Rezept so, dass es immer noch wie ein Hund schmeckt."
Aber: Was, wenn du keine echten Fotos hast? Vielleicht wegen Datenschutz oder weil die Daten einfach nicht verfügbar sind?
Frühere Versuche, das zu umgehen, nutzten einfache Textbefehle für einen Bild-Generator (wie "ein Foto von einem Hund"). Das Ergebnis war oft langweilig: Alle Hunde sahen gleich aus, standen in der Mitte und hatten den gleichen Hintergrund. Das half dem Koch nicht wirklich, die Vielfalt der echten Welt zu verstehen.

Die neue Lösung:
Die Autoren haben einen magischen Bild-Generator (Stable Diffusion Turbo) entwickelt, der nicht nur einfache Befehle befolgt, sondern gelernte, kreative Prompts nutzt.
Statt nur "ein Foto von einem Hund" zu sagen, lernt das System für jeden Hund-Typ viele verschiedene "Stimmen" oder "Perspektiven":

"Ein Hund im Regen, von oben gesehen."
"Ein Hund, der im Gras liegt, mit einem Ball."
"Ein Hund als Silhouette bei Sonnenuntergang."

Das System nutzt dabei eine KI-Kontrolle: Ein vollwertiger, intelligenter "Chef-Koch" (das originale Modell) schaut sich die vom Generator gemachten Bilder an und sagt: "Ja, das ist ein Hund!" Aber er fordert auch Vielfalt: "Nein, das ist immer noch derselbe Hund in derselben Pose! Zeig mir einen anderen!"

Das Ergebnis: Der Generator produziert eine riesige, bunte Sammlung von synthetischen Bildern, die so vielfältig sind wie echte Fotos. Der vereinfachte Koch kann damit trainieren, als hätte er echte Fotos gesehen, obwohl er keine einzige echte Kamera gesehen hat.

Zusammenfassung in einem Satz

Die Autoren haben eine Methode entwickelt, die riesige, komplexe Bild-KIs so schnell und effizient vereinfacht, dass sie auf kleinen Geräten laufen, indem sie alles gleichzeitig anpassen und dabei künstliche, aber extrem vielfältige Bilder nutzen, um das Training ohne echte Fotos zu ermöglichen.

Warum ist das toll?

Schnell: Passt riesige Modelle in Minuten auf einen Chip.
Privat: Braucht keine echten Fotos (gut für Datenschutz).
Leistungsstark: Funktioniert sogar bei extrem starker Vereinfachung, wo andere Methoden versagen.

Es ist, als würdest du einen Michelin-Stern-Koch in einen Campingkoch verwandeln, ohne dass das Essen schlechter schmeckt – und das alles, ohne jemals ein echtes Foto von einem Gericht gesehen zu haben, sondern nur durch kreative Vorstellungskraft.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision Transformers (ViTs) haben sich in der Bilderkennung durchgesetzt, sind jedoch aufgrund ihres hohen Rechen- und Speicheraufwands schwer auf ressourcenbeschränkten Geräten (Edge Devices) einzusetzen. Eine gängige Lösung ist die Modellquantisierung, um die Präzision von Gewichten und Aktivierungen zu reduzieren.

Herausforderungen bei ViTs: Im Gegensatz zu CNNs weisen ViTs komplexe Abhängigkeiten zwischen den Blöcken (Inter-Block-Dependencies), nicht-gaußsche Aktivierungsverteilungen mit starken Ausreißern und eine hohe Kanalvarianz auf.
Limitationen bestehender PTQ-Methoden: Herkömmliche Post-Training-Quantisierung (PTQ) Methoden, die oft blockweise rekonstruieren oder Schicht für Schicht kalibrieren, versagen bei ViTs, da sie diese globalen Korrelationen ignorieren.
Datenabhängigkeit: Viele effiziente Methoden benötigen gelabelte Kalibrierungsdaten, was in datenschutzsensiblen Szenarien oder bei Datenknappheit ein Problem darstellt.
Extreme Low-Bit-Quantisierung: Bisher gab es keine erfolgreichen PTQ-Methoden für ViTs unterhalb von 2-Bit (z. B. ternäre Gewichte W1.58), da die Genauigkeit dort rapide einbricht.

2. Methodik

Das Paper stellt einen End-to-End-PTQ-Rahmen vor, der alle Quantisierungsparameter über das gesamte Netzwerk hinweg gemeinsam optimiert, ohne gelabelte Daten zu benötigen.

A. Gemeinsame Optimierung (Joint Optimization)

Statt Blöcke isoliert zu behandeln, optimiert das Framework alle Schichten und Block-Abhängigkeiten simultan unter einem einheitlichen Ziel.

Uniforme Quantisierung: Es wird ein standardmäßiger uniformer Quantisierer verwendet, der auf hardwarefreundliche Weise reelle Werte auf diskrete Ganzzahlen abbildet.
Kanalweise Reskalierung (Channel-Wise Rescaling): Um die starke Varianz in den Aktivierungen zu bewältigen, werden lernbare Skalierungs- ( $\alpha$ ) und Verschiebungsvektoren ( $\beta$ ) eingeführt. Diese glätten das Aktivierungsspektrum pro Kanal, bevor quantisiert wird, und kompensieren die Skalierung in den Gewichten, um die funktionale Äquivalenz zu wahren.
Gewichtsverfeinerung (Weight Refinement): Zusätzlich werden kleine Verfeinerungsterme für die Gewichte gelernt, um die Quantisierungsfehler zu minimieren.
Verlustfunktion: Da keine Labels verwendet werden, erfolgt die Optimierung durch Distillation. Ein Verlust aus der mittleren quadratischen Fehler (MSE) zwischen den Zwischenmerkmalen (Feature Maps) des Vollpräzisionsmodells und des quantisierten Modells sowie eine KL-Divergenz der finalen Logits sorgt für die Anpassung.

B. Datenfreie Kalibrierung mit Gelernten Prompts

Um die Abhängigkeit von echten Bilddaten zu eliminieren, wird eine Strategie zur Synthese von Kalibrierungsdaten mittels Stable Diffusion Turbo entwickelt.

Lernen multipler Prompts: Statt manueller Text-Prompts (z. B. „ein Foto von einer Katze") werden für jede der 1.000 ImageNet-Klassen mehrere (M) lernbare Prompt-Embeddings optimiert.
Optimierungsziel: Die Prompts werden so trainiert, dass sie Bilder generieren, die von einem vortrainierten ViT korrekt klassifiziert werden (Klassifikationsverlust).
Vielfalt (Diversity): Um sicherzustellen, dass die synthetischen Daten die Vielfalt der realen Welt abbilden, werden Regularisierungsterme eingeführt:
- Orthogonalitätsverlust: Fördert unterschiedliche semantische Richtungen der Prompts.
- Varianzverlust: Maximiert die Vielfalt in den generierten Bildern, den ViT-Merkmalen und den Attention-Karten.
Ergebnis: Dies erzeugt diverse, semantisch korrekte Bilder mit unterschiedlichen Hintergründen, Layouts und Stilen, die die Aktivierungsverteilung echter Daten gut approximieren.

3. Wichtige Beiträge

End-to-End PTQ Framework: Ein neues Optimierungsverfahren für ViTs, das alle Quantisierungsparameter (Schrittweite, Nullpunkt, Reskalierung) über das gesamte Netzwerk hinweg gemeinsam und ohne Labels optimiert.
Datenfreie Strategie mit Gelernten Prompts: Eine innovative Methode, die Stable Diffusion Turbo mit lernbaren Multi-Mode-Prompts kombiniert, um hochwertige synthetische Kalibrierungsdaten zu erzeugen, die reale Daten ersetzen können.
State-of-the-Art Ergebnisse bei extrem niedrigen Bitraten: Der erste Nachweis erfolgreicher PTQ bei ViTs unter extremen Bedingungen (z. B. W1.58A8 – ternäre Gewichte, 8-Bit Aktivierungen), was bisher als unmöglich galt.
Effizienz: Das Verfahren ist rechnerisch effizient und benötigt für ViT-Small nur etwa 1 Stunde auf einer einzelnen GPU.

4. Ergebnisse

Die Methode wurde auf ImageNet-1K für verschiedene Architekturen (ViT, DeiT, Swin-T) getestet:

Quantisierungsleistung:
- Bei W4A4 und W3A3 werden State-of-the-Art-Ergebnisse erzielt, die bestehende Methoden wie RepQ-ViT, FIMA-Q und APHQ-ViT deutlich übertreffen.
- Bei W1.58A8 (ternäre Gewichte) zeigt die Methode eine bemerkenswerte Robustheit. Während andere Methoden hier fast vollständig versagen (Genauigkeit nahe 0% oder <50%), erreicht das vorgestellte Verfahren hohe Genauigkeiten (z. B. ~68% für ViT-S und ~78% für ViT-B).
Datenfreie vs. Reale Daten:
- Die Verwendung von 100.000 synthetischen Bildern (generiert durch gelernte Prompts) führt nur zu einem minimalen Genauigkeitsverlust (ca. 1–2 %) im Vergleich zur Kalibrierung mit 10.000 echten Bildern.
- Im Vergleich zu einfachen Text-Prompt-Baselines („a photo of ") übertrifft die Methode mit gelernten Prompts diese signifikant, insbesondere bei niedrigen Bitraten (z. B. +3,6% bei W1.58A8).
Skalierbarkeit: Die Genauigkeit steigt mit der Größe des Kalibrierungsdatensatzes an und sättigt erst bei ca. 10.000–25.000 Samples, wobei das Framework auch mit minimalen Datenmengen funktioniert.

5. Bedeutung und Fazit

Dieses Paper adressiert kritische Hindernisse für den Einsatz von Vision Transformern auf Edge-Geräten. Durch die Kombination aus einer globalen, blockübergreifenden Optimierung und einer fortschrittlichen, datenfreien Generierung von Kalibrierungsdaten wird gezeigt, dass:

Vision Transformers auch unter extremen Quantisierungsbedingungen (W1.58) effizient eingesetzt werden können.
Die Abhängigkeit von großen Mengen an gelabelten Trainingsdaten für die Quantisierung überwunden werden kann.
Gelernte generative Priors (via Stable Diffusion) eine realistische und diverse Alternative zu echten Daten darstellen.

Die Arbeit ebnet den Weg für die effiziente Bereitstellung hochleistungsfähiger Transformer-Modelle in ressourcenbeschränkten Umgebungen, ohne Kompromisse bei der Genauigkeit eingehen zu müssen.

Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

1. Der "Gemeinsame Tanz" statt Einzelkämpfer (Joint Optimization)

2. Der "Magische Bild-Generator" ohne echte Fotos (Data-Free Calibration)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

A. Gemeinsame Optimierung (Joint Optimization)

B. Datenfreie Kalibrierung mit Gelernten Prompts

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation