SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, Diffusionsmodelle (wie die, die Bilder aus Text erstellen) sind wie geniale, aber extrem teure und langsame Künstler. Sie können wunderschöne Bilder malen, aber dafür brauchen sie riesige Computer und viel Zeit. Wenn man sie auf einem normalen Laptop oder einem Handy nutzen will, ist das wie der Versuch, einen Öltanker durch eine enge Gasse zu manövrieren – es passt einfach nicht.

Das Problem: Um diese Modelle kleiner und schneller zu machen, versucht man, ihre "Gedanken" zu komprimieren (das nennt man Quantisierung). Aber bisher war das wie ein grobes Sieb: Man hat die feinen Details einfach weggeschüttet, weil man nicht wusste, welche Teile wichtig sind. Das Ergebnis waren oft klobige, unscharfe Bilder.

Hier kommt SegQuant ins Spiel. Die Forscher haben eine neue Methode entwickelt, die man sich wie einen intelligenten, sprechenden Logistikmanager vorstellen kann.

Hier ist die Erklärung in einfachen Schritten:

1. Das Problem: Der "One-Size-Fits-All"-Fehler

Bisher behandelten alle Teile des Künstlers (des Modells) gleich. Man sagte: "Wir machen alle Zahlen kleiner."

Das Problem: Ein Teil des Künstlers (der für die Zeitplanung zuständig ist) braucht ganz andere Zahlen als ein anderer Teil (der für die Farben zuständig ist). Wenn man sie alle gleich behandelt, verliert man wichtige Informationen. Es ist, als würde man versuchen, einen feinen Diamanten und einen groben Stein mit demselben Hammer zu bearbeiten – der Diamant geht kaputt.

2. Die Lösung: SegQuant (Der intelligente Manager)

SegQuant schaut sich nicht nur die Zahlen an, sondern versteht die Struktur des Künstlers. Es nutzt zwei geniale Tricks:

Trick A: SegLinear – Der "Semantische Zerteiler"

Stell dir vor, der Künstler hat einen riesigen Arbeitsplan, in dem verschiedene Aufgaben nebeneinander liegen.

Früher: Man hat den ganzen Plan in einem Stück komprimiert.
Mit SegQuant: Der Manager schaut sich den Plan an und sagt: "Aha! Hier werden drei verschiedene Dinge gleichzeitig verarbeitet (z.B. Zeit, Text und Bild). Diese drei Dinge gehören nicht zusammen!"
Die Analogie: Es ist wie beim Packing von Umzugskartons. Früher warf man alles in einen Kasten. SegQuant erkennt: "Oh, hier sind zerbrechliche Gläser (wichtige Details), hier sind schwere Bücher (robuste Daten) und hier sind empfindliche Blumen." Er packt sie in getrennte, passgenaue Kartons. So wird nichts zerquetscht, und der Koffer (der Computer) wird trotzdem kleiner.

Trick B: DualScale – Der "Polaritäts-Wächter"

Einige Teile des Künstlers arbeiten mit Zahlen, die sowohl positiv als auch negativ sein können (wie Temperatur: +20 Grad oder -5 Grad).

Das Problem: Bei der Komprimierung neigen Computer dazu, die negativen Zahlen (die oft sehr klein und fein sind) zu ignorieren oder zu verzerren. Das ist, als würde man in einem Foto nur die hellen Stellen sehen und die Schatten komplett schwarz machen. Die Details gehen verloren.
Mit DualScale: Der Manager sagt: "Moment! Wir brauchen für die hellen Zahlen (positiv) eine andere Skala als für die dunklen Zahlen (negativ)."
Die Analogie: Stell dir vor, du hast eine Waage. Normalerweise wiegt man alles mit einem Gewicht. Aber wenn du eine Feder (sehr leicht) und einen Stein (sehr schwer) wiegen willst, brauchst du zwei verschiedene Waagen, damit die Feder nicht untergeht. DualScale wiegt die positiven und negativen Zahlen getrennt, aber so geschickt, dass der Computer trotzdem schnell rechnet (ohne neue, langsame Hardware zu brauchen).

3. Warum ist das so besonders?

Es ist automatisch: Früher mussten Experten manuell entscheiden, welche Teile des Modells wie komprimiert werden sollen (wie ein Handwerker, der jeden Schraube einzeln anzieht). SegQuant schaut sich den Bauplan (den "Graph") des Modells an und entscheidet automatisch, wo welche Technik angewendet wird. Das funktioniert für fast jeden Künstlertyp, nicht nur für einen bestimmten.
Es ist kompatibel: Viele neue Methoden sind so speziell, dass sie auf normalen Computern gar nicht laufen. SegQuant ist so gebaut, dass es mit den Standard-Tools (wie NVIDIA TensorRT) funktioniert, die Firmen bereits nutzen. Es ist wie ein Adapter, der perfekt in jede Steckdose passt.

Zusammenfassung

SegQuant ist wie ein Schneiderei-Experte, der für jeden Diffusions-Künstler maßgeschneiderte Kleidung anfertigt.

Er schneidet das Stoffmuster (die Daten) so zu, dass keine wichtigen Details verloren gehen (SegLinear).
Er verwendet verschiedene Nähte für helle und dunkle Bereiche, damit nichts verzerrt aussieht (DualScale).
Und das alles passiert automatisch, ohne dass man den Künstler neu ausbilden muss.

Das Ergebnis? Die Modelle werden kleiner und schneller, aber die Bilder sehen immer noch so scharf und detailliert aus, als wären sie auf einem riesigen Supercomputer entstanden. Ein Gewinn für alle, die KI auf normalen Geräten nutzen wollen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Diffusionsmodelle haben sich als führende generative Modelle etabliert, sind jedoch aufgrund ihrer hohen Rechenintensität und ihres großen Speicherbedarfs schwer in ressourcenbeschränkten oder latenzsensitiven Umgebungen einzusetzen. Post-Training-Quantisierung (PTQ) bietet eine vielversprechende Lösung, da sie Modelle komprimiert, ohne dass ein Nachtraining oder Trainingsdaten erforderlich sind.

Es bestehen jedoch erhebliche Herausforderungen bei der Anwendung bestehender PTQ-Methoden auf Diffusionsmodelle:

Mangelnde Generalisierbarkeit: Viele aktuelle Methoden (z. B. Q-Diffusion) basieren auf manuellen, architekturspezifischen Heuristiken (z. B. spezifische Regeln für UNet-Skip-Connections), die sich nicht auf moderne Transformer-Architekturen wie DiT (Diffusion Transformers) übertragen lassen.
Der „Compiler-Gap": Andere Ansätze (z. B. PTQ4DiT) nutzen dynamische Laufzeitdaten (z. B. timestepspezifische Aktivierungen), um die Quantisierung zu steuern. Dies ist inkompatibel mit modernen, graphbasierten AI-Compilern (wie TensorRT), die eine statische Graphanalyse für Optimierungen benötigen.
Verlust der Bildqualität: Diffusionsmodelle nutzen oft nichtlineare Aktivierungsfunktionen wie SiLU oder GELU, die polaritätsasymmetrische Aktivierungen erzeugen (dichte negative Werte neben positiven). Herkömmliche Quantisierungsmethoden komprimieren diesen negativen Bereich oft zu stark, was zu einem Verlust feiner Details und Texturkonsistenz führt.

2. Methodik: Das SegQuant-Framework

SegQuant ist ein modulares, deployment-orientiertes Framework, das eine Top-Down-Strategie verfolgt. Es integriert bestehende Techniken (Optimierer und Kalibrator) mit zwei neuartigen Komponenten, die rein auf der statischen Berechnungsgraphen-Analyse basieren, um die Kompatibilität mit Compilern zu gewährleisten.

A. SegLinear: Semantikbewusste Segmentierung

SegLinear adressiert die semantische Heterogenität innerhalb linearer Schichten.

Prinzip: In komplexen Architekturen (wie DiT) werden Eingabevektoren oft durch Operationen wie Chunk, Split, Concat oder Reshape in semantisch unterschiedliche Segmente unterteilt (z. B. latente Merkmale vs. Zeit-Embeddings). Eine einheitliche Quantisierung über diese Segmente hinweg führt zu Interferenzen und Qualitätsverlust.
Lösung: SegLinear analysiert den statischen Graphen (z. B. via torch.fx), um diese semantischen Grenzen automatisch zu erkennen. Es teilt die Gewichtsmatrizen und Aktivierungen entsprechend auf und wendet für jedes Segment eine unabhängige Quantisierung an.
Vorteil: Dies eliminiert manuelle Regeln, funktioniert architekturübergreifend (UNet, DiT) und erhält die Integrität verschiedener Datenpfade.

B. DualScale: Polaritätserhaltende Quantisierung

DualScale löst das Problem der Polaritätsasymmetrie bei Aktivierungen (z. B. durch SiLU).

Problem: Herkömmliche asymmetrische Quantisierung nutzt oft einen einzigen Skalierungsfaktor oder Zero-Point, was die feinen negativen Werte (die für Details entscheidend sind) übermäßig komprimiert.
Lösung: DualScale teilt die Aktivierungsmatrix in positive ( $X^+$ ) und negative ( $X^-$ ) Anteile auf. Jeder Anteil erhält einen eigenen Skalierungsfaktor ( $s_+$ und $s_-$ ), um die Auflösung in beiden Bereichen zu erhalten.
Hardware-Nativität: Im Gegensatz zu anderen Methoden, die benutzerdefinierte Hardware-Kernel benötigen, wird DualScale so implementiert, dass es native GPU-Operationen (Tensor Cores, CUDA Epilogue Fusion) nutzt. Die Berechnung erfolgt als ein einziger, hocheffizienter BatchedGEMM-Vorgang (z. B. via CUTLASS), der die getrennten Berechnungen parallelisiert und die Ergebnisse linear kombiniert. Dies vermeidet Latenz durch benutzerdefinierte Operatoren.

3. Schlüsselbeiträge

SegQuant-Framework: Ein modulares, top-down Framework, das die Lücke zwischen effektiver Quantisierung und automatischer Compiler-Integration schließt.
SegLinear: Eine vollständig automatische, graphbasierte Methode zur semantischen Segmentierung von Gewichten, die auf statischen Graphenmustern basiert und keine manuellen Regeln benötigt.
DualScale: Eine hardware-native Technik zur Erhaltung polaritätsasymmetrischer Aktivierungen, die die Bildqualität verbessert, ohne die Inference-Geschwindigkeit durch benutzerdefinierte Hardware-Implementierungen zu beeinträchtigen.
Generalisierbarkeit: Das Framework funktioniert nicht nur für DiT-Modelle, sondern ist modellagnostisch und kompatibel mit gängigen Deployment-Tools.

4. Ergebnisse

Die Autoren evaluierten SegQuant an drei repräsentativen Text-zu-Bild-Modellen: Stable Diffusion 3.5 (DiT), FLUX.1-dev (DiT) und SDXL (UNet).

Qualitätsgewinn: Auf dem MJHQ-30K-Dataset und anderen Benchmarks (COCO, DCI) übertrifft SegQuant (sowohl die AMax- als auch die GPTQ-Variante) den State-of-the-Art (SOTA) wie PTQ4DiT, Q-Diffusion und SmoothQuant signifikant.
- Bei SD3.5 (W8A8) erreichte SegQuant-G ein FID von 23.94 (verglichen mit 25.66 bei PTQ4DiT) und ein Image Reward von 0.859 (verglichen mit 0.752).
- Bei FLUX (W8A8) erzielte SegQuant-A ein FID von 22.85, was nahe am FP16-Baseline-Wert von 23.21 liegt, während andere Methoden deutlich schlechter abschnitten.
Effizienz: Die Methode führt zu einer geringen Speicherersparnis und einer nur minimalen Erhöhung der Inferenzzeit (durch die Segmentierung und Dual-Scale-Schritte), bleibt aber deutlich schneller als manuell optimierte Lösungen.
Ablationsstudie: Die Kombination aus SegLinear und DualScale erwies sich als synergistisch. SegLinear reduzierte den Frobeneus-Fehler in einzelnen Schichten drastisch, während DualScale die visuelle Detailtreue (insbesondere bei Texturen) sicherte.

5. Bedeutung und Fazit

SegQuant stellt einen Paradigmenwechsel in der Quantisierung von Diffusionsmodellen dar. Indem es sich von manuellen Heuristiken und dynamischen Laufzeitdaten löst und stattdessen die intrinsic semantische Struktur des Berechnungsgraphen nutzt, ermöglicht es eine robuste, generalisierbare und compiler-freundliche Quantisierung.

Die Bedeutung liegt in der praktischen Einsatzfähigkeit: SegQuant macht hochqualitative Diffusionsmodelle für den industriellen Einsatz in ressourcenbeschränkten Umgebungen zugänglich, ohne die Notwendigkeit für teures Nachtraining oder die Entwicklung proprietärer Hardware-Kernel. Es adressiert direkt die Herausforderungen moderner Transformer-basierter Generativmodelle und setzt einen neuen Standard für die Balance zwischen Quantisierungspräzision und Deployment-Flexibilität.