FreeAct: Freeing Activations for LLM Quantization

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich einen riesigen, hochintelligenten Bibliothekar vor, den wir "Großes Sprachmodell" (LLM) nennen. Dieser Bibliothekar kann unglaublich komplexe Fragen beantworten, Gedichte schreiben und Bilder verstehen. Aber er hat ein riesiges Problem: Er ist so schwer, dass er kaum auf einem normalen Computer oder Smartphone Platz findet. Er braucht einen ganzen Server-Raum an Speicherplatz und Energie.

Um ihn "leichter" zu machen, versuchen Forscher, ihn zu quantisieren. Das ist wie beim Umpacken: Statt jedes Buch mit einer dicken, schweren Ledereinband (hohe Genauigkeit, z.B. 16-Bit) zu versehen, packen wir sie in dünne Papiertüten (niedrige Genauigkeit, z.B. 4-Bit). Das spart enorm viel Platz.

Das Problem: Die starre Umverpackung
Bisherige Methoden waren wie ein starrer Gießkasten. Man nahm alle Bücher (die Daten), goss sie in eine einzige Form und hoffte, dass alles passt.

Das Problem: Nicht alle Bücher sind gleich. Manche sind dünn (Text), andere dick und schwer (Bilder), und bei Diffusions-Modellen (eine spezielle Art von KI) ändern sich die Bücher sogar während des Lesens (von "verdeckt" zu "sichtbar").
Wenn man alle in dieselbe starre Form presst, werden die dicken Bücher zerquetscht (Fehler entstehen) oder die dünnen verschwimmen. Die KI wird dumm oder macht Unsinn.

Die Lösung: FreeAct – Der flexible Umverpacker
Die Forscher aus diesem Papier haben eine neue Methode namens FreeAct entwickelt. Das "Free" steht für "Befreien".

Stellen Sie sich FreeAct nicht als starren Gießkasten vor, sondern als einen intelligenten, flexiblen Verpacker mit mehreren Händen.

Er erkennt die Unterschiede: FreeAct schaut sich an, was gerade verpackt wird.
- Ist es ein Text-Token? -> Er nimmt eine spezielle, weiche Schachtel.
- Ist es ein Bild-Token? -> Er nimmt eine andere, stabilere Schachtel.
- Ist es ein "Maskierungs-Token" (ein Platzhalter in Diffusions-Modellen)? -> Er nimmt eine dritte Art von Verpackung.
Die Trennung von Gewicht und Inhalt:
- Die Gewichte (das Wissen): Das ist wie das Regal im Hintergrund. Es bleibt statisch und unverändert. Das ist gut, denn wir wollen das Wissen nicht neu erfinden.
- Die Aktivierungen (die Eingaben): Das sind die Bücher, die gerade hereinkommen. Hier erlaubt FreeAct sich Freiheit. Statt ein Regal für alle Bücher zu bauen, baut er für jeden Buch-Typ sein eigenes, perfekt passendes Regal.

Die magische Mathematik (einfach erklärt)
Früher dachte man: "Wenn ich das Regal für die Bücher ändere, muss ich das Regal für das Wissen genau entgegengesetzt ändern, damit es mathematisch passt." Das war wie eine starre Kette, die beide Hände zusammenband.

FreeAct hat diese Kette durchbrochen. Die Forscher haben entdeckt, dass die Daten (die Bücher) oft "lückenhaft" sind (mathematisch: rangdefizitär). Das bedeutet, sie brauchen nicht den ganzen Raum.

Die Analogie: Stellen Sie sich vor, Sie haben einen großen Raum (den Speicher). Die Bücher füllen nur einen Teil davon aus. FreeAct nutzt diese leeren Ecken geschickt aus. Er kann für die Text-Bücher eine andere Anordnung wählen als für die Bild-Bücher, ohne dass das Wissen (das Regal) davon betroffen ist. Er "entkoppelt" die Bewegung der Bücher von der Bewegung des Regals.

Das Ergebnis
Dank dieser flexiblen, "freigelassenen" Verpackung:

Passt die KI auch in die winzigen 4-Bit-Tüten, ohne dass sie dumm wird.
Sie funktioniert hervorragend bei Modellen, die Bilder verstehen (Multimodal) und bei Modellen, die schrittweise Dinge "herausfinden" (Diffusion).
In Tests war FreeAct bis zu 5,3 % besser als alle anderen Methoden. Das ist wie der Unterschied zwischen einem klugen Studenten und einem, der gerade erst angefangen hat zu lernen.

Zusammenfassung in einem Satz:
FreeAct ist wie ein Meister-Packer, der aufhört, alle Dinge gleich zu behandeln; er erkennt, ob er gerade ein Bild, einen Text oder ein Rätsel verpackt, und wählt dafür die perfekte, individuelle Schachtel aus, während das Fundament (das Wissen der KI) stabil bleibt. So wird die KI klein, schnell und trotzdem schlau.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „FreeAct: Freeing Activations for LLM Quantization" auf Deutsch:

1. Problemstellung

Die Quantisierung von Large Language Models (LLMs) ist entscheidend, um den hohen Speicher- und Rechenaufwand zu reduzieren. Herkömmliche transformationsbasierte Methoden (wie QuaRot oder FlatQuant) nutzen orthogonale Matrizen, um den Feature-Raum in einen glatteren Quantisierungsraum zu projizieren.

Das Hauptproblem: Diese Methoden erzwingen eine starre 1-zu-1-Transformationsbeschränkung. Das bedeutet, dass für die Gewichte (Weights) und die Aktivierungen (Activations) jeweils eine inverse Matrix verwendet werden muss ( $P \times P^{-1} = I$ ), um die mathematische Äquivalenz zu gewährleisten.
Die Limitierung: Während die Gewichte während der Inferenz statisch sind, weisen die Eingabe-Aktivierungen in modernen Modellen wie Diffusion-LLMs (dLLMs) und Multimodalen LLMs (MLLMs) dynamische Muster auf.
- In dLLMs unterscheiden sich die Aktivierungen stark zwischen maskierten und unmaskierten Tokens (abhängig vom Diffusionsschritt).
- In MLLMs zeigen Vision- und Text-Tokens unterschiedliche Verteilungen.
- Die starre 1-zu-1-Beschränkung verhindert, dass diese dynamischen Unterschiede flexibel behandelt werden, was zu hohen Quantisierungsfehlern führt, insbesondere bei niedrigen Bitbreiten (z. B. W4A4).

2. Methodik: FreeAct

Die Autoren schlagen FreeAct vor, einen Post-Training-Quantisierungsrahmen, der die statische 1-zu-1-Beschränkung aufhebt, indem er die Transformation der Aktivierungen von der der Gewichte entkoppelt.

Theoretische Grundlage:
- Die Autoren nutzen die Rang-Defizienz (Rank-Deficiency) von Aktivierungen aus. Da Aktivierungen oft einen niedrigeren Rang als die Dimensionalität haben, existiert kein eindeutiges Inverses mehr.
- Stattdessen wird ein größerer Lösungsraum abgeleitet, der über einfache Inverse hinausgeht. Es wird gezeigt, dass die Bedingung $X P \tilde{P} W^T = X W^T$ erfüllt sein kann, ohne dass $P$ zwingend $\tilde{P}^{-1}$ sein muss.
- Dies ermöglicht es, verschiedene Transformationsmatrizen für verschiedene Aktivierungstypen zu verwenden, während die Gewichtsseite statisch bleibt.
Technische Umsetzung:
- Token-Indexierung: Tokens werden basierend auf ihrem Typ indexiert (z. B. Vision vs. Text in MLLMs oder Masked vs. Unmasked in dLLMs).
- Dynamische Zuweisung:
  - Für die Aktivierungen werden spezifische Matrizen $P$ und $P'$ zugewiesen, die auf die jeweiligen Token-Typen zugeschnitten sind.
  - Für die Gewichte wird eine einzige, statische Transformationsmatrix $\tilde{P}$ verwendet.
- Struktur der Matrizen: Die Matrizen werden so konstruiert, dass sie gemeinsame und eindeutige Komponenten enthalten.
  - $P = [U, U_X, 0]$
  - $P' = [U, 0, U_{X'}]$
  - $\tilde{P} = [U, U_X, U_{X'}]^T$
  - Dabei stellt $U$ den gemeinsamen Unterraum dar, während $U_X$ und $U_{X'}$ die spezifischen Unterräume für die verschiedenen Token-Typen abdecken. Nullen werden verwendet, um eine Vermischung der Information zu verhindern.
- Optimierung: Die Quantisierungsparameter werden durch Minimierung des Quantisierungsfehlers (MSE) zwischen dem originalen Output und dem quantisierten Output für die jeweiligen Aktivierungstypen optimiert.

3. Wichtige Beiträge

Paradigmenwechsel: Erstmals wird die starre 1-zu-1-Transformationsbeschränkung in der LLM-Quantisierung gelockert, um dynamische Aktivierungsmuster flexibel zu handhaben.
Einheitlicher Rahmen: FreeAct vereinigt zwei fortschrittliche LLM-Paradigmen (dLLMs und MLLMs) unter einem gemeinsamen Prinzip der Quantisierung.
Theoretische Fundierung: Die Arbeit liefert einen theoretischen Beweis, dass die Entkopplung der Transformationen durch die Rang-Defizienz der Aktivierungen möglich ist, ohne die mathematische Äquivalenz zu verlieren.
Effektive Implementierung: Der Ansatz ist leicht implementierbar (wenige Zeilen Code) und kompatibel mit bestehenden Techniken wie learnbaren Clip-Schwellenwerten und Per-Channel-Skalierung.

4. Ergebnisse

Die Methode wurde umfassend auf dLLMs (LLaDA, Dream) und MLLMs (Qwen2.5-VL, InternVL2.5) getestet, insbesondere im W4A4-Setting (4-Bit Gewichte, 4-Bit Aktivierungen).

Leistungssteigerung: FreeAct übertrifft den State-of-the-Art (SOTA) Baselines wie FlatQuant, QuaRot und SmoothQuant signifikant.
- Es wurde eine Leistungsverbesserung von bis zu 5,3 % im Vergleich zu SOTA-Baselines erzielt.
- In vielen Fällen erreicht FreeAct eine Genauigkeit, die mit W8A8-Methoden oder sogar dem 16-Bit-Basis-Modell vergleichbar ist.
Robustheit: Während Baseline-Methoden (wie RTN oder SmoothQuant) bei W4A4 oft komplett versagen (z. B. 0% Genauigkeit auf HumanEval oder GSM8K), bleibt FreeAct funktionsfähig und liefert sinnvolle Ergebnisse.
Analyse: Die Visualisierung zeigt, dass FreeAct die Aktivierungsverteilungen erfolgreich glättet und in einen engeren, einheitlicheren Bereich bringt, was die Quantisierungseffizienz erhöht.

5. Bedeutung und Ausblick

FreeAct adressiert eine fundamentale Lücke in der aktuellen Quantisierungsforschung: Die Annahme, dass statische Gewichte und dynamische Aktivierungen durch eine einzige inverse Transformation behandelbar seien.

Bedeutung: Die Arbeit ermöglicht die effiziente Inferenz von komplexen, multimodalen und diffusionsbasierten Modellen auf ressourcenbeschränkter Hardware, ohne dass die Modellleistung stark beeinträchtigt wird.
Zukunft: Der Ansatz legt den Grundstein für weitere Erweiterungen, wie die Unterstützung von mehr als zwei Modalitäten, die Automatisierung der Token-Identifikation und die Co-Design-Entwicklung mit Hardware-Kernen.

Zusammenfassend stellt FreeAct einen wichtigen Schritt hin zu flexibleren und leistungsfähigeren Quantisierungsmethoden für die nächste Generation von LLMs dar.

FreeAct: Freeing Activations for LLM Quantization

1. Problemstellung

2. Methodik: FreeAct

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers