FreeAct: Freeing Activations for LLM Quantization

Der Artikel stellt FreeAct vor, ein neuartiges Quantisierungsframework für Large Language Models, das durch die Einführung token-spezifischer Transformationen für Aktivierungen die starren Einschränkungen bestehender Methoden überwindet und so insbesondere bei Diffusions- und Multimodal-LLMs die Leistung signifikant verbessert.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang, Ji-Fu Li, Xianzhi Yu, Fei Shen, Xiu Su, See-Kiong Ng, Tat-Seng Chua

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich einen riesigen, hochintelligenten Bibliothekar vor, den wir "Großes Sprachmodell" (LLM) nennen. Dieser Bibliothekar kann unglaublich komplexe Fragen beantworten, Gedichte schreiben und Bilder verstehen. Aber er hat ein riesiges Problem: Er ist so schwer, dass er kaum auf einem normalen Computer oder Smartphone Platz findet. Er braucht einen ganzen Server-Raum an Speicherplatz und Energie.

Um ihn "leichter" zu machen, versuchen Forscher, ihn zu quantisieren. Das ist wie beim Umpacken: Statt jedes Buch mit einer dicken, schweren Ledereinband (hohe Genauigkeit, z.B. 16-Bit) zu versehen, packen wir sie in dünne Papiertüten (niedrige Genauigkeit, z.B. 4-Bit). Das spart enorm viel Platz.

Das Problem: Die starre Umverpackung
Bisherige Methoden waren wie ein starrer Gießkasten. Man nahm alle Bücher (die Daten), goss sie in eine einzige Form und hoffte, dass alles passt.

  • Das Problem: Nicht alle Bücher sind gleich. Manche sind dünn (Text), andere dick und schwer (Bilder), und bei Diffusions-Modellen (eine spezielle Art von KI) ändern sich die Bücher sogar während des Lesens (von "verdeckt" zu "sichtbar").
  • Wenn man alle in dieselbe starre Form presst, werden die dicken Bücher zerquetscht (Fehler entstehen) oder die dünnen verschwimmen. Die KI wird dumm oder macht Unsinn.

Die Lösung: FreeAct – Der flexible Umverpacker
Die Forscher aus diesem Papier haben eine neue Methode namens FreeAct entwickelt. Das "Free" steht für "Befreien".

Stellen Sie sich FreeAct nicht als starren Gießkasten vor, sondern als einen intelligenten, flexiblen Verpacker mit mehreren Händen.

  1. Er erkennt die Unterschiede: FreeAct schaut sich an, was gerade verpackt wird.

    • Ist es ein Text-Token? -> Er nimmt eine spezielle, weiche Schachtel.
    • Ist es ein Bild-Token? -> Er nimmt eine andere, stabilere Schachtel.
    • Ist es ein "Maskierungs-Token" (ein Platzhalter in Diffusions-Modellen)? -> Er nimmt eine dritte Art von Verpackung.
  2. Die Trennung von Gewicht und Inhalt:

    • Die Gewichte (das Wissen): Das ist wie das Regal im Hintergrund. Es bleibt statisch und unverändert. Das ist gut, denn wir wollen das Wissen nicht neu erfinden.
    • Die Aktivierungen (die Eingaben): Das sind die Bücher, die gerade hereinkommen. Hier erlaubt FreeAct sich Freiheit. Statt ein Regal für alle Bücher zu bauen, baut er für jeden Buch-Typ sein eigenes, perfekt passendes Regal.

Die magische Mathematik (einfach erklärt)
Früher dachte man: "Wenn ich das Regal für die Bücher ändere, muss ich das Regal für das Wissen genau entgegengesetzt ändern, damit es mathematisch passt." Das war wie eine starre Kette, die beide Hände zusammenband.

FreeAct hat diese Kette durchbrochen. Die Forscher haben entdeckt, dass die Daten (die Bücher) oft "lückenhaft" sind (mathematisch: rangdefizitär). Das bedeutet, sie brauchen nicht den ganzen Raum.

  • Die Analogie: Stellen Sie sich vor, Sie haben einen großen Raum (den Speicher). Die Bücher füllen nur einen Teil davon aus. FreeAct nutzt diese leeren Ecken geschickt aus. Er kann für die Text-Bücher eine andere Anordnung wählen als für die Bild-Bücher, ohne dass das Wissen (das Regal) davon betroffen ist. Er "entkoppelt" die Bewegung der Bücher von der Bewegung des Regals.

Das Ergebnis
Dank dieser flexiblen, "freigelassenen" Verpackung:

  • Passt die KI auch in die winzigen 4-Bit-Tüten, ohne dass sie dumm wird.
  • Sie funktioniert hervorragend bei Modellen, die Bilder verstehen (Multimodal) und bei Modellen, die schrittweise Dinge "herausfinden" (Diffusion).
  • In Tests war FreeAct bis zu 5,3 % besser als alle anderen Methoden. Das ist wie der Unterschied zwischen einem klugen Studenten und einem, der gerade erst angefangen hat zu lernen.

Zusammenfassung in einem Satz:
FreeAct ist wie ein Meister-Packer, der aufhört, alle Dinge gleich zu behandeln; er erkennt, ob er gerade ein Bild, einen Text oder ein Rätsel verpackt, und wählt dafür die perfekte, individuelle Schachtel aus, während das Fundament (das Wissen der KI) stabil bleibt. So wird die KI klein, schnell und trotzdem schlau.