QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources

Each language version is independently generated for its own context, not a direct translation.

🚀 QFT: Wie man riesige KI-Modelle mit einem normalen Laptop trainiert

Stell dir vor, du hast einen riesigen, genialen Koch (eine Large Language Model oder LLM), der schon alles über Kochen weiß. Aber er ist noch nicht perfekt auf deine speziellen Rezepte (deine Daten) eingestellt. Um ihn zu perfektionieren, musst du ihn „feinabstimmen" (Fine-Tuning).

Das Problem bisher: Um diesen Koch zu trainieren, brauchst du eine riesige, extrem teure Küche mit super-leistungsfähigen Öfen (High-End-GPUs). Die meisten Menschen oder kleinen Firmen können sich das nicht leisten.

Die Autoren dieses Papers haben eine Lösung namens QFT (Quantized Full-Parameter Tuning) gefunden. Sie sagen im Grunde: „Wir können den Koch trainieren, ohne die ganze teure Küche zu brauchen, indem wir ihm eine spezielle Brille aufsetzen, die ihm hilft, mit weniger Platz auszukommen."

Hier ist, wie das funktioniert, mit ein paar lustigen Vergleichen:

1. Das Problem: Der überfüllte Rucksack 🎒

Beim normalen Training muss der KI-Modell-Rucksack drei Dinge gleichzeitig tragen:

Das Wissen (die Gewichte/Parameter).
Die Notizen (die Gradienten – was war falsch?).
Die Erinnerung (Optimierer-Zustände – wie schnell sollen wir lernen?).

In der normalen Welt (FP32) sind diese Notizen und das Wissen extrem detailliert, wie wenn man alles in 4K-Auflösung schreibt. Das macht den Rucksack so schwer, dass er nur auf einem riesigen Lastwagen (teure GPU) transportiert werden kann.

2. Die Lösung QFT: Alles in den „Kleiderkasten" packen 🧥

QFT macht zwei geniale Dinge, um den Rucksack zu erleichtern:

A. Der Lion-Trainer (Der sture Lehrer) 🦁
Normalerweise nutzen KI-Modelle einen Optimierer namens „Adam", der sehr komplex ist und viele Notizen führt. QFT nutzt stattdessen den Lion-Optimierer.

Der Vergleich: Stell dir Adam vor wie einen Lehrer, der jede Kleinigkeit aufschreibt und sich an jede Nuance erinnert. Lion ist wie ein strenger, aber einfacher Lehrer, der nur sagt: „Geh nach links" oder „Geh nach rechts".
Warum das hilft: Da Lion nur die Richtung (Vorzeichen) zählt und nicht die genaue Stärke der Bewegung, ist er sehr robust. Man kann seine Notizen auf ein kleines Stück Papier (INT8) schreiben, ohne dass er den Weg vergisst. Er stolpert nicht, auch wenn die Zahlen nicht mehr so präzise sind.

**B. Der Hybrid-Quantisierer (Der Ausreißer-Fänger) 🎣
Das ist der schwierigste Teil: Die Gewichte (das Wissen des Kochs).

Das Problem: Die meisten Zahlen im Modell sind klein und normal (wie normale Leute). Aber es gibt ein paar extreme Ausreißer (wie Superstars), die riesige Werte haben. Wenn man alles auf eine kleine Skala (INT8) komprimiert, werden diese Superstars zerkleinert und das Modell wird dumm.
Die QFT-Lösung: Sie nutzen einen Hybrid-Ansatz.
- Sie fangen die 99 % der „normalen" Zahlen ein und komprimieren sie stark (wie einen dichten Stapel Bücher).
- Die 1 % der „Superstars" (die Ausreißer) lassen sie in ihrer ursprünglichen, detaillierten Form (wie einen einzelnen, wertvollen Diamanten).
- Der Vorteil: Der Diamant ist so klein, dass er kaum Platz wegnimmt, aber er rettet die Qualität des Modells. So muss man keine riesige Kopie des Wissens (FP32) mehr im Hintergrund behalten.

3. Der Trick mit dem Stapel (Stack) 📚

Damit das Training im „Ganzzahl-Modus" (Integer) funktioniert, haben die Autoren einen cleveren Trick für den Rückwärtsweg (Backpropagation) erfunden.

Der Vergleich: Stell dir vor, du musst eine Nachricht von hinten nach vorne durch eine Kette von Leuten weitergeben. Normalerweise müsste jeder die ganze Nachricht auf einem Zettel aufschreiben. QFT nutzt einen Stapel (Stack). Jeder gibt seinen Teil des Zettels oben auf den Stapel. Wenn es Zeit zum Auswerten ist, nimmt man einfach das oberste Blatt ab. Das ist super schnell und braucht fast keinen Platz mehr.

🏆 Das Ergebnis: Ein Wunder mit einem einzigen GPU

Das Paper zeigt, dass man mit QFT ein riesiges Modell (LLaMA-2-7B) auf einer einzigen, handelsüblichen Grafikkarte (wie einer NVIDIA A6000) trainieren kann, die weniger als 30 GB Speicher hat.

Früher: Man brauchte 104 GB RAM (wie ein ganzer Server-Rack).
Mit QFT: Man braucht nur noch 25 GB RAM (wie ein normaler Gaming-PC).
Die Qualität: Das trainierte Modell ist fast genauso gut wie das, das auf den teuren Supercomputern trainiert wurde.

Zusammenfassung in einem Satz

**QFT ist wie ein genialer Umzugsservice, der dein riesiges, schweres KI-Modell in viele kleine, leichte Kartons packt (Quantisierung), die wertvollsten Gegenstände besonders schützt (Hybrid-Quantisierung) und mit einem effizienten Fahrer (Lion-Optimierer) so transportiert, dass du es mit einem ganz normalen Auto (einer einzelnen Grafikkarte) überall hinbringen kannst, ohne dass etwas kaputtgeht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Feinabstimmen (Fine-Tuning) von Large Language Models (LLMs) auf Downstream-Daten ist entscheidend für deren Leistungsfähigkeit, erfordert jedoch immense GPU-Ressourcen. Der Hauptengpass liegt im Speicherbedarf für Modellzustände (Gewichte, Gradienten und Optimierer-Zustände wie Momentum und Varianz).

Bei Standard-Methoden (FP32 mit Adam-Optimierer) benötigt ein Modell wie LLaMA-7B mindestens 104 GB RAM, was über der Kapazität vieler verfügbarer GPUs liegt.
Parameter-effiziente Feinabstimmung (PEFT, z. B. LoRA) spart Speicher, erreicht aber oft nicht die Leistung des vollen Parameter-Tunings.
Bestehende Quantisierungsansätze (z. B. QLoRA) speichern oft nur die Gewichte quantisiert, behalten aber FP32-Kopien für Updates oder nutzen gemischte Präzision, was den Speicherbedarf nicht ausreichend senkt.
Ziel: Eine Methode entwickeln, die Full-Parameter-Tuning (alle Parameter werden aktualisiert) auf kostengünstiger Hardware (z. B. einzelne Consumer-GPUs wie A6000 mit <30 GB VRAM) ermöglicht, ohne die Trainingsleistung zu opfern.

2. Methodik: QFT (Quantized Full-Parameter Tuning)

QFT ist ein Framework, das alle Trainingszustände (Gewichte, Gradienten, Optimierer-Zustände) im INT8-Format speichert. Um die Stabilität und Genauigkeit trotz der niedrigen Bit-Breite zu gewährleisten, werden drei Kernkomponenten eingesetzt:

A. Robuste Quantisierung von Gradienten und Optimierer-Zuständen (Lion-Optimierer)

Anstelle komplexer Quantisierungsalgorithmen wird der Lion-Optimierer verwendet.

Theoretische Begründung: Lion aktualisiert Parameter basierend auf dem Vorzeichen (Sign) der Summe aus Momentum und Gradienten. Die Autoren beweisen theoretisch, dass Lion extrem robust gegenüber Quantisierungsfehlern ist.
Beweis: Unter der Annahme additiver, gaußverteilter Quantisierungsfehler bleibt das Vorzeichen des Updates ( $\text{sign}(\Delta)$ ) mit einer Wahrscheinlichkeit von >95 % unverändert, solange die Größe des Updates eine bestimmte Schwelle überschreitet. Empirische Tests zeigen, dass dies in >97,9 % der Fälle zutrifft.
Vorteil: Da Lion keine Varianz speichert (nur Momentum), entfällt eine weitere Speicherquelle, und die konsistente Update-Magnitude minimiert Quantisierungsartefakte.

B. Hybride Merkmals-Quantisierung für Gewichte (Hybrid Feature Quantizer)

Gewichte sind schwieriger zu quantisieren als Gradienten, da sie oft extreme Ausreißer (Outliers) enthalten, die den dynamischen Bereich stark vergrößern.

Ansatz: Eine Zerlegung der Gewichte in eine dichte Matrix ( $D$ $D$ ) und eine sparse Matrix ( $S$ $S$ ).
- $D$ : Enthält die meisten Werte (ca. 99 %), die im Bereich von $T_{min}$ bis $T_{max}$ liegen. Diese werden uniform als INT8 quantisiert.
- $S$ : Enthält die kritischen Ausreißer (ca. 1 %). Diese bleiben im FP32-Format (oder werden als sparse Struktur gespeichert), um wichtige Informationen zu bewahren.
Unterschied zu Mixed-Precision: Im Gegensatz zu FP16-Training, das eine vollständige FP32-Master-Kopie der Gewichte benötigt, speichert QFT nur einen kleinen Teil (die Ausreißer) in hoher Präzision. Dies eliminiert die Notwendigkeit einer vollständigen FP32-Kopie und spart massiv Speicher.
Effizienz: Die dichten Anteile werden on-the-fly de-quantiert für die Berechnung (MatMul), während die sparse Struktur im Speicher effizient (z. B. CSR-Format) gehalten wird.

C. Integer-basierte Trainings-Pipeline (Stack-basierte Gradienten-Strömung)

Da Standard-Frameworks (wie PyTorch) keine Gradienten für integer-gespeicherte Gewichte direkt über AutoGrad berechnen können, wurde ein neuer Mechanismus entwickelt:

Stack-basierte Gradienten: Während des Backpropagation-Durchlaufs werden die berechneten Gradienten (nach De-Quantisierung und Berechnung) als INT8 auf einen globalen Stack gepusht.
O(1) Zugriff: Beim Optimierungs-Schritt werden die Gradienten in umgekehrter Reihenfolge (Last-In-First-Out) vom Stack gepoppt. Dies ermöglicht eine $O(1)$ -Komplexität für den Zugriff und eliminiert die Abhängigkeit von FP32-Gradienten im Speicher.
Ergebnis: Ein vollständig integer-basierter Trainingspipeline, der nur INT8-Speicher benötigt.

3. Wichtige Beiträge

QFT-Framework: Ein vollständig quantisiertes Full-Parameter-Tuning-System, das den Speicherbedarf für Modellzustände drastisch reduziert, ohne auf PEFT-Methoden zurückzugreifen.
Theoretische Robustheit von Lion: Der erste theoretische Beweis, dass der Lion-Optimierer aufgrund seiner Sign-basierten Updates inhärent robust gegen Quantisierungsfehler ist.
Hybride Gewichts-Quantisierung: Eine Methode, die kritische Ausreißer in Gewichten schützt, während der Rest quantisiert wird, ohne eine vollständige FP32-Kopie zu benötigen.
Integer-Backpropagation: Ein neuartiger, stack-basierter Gradientenfluss mit $O(1)$ -Komplexität, der Backpropagation in einem reinen Integer-Kontext ermöglicht.

4. Ergebnisse

Die Methode wurde am LLaMA-2-7B und LLaMA-2-13B Modell evaluiert:

Speichereffizienz:
- QFT reduziert den Speicherbedarf für Modellzustände auf 21 % im Vergleich zum Standard-FP32-Adam-Training.
- Ein LLaMA-7B-Modell benötigt mit QFT nur <30 GB VRAM (Peak: 28,9 GB), was das Feinabstimmen auf einer einzelnen NVIDIA A6000 (48 GB) oder sogar kleineren GPUs ermöglicht.
- Zum Vergleich: Standard-Adam benötigt ~104 GB, Bitsandbytes ~66,6 GB.
Leistungsqualität:
- Few-Shot Benchmarks (ARC, HellaSwag, MMLU, TruthfulQA): QFT erreicht Leistungswerte, die denen des vollen FP32-Tunings (FT-Adam) nahezu entsprechen (z. B. 57,4 vs. 58,0 im Durchschnitt für LLaMA-2-7B) und LoRA deutlich übertrifft.
- MT-Bench (Konversationsfähigkeit): QFT erzielt einen Score von 5,95 (vs. 6,08 bei FT-Adam), was eine sehr geringe Lücke zum Full-Precision-Training darstellt.
- Konvergenz: Die Trainingsverlustkurven zeigen eine vergleichbare Konvergenzgeschwindigkeit wie FP32-Training.
Overhead: Durch die De-Quantisierung entsteht ein leichter Zeit-Overhead (Faktor 1,2–1,3× langsamer als FP32), was jedoch im Verhältnis zur enormen Speichereinsparung als akzeptabler Trade-off betrachtet wird.

5. Bedeutung und Fazit

QFT stellt einen Paradigmenwechsel dar, indem es Full-Parameter-Tuning für große Sprachmodelle auf kommerzieller, erschwinglicher Hardware (Single-GPU-Setups) zugänglich macht.

Es überwindet die Limitierungen von PEFT, die oft in der Repräsentationskapazität eingeschränkt sind.
Es umgeht die Speicherineffizienz von gemischter Präzision (FP16/FP32), die immer noch FP32-Kopien erfordert.
Die Arbeit zeigt, dass durch die Kombination eines quantisierungsrobusten Optimierers (Lion), intelligenter Gewichts-Quantisierung (Hybrid-Feature) und einer angepassten Pipeline (Integer-Backprop) die „Memory Wall" durchbrochen werden kann, ohne signifikante Einbußen bei der Modellqualität.

Dies ermöglicht es Forschern und Entwicklern, LLMs ohne Zugriff auf teure GPU-Cluster (wie A100/H100-Cluster) effizient und vollständig zu trainieren.