QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources

Das Paper stellt QFT vor, ein Framework zur vollparametrischen Feinabstimmung von Large Language Models auf einzelnen GPUs mit erschwinglichen Ressourcen, indem es alle Trainingszustände in INT8 quantisiert und durch den robusten Lion-Optimierer sowie einen hybriden Feature-Quantizer die Leistungsfähigkeit beibehält.

Zhikai Li, Xiaoxuan Liu, Banghua Zhu, Zhen Dong, Qingyi Gu, Kurt Keutzer

Veröffentlicht 2026-03-19
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🚀 QFT: Wie man riesige KI-Modelle mit einem normalen Laptop trainiert

Stell dir vor, du hast einen riesigen, genialen Koch (eine Large Language Model oder LLM), der schon alles über Kochen weiß. Aber er ist noch nicht perfekt auf deine speziellen Rezepte (deine Daten) eingestellt. Um ihn zu perfektionieren, musst du ihn „feinabstimmen" (Fine-Tuning).

Das Problem bisher: Um diesen Koch zu trainieren, brauchst du eine riesige, extrem teure Küche mit super-leistungsfähigen Öfen (High-End-GPUs). Die meisten Menschen oder kleinen Firmen können sich das nicht leisten.

Die Autoren dieses Papers haben eine Lösung namens QFT (Quantized Full-Parameter Tuning) gefunden. Sie sagen im Grunde: „Wir können den Koch trainieren, ohne die ganze teure Küche zu brauchen, indem wir ihm eine spezielle Brille aufsetzen, die ihm hilft, mit weniger Platz auszukommen."

Hier ist, wie das funktioniert, mit ein paar lustigen Vergleichen:

1. Das Problem: Der überfüllte Rucksack 🎒

Beim normalen Training muss der KI-Modell-Rucksack drei Dinge gleichzeitig tragen:

  1. Das Wissen (die Gewichte/Parameter).
  2. Die Notizen (die Gradienten – was war falsch?).
  3. Die Erinnerung (Optimierer-Zustände – wie schnell sollen wir lernen?).

In der normalen Welt (FP32) sind diese Notizen und das Wissen extrem detailliert, wie wenn man alles in 4K-Auflösung schreibt. Das macht den Rucksack so schwer, dass er nur auf einem riesigen Lastwagen (teure GPU) transportiert werden kann.

2. Die Lösung QFT: Alles in den „Kleiderkasten" packen 🧥

QFT macht zwei geniale Dinge, um den Rucksack zu erleichtern:

A. Der Lion-Trainer (Der sture Lehrer) 🦁
Normalerweise nutzen KI-Modelle einen Optimierer namens „Adam", der sehr komplex ist und viele Notizen führt. QFT nutzt stattdessen den Lion-Optimierer.

  • Der Vergleich: Stell dir Adam vor wie einen Lehrer, der jede Kleinigkeit aufschreibt und sich an jede Nuance erinnert. Lion ist wie ein strenger, aber einfacher Lehrer, der nur sagt: „Geh nach links" oder „Geh nach rechts".
  • Warum das hilft: Da Lion nur die Richtung (Vorzeichen) zählt und nicht die genaue Stärke der Bewegung, ist er sehr robust. Man kann seine Notizen auf ein kleines Stück Papier (INT8) schreiben, ohne dass er den Weg vergisst. Er stolpert nicht, auch wenn die Zahlen nicht mehr so präzise sind.

**B. Der Hybrid-Quantisierer (Der Ausreißer-Fänger) 🎣
Das ist der schwierigste Teil: Die Gewichte (das Wissen des Kochs).

  • Das Problem: Die meisten Zahlen im Modell sind klein und normal (wie normale Leute). Aber es gibt ein paar extreme Ausreißer (wie Superstars), die riesige Werte haben. Wenn man alles auf eine kleine Skala (INT8) komprimiert, werden diese Superstars zerkleinert und das Modell wird dumm.
  • Die QFT-Lösung: Sie nutzen einen Hybrid-Ansatz.
    • Sie fangen die 99 % der „normalen" Zahlen ein und komprimieren sie stark (wie einen dichten Stapel Bücher).
    • Die 1 % der „Superstars" (die Ausreißer) lassen sie in ihrer ursprünglichen, detaillierten Form (wie einen einzelnen, wertvollen Diamanten).
    • Der Vorteil: Der Diamant ist so klein, dass er kaum Platz wegnimmt, aber er rettet die Qualität des Modells. So muss man keine riesige Kopie des Wissens (FP32) mehr im Hintergrund behalten.

3. Der Trick mit dem Stapel (Stack) 📚

Damit das Training im „Ganzzahl-Modus" (Integer) funktioniert, haben die Autoren einen cleveren Trick für den Rückwärtsweg (Backpropagation) erfunden.

  • Der Vergleich: Stell dir vor, du musst eine Nachricht von hinten nach vorne durch eine Kette von Leuten weitergeben. Normalerweise müsste jeder die ganze Nachricht auf einem Zettel aufschreiben. QFT nutzt einen Stapel (Stack). Jeder gibt seinen Teil des Zettels oben auf den Stapel. Wenn es Zeit zum Auswerten ist, nimmt man einfach das oberste Blatt ab. Das ist super schnell und braucht fast keinen Platz mehr.

🏆 Das Ergebnis: Ein Wunder mit einem einzigen GPU

Das Paper zeigt, dass man mit QFT ein riesiges Modell (LLaMA-2-7B) auf einer einzigen, handelsüblichen Grafikkarte (wie einer NVIDIA A6000) trainieren kann, die weniger als 30 GB Speicher hat.

  • Früher: Man brauchte 104 GB RAM (wie ein ganzer Server-Rack).
  • Mit QFT: Man braucht nur noch 25 GB RAM (wie ein normaler Gaming-PC).
  • Die Qualität: Das trainierte Modell ist fast genauso gut wie das, das auf den teuren Supercomputern trainiert wurde.

Zusammenfassung in einem Satz

**QFT ist wie ein genialer Umzugsservice, der dein riesiges, schweres KI-Modell in viele kleine, leichte Kartons packt (Quantisierung), die wertvollsten Gegenstände besonders schützt (Hybrid-Quantisierung) und mit einem effizienten Fahrer (Lion-Optimierer) so transportiert, dass du es mit einem ganz normalen Auto (einer einzelnen Grafikkarte) überall hinbringen kannst, ohne dass etwas kaputtgeht.