Addition is almost all you need: Compressing large language models with double binary factorization

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Die KI ist zu schwer für den Rucksack

Stellen Sie sich vor, Sie haben einen riesigen, genialen Bibliothekar (eine Large Language Model oder LLM), der alles auf der Welt weiß. Aber dieser Bibliothekar ist so groß und schwer, dass er in keinen normalen Rucksack passt. Um ihn mitzunehmen, müssen wir ihn komprimieren.

Die übliche Methode, um ihn kleiner zu machen, ist wie das Quetschen eines Oranges: Man drückt die Zahlen (die Gewichte des Modells) in einen kleineren Raum, indem man sie auf wenige Dezimalstellen rundet (Quantisierung). Das spart Platz, aber oft verliert man dabei den Saft (die Genauigkeit).

Eine radikalere Methode ist, den Bibliothekar nur noch mit Ja/Nein-Karten (Binär: +1 oder -1) arbeiten zu lassen. Das ist extrem platzsparend und schnell, aber ein Bibliothekar, der nur „Ja" oder „Nein" sagen darf, macht viele Fehler, weil er Nuancen verliert.

Die neue Lösung: Der „Doppelte Baumeister" (Double Binary Factorization)

Die Autoren dieses Papers, Vladimír Boža und Vladimír Macko, haben eine clevere Idee entwickelt, die sie Double Binary Factorization (DBF) nennen.

Stellen Sie sich vor, Sie wollen eine riesige, komplexe Wand (die Gewichts-Matrix) bauen.

Der alte Weg (Einzelne Binär-Matrix): Sie versuchen, die ganze Wand aus nur schwarzen und weißen Ziegelsteinen zu bauen. Das sieht gut aus, ist aber oft ungenau.
Der neue Weg (DBF): Sie bauen die Wand aus zwei Schichten von schwarzen und weißen Ziegelsteinen. Dazwischen legen Sie jedoch flexible Gummibänder (die Skalierungsvektoren).

Wie funktioniert das im Alltag?
Statt eine riesige Rechnung (Multiplikation) durchzuführen, die viel Energie kostet, teilen Sie das Problem auf:

Sie haben zwei Schichten aus einfachen Ja/Nein-Steinen (+1 oder -1).
Dazwischen hängen kleine Gewichte (die Gummibänder), die bestimmen, wie stark die Steine wirken.

Der Clou: Multiplikation ist teuer, Addition ist billig.
Wenn Sie mit diesen +1 und -1 rechnen, müssen Sie nicht multiplizieren. Sie müssen nur addieren oder subtrahieren.

Metapher: Stellen Sie sich vor, Sie müssen eine Rechnung machen. Statt mit einem schweren Taschenrechner (Multiplikation) zu hantieren, nutzen Sie einfach Ihre Finger zum Zählen (Addition). Das geht viel schneller und verbraucht weniger Batterie.

Warum ist das so besonders?

Hier sind die drei großen Vorteile, einfach erklärt:

1. Der „Schneidbare" Rucksack (Flexible Kompression)
Die meisten Methoden sind wie ein Rucksack mit nur drei festen Größen: Klein, Mittel, Groß. Wenn Sie genau 1,5 kg sparen wollen, passen Sie nicht rein.
DBF ist wie ein Rucksack mit einem Reißverschluss. Sie können ihn genau so weit öffnen oder schließen, wie Sie wollen. Sie können die mittlere Schicht (die „Gummibänder") größer oder kleiner machen. Das erlaubt eine extrem feine Kontrolle: Sie können das Modell auf genau 1,2 Bit oder 1,8 Bit pro Zahl komprimieren, nicht nur auf ganze Zahlen.

2. Der kluge Gärtner (Wichtiges behalten)
Nicht alle Teile des Bibliothekars sind gleich wichtig. Manche Fakten sind lebenswichtig, andere sind unwichtig.
DBF ist wie ein kluger Gärtner, der weiß, welche Pflanzen (Gewichte) besonders wichtig sind. Er schneidet die unwichtigen Zweige ab, aber die wichtigen Pflanzen bekommt er durch die „Gummibänder" extra gut gedüngt. So bleibt die Genauigkeit hoch, auch wenn das Modell sehr klein ist.

3. Der Geschwindigkeits-Boost
Da die Rechenoperationen so einfach sind (nur Addieren), läuft das Modell auf normalen Grafikkarten (wie einer RTX 4090) 2- bis 3,5-mal schneller als das volle, unkomprimierte Modell.

Vergleich: Das ist, als würde man von einem schweren Lastwagen auf einen schnellen Sportwagen umsteigen, der trotzdem die gleiche Fracht transportieren kann.

Was sagen die Ergebnisse?

Die Autoren haben ihr neues Modell an den bekannten „Llama"-Modellen getestet:

Bei sehr starker Kompression (1 Bit): DBF ist deutlich besser als alle anderen Methoden, die nur mit Ja/Nein-Karten arbeiten.
Bei mittlerer Kompression (2 Bit): DBF ist genauso gut wie die besten, hochkomplexen Methoden der Konkurrenz, aber viel einfacher zu berechnen.
Energie: Da weniger Multiplikationen nötig sind, spart man enorm viel Strom. Das ist wichtig, damit man solche KI-Modelle auch auf dem Handy oder kleinen Servern laufen lassen kann.

Fazit

Die Forscher sagen im Grunde: „Wir müssen nicht alles kompliziert machen, um gute Ergebnisse zu erzielen."

Indem sie die riesigen Zahlenmatrizen in zwei einfache Ja/Nein-Schichten mit flexiblen Zwischenstücken zerlegen, schaffen sie es, KI-Modelle winzig klein, extrem schnell und energieeffizient zu machen, ohne dass sie dumm werden. Es ist wie ein Trick, um einen Elefanten in einen Minivan zu packen, ohne dass er sich die Ohren einklemmt.

Der Code ist bereits verfügbar, damit andere diesen „Doppelten Baumeister" auch nutzen können, um ihre eigenen KI-Modelle zu optimieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Large Language Models (LLMs) haben zwar enorme Fortschritte in der Sprachverarbeitung erzielt, stellen jedoch aufgrund ihrer wachsenden Größe immense Anforderungen an Rechenleistung und Speicherplatz. Herkömmliche Komprimierungsmethoden wie Quantisierung (z. B. auf 4-bit oder 2-bit) und Pruning stoßen an Grenzen:

Binäre Quantisierung: Ansätze, die Gewichte auf $\pm 1$ reduzieren (z. B. BitNet, OneBit), sind rechen-effizient, da Multiplikationen durch Additionen ersetzt werden können. Allerdings führt die extreme Einschränkung auf nur zwei Werte oft zu signifikanten Genauigkeitsverlusten.
Fehlende Flexibilität: Viele State-of-the-Art-Quantisierungsmethoden (wie QuIP#, QTIP) unterstützen nur diskrete Bitbreiten (ganzzahlige Bits pro Gewicht) und erlauben keine feingranulare Kontrolle über das Kompressionsverhältnis. Zudem erfordern sie oft das Dekomprimieren der Gewichte für die Inferenz, was Hardware-Beschleunigung für niedrige Präzision verhindert.
Speicher- und Energieeffizienz: Es besteht ein Bedarf an Methoden, die nicht nur die Speichergröße reduzieren, sondern auch die energieintensiven Multiplikationen durch effizientere Additionen ersetzen, ohne dabei die Modellleistung zu beeinträchtigen.

2. Methodik: Double Binary Factorization (DBF)

Die Autoren schlagen Double Binary Factorization (DBF) vor, eine neue Methode zur Gewichtsreduktion, die dichte Gewichtsmatrizen $W$ in das Produkt von zwei binären Vorzeichenmatrizen zerlegt, die jeweils durch Skalierungsvektoren ergänzt werden.

Die mathematische Approximation lautet:
$W \approx (a \odot A_{\pm 1} \odot m^T) (B_{\pm 1} \odot b^T)$
Dabei sind:

$A_{\pm 1}$ und $B_{\pm 1}$ Matrizen mit Einträgen aus $\{-1, 1\}$ .
$a, m, b$ Vektoren im FP16-Format (Floating Point 16-bit), die als Skalierungsfaktoren dienen.
$\odot$ bezeichnet das elementweise (Hadamard-)Produkt.

Schlüsselmechanismen:

Berechnung: Die optimale Faktorisierung ist ein NP-schweres Problem. Die Autoren nutzen einen heuristischen Algorithmus basierend auf alternierender Minimierung und der Alternating Direction Method of Multipliers (ADMM). Dabei wird das Problem in Teilprobleme zerlegt, die durch eine Projektion auf die Menge der binären Matrizen (mittels SVID-Projektion aus OneBit) gelöst werden.
Wichtigkeitsgewichtung: Um Fehler zu minimieren, werden die Zeilen und Spalten der Matrix unterschiedlich gewichtet. Die Eingangsaktivierungs-Norm (Input Activation Norm) dient als Spalten-Importanz, die Gradienten-Norm als Zeilen-Importanz. Dies ermöglicht es, wichtige Gewichte genauer abzubilden.
Feineinstellung (Fine-Tuning): Ähnlich wie bei QuIP# und QTIP wird ein zweistufiger Ansatz verfolgt: Zuerst wird das Modell komprimiert, dann werden die kontinuierlichen Parameter (Skalierungsvektoren) nachjustiert. Zusätzlich wird ein PV-Tuning (Parameter-Value-Tuning) eingeführt, bei dem auch die binären Vorzeichen ( $\pm 1$ ) stochastisch auf einer Teilmenge der Schichten angepasst werden, um die Genauigkeit weiter zu steigern.
Nicht-uniforme Kompression: Ein entscheidender Vorteil von DBF ist die Möglichkeit, die mittlere Dimension $k$ der Faktorisierung pro Schicht anzupassen. Dies ermöglicht eine feingranulare Steuerung des Kompressionsverhältnisses (nicht nur ganzzahlige Bits). Die Autoren nutzen dies, um einen iterativen Pruning-Algorithmus zu entwickeln, der basierend auf Kanal-Pruning-Kriterien die mittlere Dimension pro Schicht dynamisch anpasst, um das Gesamtkompressionsbudget optimal zu verteilen.

3. Hauptbeiträge

Neue Architektur: Einführung von DBF, das dichte Matrizen in zwei binäre Matrizen mit Skalierungsvektoren zerlegt, was eine höhere Kapazität zur Approximation bietet als eine einzelne binäre Matrix (wie bei OneBit).
Algorithmus: Entwicklung eines praktischen heuristischen Algorithmus (basierend auf ADMM und SVID) zur Berechnung dieser Faktorisierung.
Flexibilität: DBF erlaubt beliebige Kompressionsraten durch Anpassung der mittleren Dimension $k$ , im Gegensatz zu Methoden, die auf diskrete Bitbreiten beschränkt sind.
Dynamische Schicht-Kompression: Ein iterativer Algorithmus zur Zuweisung unterschiedlicher Kompressionsraten pro Schicht unter Nutzung von Kanal-Pruning-Kriterien.
Hardware-Effizienz: Da die Multiplikation mit binären Matrizen nur Additionen erfordert, bietet DBF das Potenzial für erhebliche Energieeinsparungen und Geschwindigkeitssteigerungen auf aktueller Hardware.

4. Ergebnisse

Die Methode wurde an den Modellen Llama2-7B und Llama3-8B evaluiert und mit State-of-the-Art-Methoden (AQLM, QuIP#, QTIP, Caldera, OneBit) verglichen.

Genauigkeit (Perplexity & Zero-Shot Accuracy):
- Im Bereich von ~2 Bits pro Gewicht ist DBF konkurrenzfähig mit den besten Quantisierungsmethoden (wie QTIP und QuIP#) und oft besser als Caldera.
- Im Bereich von 1 bis 1,5 Bits pro Gewicht übertrifft DBF alle getesteten Methoden (einschließlich OneBit und BiLLM) deutlich, sowohl in der Perplexity als auch in den Zero-Shot-Accuracy-Metriken (ARC, PiQA, Winogrande).
- Mit PV-Tuning erreicht DBF bei 2,3 Bits pro Gewicht Ergebnisse, die mit AQLM vergleichbar sind.
Geschwindigkeit (Inference):
- DBF erzielt auf einer Nvidia RTX 4090 2- bis 3,5-fache Beschleunigungen im Vergleich zu dichten FP16-Baselines bei 2 Bits pro Gewicht.
- Bei 1 Bit pro Gewicht steigt die Beschleunigung auf das 3- bis 6-fache.
- Der Durchsatz beim Decoding (Tokens pro Sekunde) verbessert sich um das 2- bis 2,9-fache.
Skalierbarkeit: Die Methode skaliert gut auf größere Modelle (bis Llama3.1-405B) ohne signifikanten Genauigkeitsverlust bei der Approximation.
Energieeffizienz: Durch den Ersatz von Multiplikationen durch Additionen wird ein hohes Einsparpotenzial bei der Energieverbrauch während der Inferenz vorhergesagt.

5. Bedeutung und Ausblick

Die Arbeit zeigt, dass Addition fast alles ist, was man braucht, um LLMs effizient zu komprimieren. DBF schließt die Lücke zwischen der extremen Effizienz binärer Netzwerke und der Genauigkeit höherwertiger Quantisierungsmethoden.

Praktische Relevanz: Die Methode ist direkt auf aktuellen GPUs einsetzbar und bietet messbare Geschwindigkeitsvorteile.
Flexibilität: Die Fähigkeit, das Kompressionsverhältnis feingranular und schichtspezifisch anzupassen, ist ein großer Vorteil gegenüber starren Quantisierungsschemata.
Zukunft: Als Limitierung wird die Komplexität des Fine-Tunings der binären Matrizen genannt. Zukünftige Arbeiten könnten sich auf das "On-the-Fly"-Faktorisieren während des Fine-Tunings oder die Integration des iterativen Pruning in den Trainingsprozess konzentrieren.

Zusammenfassend stellt DBF einen bedeutenden Fortschritt in der effizienten Inferenz von LLMs dar, der Speicherbedarf, Rechenzeit und Energieverbrauch gleichzeitig reduziert, ohne dabei signifikante Einbußen bei der Modellleistung hinzunehmen.

Addition is almost all you need: Compressing large language models with double binary factorization

Das große Problem: Die KI ist zu schwer für den Rucksack

Die neue Lösung: Der „Doppelte Baumeister" (Double Binary Factorization)

Warum ist das so besonders?

Was sagen die Ergebnisse?

Fazit

1. Problemstellung

2. Methodik: Double Binary Factorization (DBF)

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Integrating Artificial Intelligence, Physics, and Internet of Things: A Framework for Cultural Heritage Conservation

Scaling DPPs for RAG: Density Meets Diversity

DRAFT: Task Decoupled Latent Reasoning for Agent Safety

General Explicit Network (GEN): A novel deep learning architecture for solving partial differential equations

Apparent Age Estimation: Challenges and Outcomes