Addition is almost all you need: Compressing large language models with double binary factorization

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische, superintelligente robot (een "Large Language Model" of LLM) hebt die alles kan vertellen wat je maar wilt weten. Deze robot is echter zo groot en zwaar dat hij niet in je broekzak past en bijna elke batterij in de wereld leegt voordat hij één zinnetje heeft gezegd. Hij is te duur en te traag om overal mee naartoe te nemen.

De onderzoekers van deze paper, Vladimír Boža en Vladimír Macko, hebben een slimme oplossing bedacht om deze robot kleiner en sneller te maken, zonder dat hij zijn intelligentie verliest. Ze noemen hun methode DBF (Double Binary Factorization).

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het probleem: De "Grote Rekenmachine"

Normaal gesproken werkt deze robot met enorme tabellen van getallen (gewichten). Om een antwoord te geven, moet hij deze getallen vermenigvuldigen. Vermenigvuldigen is voor computers zwaar werk, net als het tillen van zware stenen. Het kost veel energie en tijd.

Sommige mensen hebben gezegd: "Laten we die zware stenen vervangen door heel lichte steentjes: alleen maar +1 en -1." Dat is veel sneller, want dan hoeft de computer niet meer te vermenigvuldigen, maar alleen nog maar op te tellen (net als het tellen van munten). Maar het probleem is: als je alles in +1 en -1 zet, wordt de robot erg dom. Hij vergeet details en maakt rare fouten.

2. De oplossing: Twee lagen van "Ja/Nee"

De auteurs zeggen: "Waarom gebruiken we maar één laag van +1 en -1? Laten we er twee van maken!"

Stel je voor dat je een ingewikkeld schilderij wilt kopiëren, maar je mag alleen zwarte en witte pixels gebruiken.

De oude methode (OneBit): Je probeert het hele schilderij in één keer te tekenen met alleen zwarte en witte pixels. Het resultaat is vaag en onherkenbaar.
De nieuwe methode (DBF): Je maakt twee transparante lagen.
- Op de eerste laag teken je een patroon van zwarte en witte vlekken.
- Op de tweede laag teken je een ander patroon van zwarte en witte vlekken.
- Als je deze twee lagen over elkaar heen legt en er een paar "grootte-aanpassers" (de schaalvectoren) bij doet, krijg je een beeld dat bijna perfect lijkt op het origineel!

Door deze twee lagen met elkaar te combineren, kunnen ze veel meer details vastleggen dan met één laag. Het is alsof je in plaats van één dunne laag papier, twee lagen gebruikt om een 3D-effect te creëren.

3. Waarom is dit zo slim?

Het is als Lego: De meeste methodes om robots kleiner te maken zijn als een voorverpakte Lego-set. Je kunt alleen kiezen uit een paar vaste maten (bijvoorbeeld: "ofwel heel klein, ofwel medium"). Met DBF kunnen ze de grootte precies afstemmen. Ze kunnen zeggen: "Voor deze specifieke taak willen we 2,3 bits per gewicht, en voor die andere 1,8 bits." Ze hebben de volledige controle over de maat.
Het is energiezuinig: Omdat de robot nu alleen maar hoeft op te tellen (in plaats van te vermenigvuldigen), verbruikt hij veel minder stroom. Het is alsof je van een zware vrachtwagen overstapt op een elektrische fiets: je komt even snel aan, maar je kost veel minder energie.
Het is sneller: Op de huidige computers (zoals de RTX 4090) is deze methode 2 tot 3,5 keer sneller dan de originele zware versie.

4. De "Slimme Knipbeurt"

De onderzoekers hebben ook bedacht dat niet alle onderdelen van de robot even belangrijk zijn. Sommige hersenen van de robot zijn cruciaal, andere zijn minder belangrijk.
Ze hebben een algoritme bedacht dat kijkt: "Welke onderdelen mogen we het meest samendrukken?" Ze knippen dan de minder belangrijke delen van de robot weg en houden de belangrijke delen groter. Hierdoor wordt de robot nog kleiner, maar blijft hij net zo slim.

Conclusie

Kortom: Deze paper introduceert een manier om de enorme, zware "hersenen" van AI-modellen te verkleinen tot een formaat dat in je broekzak past, zonder dat ze dom worden. Ze doen dit door de zware rekenwerkjes te vervangen door twee lagen van simpele "ja/nee"-patronen die samen een complex beeld vormen.

Het resultaat? Een AI die sneller is, minder stroom verbruikt en net zo slim blijft als de grote versies. Het is alsof je een olifant in een struisvogel verandert die nog steeds kan rennen als een olifant.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) hebben ongeëvenaarde prestaties geleverd, maar hun schaal leidt tot enorme eisen op het gebied van opslag en rekenkracht, wat de implementatie in de praktijk bemoeilijkt. Bestaande compressietechnieken zoals kwantisatie (het verlagen van de precisie van gewichten) en pruning (het verwijderen van onbelangrijke parameters) proberen dit op te lossen.
Specifiek voor binair kwantisatie (waarbij gewichten worden beperkt tot +1 of -1) is de berekening zeer efficiënt omdat dure vermenigvuldigingen kunnen worden vervangen door goedkopere optellingen. Echter, de strenge beperking tot slechts twee waarden leidt vaak tot een significante daling in modelnauwkeurigheid. Bestaande methoden bieden vaak ook beperkte flexibiliteit in compressiepercentages (vaak beperkt tot gehele bits per gewicht) en vereisen soms decompressie naar volledige precisie tijdens inferentie, wat hardware-versnelling voor lage precisie-aritmetiek tenietdoet.

Methodologie: Double Binary Factorization (DBF)

De auteurs stellen Double Binary Factorization (DBF) voor, een nieuwe methode die dichtheid gewichtsmatrices benadert als het product van twee binaire tekenmatrices (met waarden ±1), elk vergezeld van schalingsvectoren.

In plaats van een matrix $W$ te benaderen met één binaire matrix (zoals bij OneBit), wordt $W$ ontbonden als:
$W \approx (a \odot A_{\pm1} \odot m^T)(B_{\pm1} \odot b^T)$
Waarbij:

$A_{\pm1}$ en $B_{\pm1}$ matrices zijn met elementen $\{-1, 1\}$ .
$a, m, b$ vectoren zijn in FP16 (floating point 16-bit) die dienen als schalingsfactoren.
$\odot$ het elementgewijze product (Hadamard product) aanduidt.

Berekeningsvoordelen:
Tijdens de inferentie worden de dure vermenigvuldigingen met de binaire matrices vervangen door optellingen. De berekening verloopt als volgt:
$XW^T \approx ((((X \odot b^T)B_{\pm1}^T) \odot m^T)A_{\pm1}^T) \odot a^T$
Dit maakt de methode uiterst energie-efficiënt.

Optimalisatie en Training:

Heuristisch algoritme: Het vinden van de optimale factorisatie is een NP-hard probleem. De auteurs gebruiken een heuristische aanpak gebaseerd op alternatieve minimalisatie en de ADMM-methode (Alternating Direction Method of Multipliers).
SVID-projectie: Om de binaire constraints te respecteren, gebruiken ze een projectie gebaseerd op "Sign-Value-Independent Decomposition" (SVID), waarbij de absolute waarden worden benaderd via een rang-1 decompositie.
Belangsgewogen schaling: De methode houdt rekening met de belangrijkheid van invoer- en uitvoeractivaties (gebaseerd op gradienten en activatienormen) om fouten te minimaliseren voor de meest kritieke gewichten.
Fine-tuning: De methode omvat een fine-tuning fase waarbij zowel de continue schalingsvectoren als een subset van de binaire tekenen (via PV-tuning) worden geoptimaliseerd.

Belangrijkste Bijdragen

Nieuwe Architectuur voor Compressie: DBF introduceert een factorisatie in twee binaire matrices, wat een betere balans biedt tussen compressie en nauwkeurigheid dan eerdere methoden met één binaire matrix.
Fijnmazige Controle over Compressie: In tegenstelling tot veel kwantisatiemethoden die alleen gehele bits per gewicht toestaan, kan DBF elke gewenste compressieverhouding bereiken door de grootte van de tussenliggende dimensie ( $k$ ) aan te passen. Dit maakt niet-uniforme compressie per laag mogelijk.
Niet-uniforme Laagcompressie: De auteurs introduceren een algoritme om per laag verschillende compressiepercentages toe te passen. Ze behandelen de tussenliggende dimensie als "kanalen" en gebruiken pruning-criteria om onbelangrijke kanalen te verwijderen, waardoor de totale compressie wordt geoptimaliseerd zonder prestatieverlies.
Hardware-efficiëntie: De methode vervangt vermenigvuldigingen door optellingen, wat leidt tot aanzienlijke energiebesparingen en snelheidswinst op huidige GPU's.

Resultaten

De auteurs hebben DBF getest op Llama2-7B en Llama3-8B en vergeleken met state-of-the-art methoden zoals AQLM, QuIP#, QTIP, OneBit en Caldera.

Nauwkeurigheid (Perplexiteit & Zero-shot):
- In het bereik van ~2 bits per gewicht is DBF concurrerend met de beste kwantisatiemethoden (zoals QTIP en QuIP#) en vaak beter dan OneBit.
- In het 1-bit bereik presteert DBF aanzienlijk beter dan bestaande binarisatiemethoden (OneBit, BiLLM), zelfs zonder langdurige fine-tuning.
- Bij 2.3 bits presteert DBF met PV-tuning vergelijkbaar met AQLM + PV.
Snelheid (Inferentie):
- DBF levert een 2x tot 3.5x snelheidswinst op bij matrix-vector vermenigvuldigingen op een NVIDIA RTX 4090 ten opzichte van de FP16-basis, afhankelijk van het compressiepercentage.
- Bij het genereren van tokens (decoding) wordt een 2.0x tot 2.9x snelheidswinst behaald.
Flexibiliteit: De methode toont aan dat het mogelijk is om compressiepercentages continu aan te passen (bijv. 1.5 bits, 2.3 bits) zonder dat de methode faalt, wat een groot voordeel is ten opzichte van methoden die beperkt zijn tot gehele bits.

Betekenis en Conclusie

De paper demonstreert dat "optelling bijna alles is wat je nodig hebt" voor de compressie van LLMs. DBF slaagt erin de extreme efficiëntie van binaire rekenkracht te combineren met de nauwkeurigheid van geavanceerde kwantisatiemethoden.

De belangrijkste implicaties zijn:

Toepasbaarheid: DBF maakt het mogelijk om grote modellen efficiënter te draaien op beperkte hardware, zowel qua opslag als energie.
Flexibiliteit: De mogelijkheid om compressie per laag te fine-tunen en niet-gehele bit-waarden te gebruiken, biedt een nieuw paradigma in modelcompressie dat beter aansluit bij de variabele sensitiviteit van verschillende lagen in een neurale net.
Toekomst: Hoewel het fijnstemmen van binaire matrices nog een uitdaging is, biedt DBF een veelbelovende richting voor toekomstige hardware-ontwikkelingen die specifiek zijn ontworpen voor binaire optellingen.

De code is beschikbaar gesteld, wat de reproduceerbaarheid en adoptie van deze techniek in de gemeenschap faciliteert.

Addition is almost all you need: Compressing large language models with double binary factorization

1. Het probleem: De "Grote Rekenmachine"

2. De oplossing: Twee lagen van "Ja/Nee"

3. Waarom is dit zo slim?

4. De "Slimme Knipbeurt"

Conclusie

Probleemstelling

Methodologie: Double Binary Factorization (DBF)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Integrating Artificial Intelligence, Physics, and Internet of Things: A Framework for Cultural Heritage Conservation

Scaling DPPs for RAG: Density Meets Diversity

DRAFT: Task Decoupled Latent Reasoning for Agent Safety

General Explicit Network (GEN): A novel deep learning architecture for solving partial differential equations

Apparent Age Estimation: Challenges and Outcomes