Addition is almost all you need: Compressing large language models with double binary factorization

Dit paper introduceert Double Binary Factorization (DBF), een nieuwe methode die dichte gewichtsmatrices in grote taalmodellen ontbindt in producten van twee binaire matrices met schalingsvectoren, waardoor een hoge compressie wordt bereikt met behoud van nauwkeurigheid en de mogelijkheid tot fijne controle over compressieverhoudingen.

Vladimír Boža, Vladimír Macko

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische, superintelligente robot (een "Large Language Model" of LLM) hebt die alles kan vertellen wat je maar wilt weten. Deze robot is echter zo groot en zwaar dat hij niet in je broekzak past en bijna elke batterij in de wereld leegt voordat hij één zinnetje heeft gezegd. Hij is te duur en te traag om overal mee naartoe te nemen.

De onderzoekers van deze paper, Vladimír Boža en Vladimír Macko, hebben een slimme oplossing bedacht om deze robot kleiner en sneller te maken, zonder dat hij zijn intelligentie verliest. Ze noemen hun methode DBF (Double Binary Factorization).

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het probleem: De "Grote Rekenmachine"

Normaal gesproken werkt deze robot met enorme tabellen van getallen (gewichten). Om een antwoord te geven, moet hij deze getallen vermenigvuldigen. Vermenigvuldigen is voor computers zwaar werk, net als het tillen van zware stenen. Het kost veel energie en tijd.

Sommige mensen hebben gezegd: "Laten we die zware stenen vervangen door heel lichte steentjes: alleen maar +1 en -1." Dat is veel sneller, want dan hoeft de computer niet meer te vermenigvuldigen, maar alleen nog maar op te tellen (net als het tellen van munten). Maar het probleem is: als je alles in +1 en -1 zet, wordt de robot erg dom. Hij vergeet details en maakt rare fouten.

2. De oplossing: Twee lagen van "Ja/Nee"

De auteurs zeggen: "Waarom gebruiken we maar één laag van +1 en -1? Laten we er twee van maken!"

Stel je voor dat je een ingewikkeld schilderij wilt kopiëren, maar je mag alleen zwarte en witte pixels gebruiken.

  • De oude methode (OneBit): Je probeert het hele schilderij in één keer te tekenen met alleen zwarte en witte pixels. Het resultaat is vaag en onherkenbaar.
  • De nieuwe methode (DBF): Je maakt twee transparante lagen.
    • Op de eerste laag teken je een patroon van zwarte en witte vlekken.
    • Op de tweede laag teken je een ander patroon van zwarte en witte vlekken.
    • Als je deze twee lagen over elkaar heen legt en er een paar "grootte-aanpassers" (de schaalvectoren) bij doet, krijg je een beeld dat bijna perfect lijkt op het origineel!

Door deze twee lagen met elkaar te combineren, kunnen ze veel meer details vastleggen dan met één laag. Het is alsof je in plaats van één dunne laag papier, twee lagen gebruikt om een 3D-effect te creëren.

3. Waarom is dit zo slim?

  • Het is als Lego: De meeste methodes om robots kleiner te maken zijn als een voorverpakte Lego-set. Je kunt alleen kiezen uit een paar vaste maten (bijvoorbeeld: "ofwel heel klein, ofwel medium"). Met DBF kunnen ze de grootte precies afstemmen. Ze kunnen zeggen: "Voor deze specifieke taak willen we 2,3 bits per gewicht, en voor die andere 1,8 bits." Ze hebben de volledige controle over de maat.
  • Het is energiezuinig: Omdat de robot nu alleen maar hoeft op te tellen (in plaats van te vermenigvuldigen), verbruikt hij veel minder stroom. Het is alsof je van een zware vrachtwagen overstapt op een elektrische fiets: je komt even snel aan, maar je kost veel minder energie.
  • Het is sneller: Op de huidige computers (zoals de RTX 4090) is deze methode 2 tot 3,5 keer sneller dan de originele zware versie.

4. De "Slimme Knipbeurt"

De onderzoekers hebben ook bedacht dat niet alle onderdelen van de robot even belangrijk zijn. Sommige hersenen van de robot zijn cruciaal, andere zijn minder belangrijk.
Ze hebben een algoritme bedacht dat kijkt: "Welke onderdelen mogen we het meest samendrukken?" Ze knippen dan de minder belangrijke delen van de robot weg en houden de belangrijke delen groter. Hierdoor wordt de robot nog kleiner, maar blijft hij net zo slim.

Conclusie

Kortom: Deze paper introduceert een manier om de enorme, zware "hersenen" van AI-modellen te verkleinen tot een formaat dat in je broekzak past, zonder dat ze dom worden. Ze doen dit door de zware rekenwerkjes te vervangen door twee lagen van simpele "ja/nee"-patronen die samen een complex beeld vormen.

Het resultaat? Een AI die sneller is, minder stroom verbruikt en net zo slim blijft als de grote versies. Het is alsof je een olifant in een struisvogel verandert die nog steeds kan rennen als een olifant.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →