QKV Projections Require a Fraction of Their Memory

Dit paper introduceert PAMM, een nieuwe tensorcompressietechniek die het geheugengebruik van de QKV-projecties in LLM's tot wel 512 keer verlaagt zonder de prestaties te schaden, en volledig compatibel is met bestaande efficiënte aandachtmechanismen.

Malik Khalaf, Yara Shamshoum, Nitzan Hodos, Yuval Sieradzki, Assaf Schuster

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🧠 De "Grote Vergeten" Slurper in AI's Geheugen

Stel je voor dat je een gigantische bibliotheek bouwt (een Groot Taalmodel of LLM, zoals die van onschatbare waarde zijn voor AI). Om deze bibliotheek te bouwen, moet je miljoenen boeken lezen en onthouden. Maar er is een probleem: de bibliotheek is zo groot dat de ruimte (het computergeheugen) op is voordat je klaar bent.

Meestal denken onderzoekers dat het probleem ligt bij het lezen van de boeken (de berekeningen). Maar dit nieuwe onderzoek, getiteld "QKV PROJECTIONS REQUIRE A FRACTION OF THEIR MEMORY", wijst op een heel ander probleem: het onthouden van de boeken die je net hebt gelezen.

🏗️ De Bouwplaats: De "Q, K, V" Werknemers

In de bouw van een AI (de 'Transformer'-architectuur) zijn er drie speciale werknemers die constant aan het werk zijn:

  1. Q (Query): Vraagt: "Wat zoek ik?"
  2. K (Key): Vraagt: "Wat heb ik?"
  3. V (Value): Vraagt: "Wat is de inhoud?"

Elke keer als de AI een zin leest, moeten deze drie werknemers een enorme stapel papier (data) van elke letter en elk woord opslaan in hun geheugen, zodat ze later terug kunnen kijken om de zin te begrijpen. Dit papier stapelt zich op tot een enorme berg die 20% van je geheugen opvult, terwijl het eigenlijk alleen maar tijdelijk nodig is.

🎒 De Oplossing: PAMM (De Slimme Koffer)

De auteurs van dit paper, Malik Khalaf en zijn team, hebben een nieuwe methode bedacht genaamd PAMM (Point-Approximate Matrix Multiplication).

Stel je voor dat je op reis gaat en je moet al je kleding meenemen.

  • De oude manier: Je pakt je hele koffer, vult hem tot de rand met exact dezelfde T-shirts, broeken en sokken, en sleept die zware koffer mee.
  • De PAMM-methode: Je merkt dat je 500 T-shirts hebt, maar ze zijn allemaal bijna hetzelfde. In plaats van 500 shirts mee te nemen, neem je één perfect shirt mee (de "generateur") en een lijstje met aantekeningen: "Shirt 1 is dit shirt, maar 10% lichter. Shirt 2 is dit shirt, maar 5% donkerder."

In plaats van 500 shirts te dragen, draag je nu één shirt en een klein briefje. Je hebt 99% minder gewicht, maar je kunt nog steeds precies hetzelfde kledingstuk "reconstrueren" als je erom vraagt.

🚀 Hoe werkt het in de praktijk?

  1. Kiezen van een "Voorbeeld": De AI kijkt naar de enorme hoeveelheid data die ze moet onthouden. Ze kiest een paar kleine, representatieve voorbeelden (bijvoorbeeld 1 op de 512).
  2. De "Rekentruc": De rest van de data wordt niet opgeslagen. In plaats daarvan wordt er gezegd: "Die andere 511 stukjes data lijken zo veel op dat ene voorbeeld, dat we ze gewoon als een versie daarvan kunnen behandelen."
  3. Het Resultaat: De AI hoeft niet meer die enorme berg papier op te slaan. Ze slaat alleen de voorbeelden en de kleine lijstjes op.

📉 Wat levert dit op?

  • Ruimtebesparing: Ze besparen tot 512 keer minder geheugen voor deze specifieke taken. Het is alsof je van een vrachtwagen vol met zand overstapt op een fiets.
  • Geen kwaliteitsverlies: Het gekke is: de AI wordt er niet slimmer of dommer van. De "reconstructie" is zo goed, dat de AI precies even goed presteert als met de volle geheugen.
  • Snelheid: Het kost bijna geen extra tijd om deze truc uit te voeren. Het is alsof je niet meer hoeft te sjouwen, maar wel even snel kunt rennen.

🤝 Samenvatting in één zin

Dit onderzoek laat zien dat we de geheugenvraag van AI's drastisch kunnen verkleinen door niet alles letterlijk op te slaan, maar slimme "steekproeven" te nemen en de rest te benaderen, net als het inpakken van een koffer met slechts één voorbeeldkledingstuk en een notitieblok.

Dit maakt het mogelijk om veel grotere en slimmere AI-modellen te bouwen op hardware die we vandaag al hebben, zonder dat we duurdere computers hoeven te kopen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →