Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Self-Attention Transformers

Dit artikel toont theoretisch en empirisch aan dat de Query-weights in self-attention transformers overbodig zijn en kunnen worden vervangen door een eenheidsmatrix, wat leidt tot een 25% reductie in parameters en een stabielere training zonder prestatieverlies.

Marko Karbevski, Antonij Mijoski

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Transformer (het brein achter moderne AI zoals ChatGPT) een enorme fabriek is waar zinnen worden vertaald of geschreven. In deze fabriek werken de woorden door een reeks van speciale machines. Elke machine heeft drie belangrijke onderdelen die samenwerken om te beslissen welke woorden belangrijk zijn:

  1. De Vraag (Query): "Waar moet ik naar kijken?"
  2. De Sleutel (Key): "Wat is hier te vinden?"
  3. De Waarde (Value): "Wat is de inhoud van wat ik gevonden heb?"

De auteurs van dit paper, Marko en Antonij, hebben een verrassende ontdekking gedaan: Je hebt de "Vraag"-machine eigenlijk niet nodig.

Hier is de uitleg in simpele taal, met wat creatieve vergelijkingen:

1. Het Probleem: Teveel Geweld in de Keuken

Stel je voor dat je een recept maakt. Je hebt een kok die een ingrediënt (het woord) pakt, het in een mixer (de Vraag) doet, en dan kijkt of het past bij andere ingrediënten (de Sleutel).
De onderzoekers zeggen: "Wacht even. Die mixer (de Vraag) doet eigenlijk niets anders dan het ingrediënt een beetje verschuiven. Je kunt die mixer gewoon weghalen en het ingrediënt direct doorgeven, als je de andere onderdelen (de Sleutel en de Waarde) maar een beetje aanpast."

In technische termen zeggen ze: De "Query"-gewichten zijn overbodig. Je kunt ze vervangen door een simpele "doorgaande lijn" (een identiteitsmatrix).

2. De Oplossing: De "Vrije Lunch"

Het mooie aan hun ontdekking is dat je hiermee 25% van de parameters (de geheugenruimte en rekkracht) in de aandacht-mechanismen bespaart.

  • Vergelijking: Stel je voor dat je een auto bouwt. Je merkt dat de bestuurder (de Query) alleen maar het stuur vasthoudt, maar de auto rijdt eigenlijk vanzelf als je de motor (de Waarde) en het navigatiesysteem (de Sleutel) goed afstelt. Als je de bestuurder verwijdert en de auto direct op de weg zet, rijdt hij net zo goed, maar je hebt een lichter voertuig.

3. Wat gebeurt er in de praktijk?

De auteurs hebben dit getest door kleine AI-modellen (vergelijkbaar met een slimme smartphone-app) vanaf nul te trainen zonder die "Vraag"-onderdelen.

  • Het resultaat: De modellen die zonder "Vraag" werkten, waren net zo goed als de modellen die het wel hadden.
  • De verrassing: Omdat ze 25% minder ruimte gebruikten voor die ene onderdelen, konden ze die bespaarde ruimte gebruiken om de "spierkracht" (de MLP, de denkende delen) van de AI groter te maken. Hierdoor werden de modellen zelfs beter dan de standaardmodellen met dezelfde totale grootte.

4. Waarom werkt dit? (De Wiskundige Magie)

De auteurs tonen aan dat de manier waarop de AI "leert" om te kijken, eigenlijk een soort wiskundige truc is.

  • De Analogie: Stel je voor dat je een foto bekijkt door een gekleurd glas (de Query). Je kunt ook het glas weggooien en de foto zelf een beetje roteren of verkleinen (de andere gewichten aanpassen). Het resultaat op het scherm is hetzelfde.
  • De onderzoekers zeggen: "Waarom een complex glas gebruiken als je de foto zelf kunt aanpassen?"

5. De "Stabiliteit" en het Geheim

Een ander interessant punt is dat deze vereenvoudigde modellen stabiel blijven, zelfs als je ze minder streng "opvoedt" (minder 'weight decay', een techniek om te voorkomen dat AI te gekke dingen leert).

  • Vergelijking: Normaal gesproken moet je een AI streng disciplineren zodat hij niet uit de bocht vliegt. Maar deze nieuwe, lichtere modellen lijken van nature al beter in balans te zijn. Het is alsof je een auto bouwt die vanzelf rechtop blijft staan, zelfs als je de stabilisatoren verwijdert.

Conclusie: Wat betekent dit voor de toekomst?

Dit paper zegt eigenlijk: "We hebben jarenlang een complex systeem gebouwd, maar we hebben een deel ervan niet echt nodig."

  • Efficiëntie: We kunnen AI-modellen bouwen die sneller zijn, minder energie verbruiken en minder geheugen nodig hebben.
  • Nieuwe inzichten: Het laat zien dat veel van wat we in AI doen misschien gewoon "overgedimensioneerd" is. Soms is de simpelste oplossing (geen Query nodig) de beste.

Kortom: De auteurs hebben bewezen dat je de "Vraag" in de AI kunt laten vallen, de "Sleutel" en "Waarde" kunt herschikken, en je krijgt een slimmere, lichtere machine die net zo goed (of zelfs beter) presteert. Het is een beetje alsof je ontdekt dat je voor een perfecte maaltijd eigenlijk geen kok nodig hebt, als je de ingrediënten maar slim combineert.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →