Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Self-Attention Transformers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Transformer (het brein achter moderne AI zoals ChatGPT) een enorme fabriek is waar zinnen worden vertaald of geschreven. In deze fabriek werken de woorden door een reeks van speciale machines. Elke machine heeft drie belangrijke onderdelen die samenwerken om te beslissen welke woorden belangrijk zijn:

De Vraag (Query): "Waar moet ik naar kijken?"
De Sleutel (Key): "Wat is hier te vinden?"
De Waarde (Value): "Wat is de inhoud van wat ik gevonden heb?"

De auteurs van dit paper, Marko en Antonij, hebben een verrassende ontdekking gedaan: Je hebt de "Vraag"-machine eigenlijk niet nodig.

Hier is de uitleg in simpele taal, met wat creatieve vergelijkingen:

1. Het Probleem: Teveel Geweld in de Keuken

Stel je voor dat je een recept maakt. Je hebt een kok die een ingrediënt (het woord) pakt, het in een mixer (de Vraag) doet, en dan kijkt of het past bij andere ingrediënten (de Sleutel).
De onderzoekers zeggen: "Wacht even. Die mixer (de Vraag) doet eigenlijk niets anders dan het ingrediënt een beetje verschuiven. Je kunt die mixer gewoon weghalen en het ingrediënt direct doorgeven, als je de andere onderdelen (de Sleutel en de Waarde) maar een beetje aanpast."

In technische termen zeggen ze: De "Query"-gewichten zijn overbodig. Je kunt ze vervangen door een simpele "doorgaande lijn" (een identiteitsmatrix).

2. De Oplossing: De "Vrije Lunch"

Het mooie aan hun ontdekking is dat je hiermee 25% van de parameters (de geheugenruimte en rekkracht) in de aandacht-mechanismen bespaart.

Vergelijking: Stel je voor dat je een auto bouwt. Je merkt dat de bestuurder (de Query) alleen maar het stuur vasthoudt, maar de auto rijdt eigenlijk vanzelf als je de motor (de Waarde) en het navigatiesysteem (de Sleutel) goed afstelt. Als je de bestuurder verwijdert en de auto direct op de weg zet, rijdt hij net zo goed, maar je hebt een lichter voertuig.

3. Wat gebeurt er in de praktijk?

De auteurs hebben dit getest door kleine AI-modellen (vergelijkbaar met een slimme smartphone-app) vanaf nul te trainen zonder die "Vraag"-onderdelen.

Het resultaat: De modellen die zonder "Vraag" werkten, waren net zo goed als de modellen die het wel hadden.
De verrassing: Omdat ze 25% minder ruimte gebruikten voor die ene onderdelen, konden ze die bespaarde ruimte gebruiken om de "spierkracht" (de MLP, de denkende delen) van de AI groter te maken. Hierdoor werden de modellen zelfs beter dan de standaardmodellen met dezelfde totale grootte.

4. Waarom werkt dit? (De Wiskundige Magie)

De auteurs tonen aan dat de manier waarop de AI "leert" om te kijken, eigenlijk een soort wiskundige truc is.

De Analogie: Stel je voor dat je een foto bekijkt door een gekleurd glas (de Query). Je kunt ook het glas weggooien en de foto zelf een beetje roteren of verkleinen (de andere gewichten aanpassen). Het resultaat op het scherm is hetzelfde.
De onderzoekers zeggen: "Waarom een complex glas gebruiken als je de foto zelf kunt aanpassen?"

5. De "Stabiliteit" en het Geheim

Een ander interessant punt is dat deze vereenvoudigde modellen stabiel blijven, zelfs als je ze minder streng "opvoedt" (minder 'weight decay', een techniek om te voorkomen dat AI te gekke dingen leert).

Vergelijking: Normaal gesproken moet je een AI streng disciplineren zodat hij niet uit de bocht vliegt. Maar deze nieuwe, lichtere modellen lijken van nature al beter in balans te zijn. Het is alsof je een auto bouwt die vanzelf rechtop blijft staan, zelfs als je de stabilisatoren verwijdert.

Conclusie: Wat betekent dit voor de toekomst?

Dit paper zegt eigenlijk: "We hebben jarenlang een complex systeem gebouwd, maar we hebben een deel ervan niet echt nodig."

Efficiëntie: We kunnen AI-modellen bouwen die sneller zijn, minder energie verbruiken en minder geheugen nodig hebben.
Nieuwe inzichten: Het laat zien dat veel van wat we in AI doen misschien gewoon "overgedimensioneerd" is. Soms is de simpelste oplossing (geen Query nodig) de beste.

Kortom: De auteurs hebben bewezen dat je de "Vraag" in de AI kunt laten vallen, de "Sleutel" en "Waarde" kunt herschikken, en je krijgt een slimmere, lichtere machine die net zo goed (of zelfs beter) presteert. Het is een beetje alsof je ontdekt dat je voor een perfecte maaltijd eigenlijk geen kok nodig hebt, als je de ingrediënten maar slim combineert.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het trainen en implementeren van transformer-gebaseerde taalmodellen is computationeel zeer kostbaar. Bestaande architecturale optimalisaties (zoals kwantisatie, efficiënte attention-mechanismen en weight sharing) hebben al veel gedaan, maar de vraag blijft of de fundamentele structuur van de self-attention mechanismen zelf overbodig complex is.

De auteurs onderzoeken specifiek de redundantie binnen het triplet van gewichten: Query ( $W_Q$ ), Key ( $W_K$ ) en Value ( $W_V$ ). De kernhypothese is dat de attention-mechanismen slechts afhankelijk zijn van de input $X$ via de producten $XW_Q$ , $XW_K$ en $XW_V$ . Dit suggereert dat er een "telescopische" constructie mogelijk is waarbij de basis-transformatie van de ene laag kan worden doorgegeven aan de volgende, waardoor de $W_Q$ -matrix over het hele netwerk kan worden vervangen door de eenheidsmatrix ( $I$ ). Dit zou leiden tot een reductie van 25% van de attention-parameters per laag.

Methodologie

De auteurs hanteren een "theorie-eerst" (theory-first) aanpak, gevolgd door empirische validatie.

Theoretische Analyse:
- Reparametrisatie Lemma: Ze bewijzen dat de self-attention output invariant is onder basis-transformaties. Als $W_Q$ inverteerbaar is, kan deze worden "geabsorbeerd" in de andere matrices.
- Enkele Laag (Free Lunch): Ze tonen aan dat in een transformer zonder normalisatielagen, de $W_Q$ van een enkele laag altijd kan worden verwijderd door de gewichten van de andere lagen aan te passen (reparametrisatie), zonder de architectuur te wijzigen.
- Meerdere Lagen: Voor het verwijderen van $W_Q$ $W_{Q}$ in alle lagen tegelijkertijd, identificeren ze twee voorwaarden:
  1. Skip-connections alleen rond Attention: Als er geen skip-connection rond de MLP-laag is, kunnen basis-transformaties door het netwerk worden "gepropageerd".
  2. Weight Sharing: Als alle lagen dezelfde gewichten delen (zoals bij ALBERT), kan $W_Q$ overal worden vervangen door $I$ .
- Normalisatie en MLP: Ze analyseren de obstakels die LayerNorm en MLP-skip-connections veroorzaken. Ze bewijzen dat exacte eliminatie met standaard ReLU-MLPs en skip-connections wiskundig gezien een "generiek disjuncte" functieklasse vereist, maar dat benaderende oplossingen mogelijk zijn via gradient descent.
Empirische Validatie:
- Ze trainen GPT-stijl modellen (117M tot 124M parameters) vanaf nul op OpenWebText.
- Ze vergelijken een standaard baseline met een gereduceerd model waarbij $W_Q = I$ .
- Praktische aanpassingen: Om het model stabiel te houden, passen ze twee hyperparameters aan:
  - Attention Scaling: De schalingsfactor wordt aangepast van $1/\sqrt{d_k}$ naar $1/(2\sqrt{d_k})$ om te compenseren voor de grotere variantie in de attention-scores wanneer $W_Q$ de eenheidsmatrix is.
  - Weight Decay: Ze verlagen de weight decay significant (van 0.1 naar ~0.03) omdat het model minder gereduceerd wordt en meer vrijheidsgraden heeft om de basis-transformaties te leren.

Belangrijkste Bijdragen

Theoretisch Bewijs van Redundantie: Het bewijs dat $W_Q$ overbodig is onder specifieke (maar realistische) voorwaarden, wat leidt tot een 25% reductie in attention-parameters.
Structurale Expressiviteitsgrens: Een fundamenteel resultaat over de geometrie van skip-connections: in het ReLU-geval duwen skip-connections MLP's naar een generiek disjuncte functieklasse. Dit betekent dat een MLP met een skip-connection ($x + MLP(x)$) niet exact kan worden gerepresenteerd door een standaard MLP zonder skip, tenzij specifieke algebraïsche voorwaarden worden voldaan.
Index-vrije Notatie: De introductie van een compacte "Block Hadamard" notatie die de redundantie in multi-head attention wiskundig triviaal maakt.
Empirische Bevestiging: Het aantonen dat modellen met $W_Q = I$ prestaties behalen die gelijk zijn aan of beter zijn dan baselines, ondanks minder parameters.

Resultaten

Prestatie: Het gereduceerde model (117M parameters, $W_Q=I$ ) behaalt een vergelijkbare validatie-loss als het volledige baseline model (124M parameters), ondanks 8% minder niet-embedding parameters.
Parameter Herallocatie: Wanneer de bespaarde parameters worden herverdeeld naar de MLP-laag (in plaats van de embedding-dimensie te verkleinen), presteert het gereduceerde model beter dan de volledige baseline (3.004 vs 3.016 loss).
Stabiliteit: Het trainen van het gereduceerde model is stabiel bij een weight decay die 3x lager is dan normaal. Dit suggereert dat het verwijderen van $W_Q$ een vorm van impliciete regularisatie biedt en dat de overgebleven parameters meer capaciteit hebben om de basis-transformaties te leren.
Efficiëntie: De reductie van $W_Q$ vermindert de parametercount en het rekenvermogen zonder de inferentie-architectuur (zoals KV-cache en GQA) te breken.

Betekenis en Toekomstperspectief

Dit werk daagt de conventionele wijsheid uit dat het Query-Key-Value triplet noodzakelijk is voor expressiviteit in transformers.

Architecturale Redundantie: Het suggereert dat veel van de huidige transformer-ontwerpen overgeparameteriseerd zijn en dat designkeuzes uit het verleden (zoals het gebruik van $W_Q$ ) misschien niet langer noodzakelijk zijn.
Efficiëntie: Het biedt een pad naar efficiëntere modellen die minder geheugen en rekenkracht vereisen, zowel tijdens training als inferentie.
Toepassingsgebied: De methode is compatibel met moderne optimalisaties zoals Grouped-Query Attention (GQA) en Rotary Position Embeddings.
Impliciete Regularisatie: De observatie dat het model stabiel blijft bij lagere weight decay suggereert dat het verwijderen van $W_Q$ de optimisatielandschap positief beïnvloedt.

Kortom, de auteurs concluderen dat voor veel toepassingen alleen de Key en Value gewichten nodig zijn, en dat de Query-gewichten kunnen worden vervangen door een identiteit, mits de overige hyperparameters en architecturale details (zoals scaling en weight decay) correct worden afgestemd.

Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Self-Attention Transformers

1. Het Probleem: Teveel Geweld in de Keuken

2. De Oplossing: De "Vrije Lunch"

3. Wat gebeurt er in de praktijk?

4. Waarom werkt dit? (De Wiskundige Magie)

5. De "Stabiliteit" en het Geheim

Conclusie: Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems