Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Self-Attention Transformers

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Brauchen wir wirklich drei Schlüssel?

Stell dir vor, ein modernes KI-Modell (ein "Transformer") ist wie eine riesige Bibliothek, in der ein sehr schneller Bibliothekar arbeitet. Wenn dieser Bibliothekar eine Frage bekommt, muss er drei Dinge tun, um die richtige Antwort zu finden:

Die Frage verstehen (Query): Er schaut sich die Frage genau an.
Die Bücher scannen (Key): Er vergleicht die Frage mit den Titeln auf den Buchrücken.
Die Inhalte holen (Value): Er nimmt das Buch herunter und liest den Inhalt heraus.

In der aktuellen Technik hat dieser Bibliothekar für jeden dieser drei Schritte einen eigenen, riesigen Werkzeugkasten (die sogenannten Gewichte $W_Q$ , $W_K$ und $W_V$ ). Das macht das System sehr mächtig, aber auch riesig, teuer und langsam.

Die große Frage der Autoren: Braucht der Bibliothekar wirklich drei verschiedene Werkzeugkästen? Oder könnte er nicht einfach einen davon weglassen und trotzdem genauso gut arbeiten?

Die Entdeckung: Der "Freie Mittag" (Free Lunch)

Die Autoren haben herausgefunden, dass man den Werkzeugkasten für die Frage (Query) komplett wegwerfen kann, ohne dass die Bibliothek schlechter funktioniert.

Stell dir vor, der Bibliothekar sagt: "Ich muss mir die Frage nicht extra in eine neue Sprache übersetzen (das wäre der Query-Werkzeugkasten). Ich kann sie einfach so nehmen, wie sie ist!"

Das Ergebnis: Das System wird 25 % kleiner und braucht weniger Rechenleistung.
Der Trick: Die Autoren haben mathematisch bewiesen, dass man die Informationen, die normalerweise im "Frage-Werkzeugkasten" gespeichert sind, einfach in die anderen beiden Werkzeuge (Key und Value) "hineinschieben" kann. Es ist, als würde man den Inhalt eines Koffers in die anderen beiden Koffer umpacken und den ersten Koffer dann wegwerfen.

Warum funktioniert das? (Die Analogie der Basis-Transformation)

Stell dir vor, du hast eine Landkarte. Normalerweise musst du die Koordinaten der Frage erst in ein neues Koordinatensystem umrechnen, bevor du sie mit der Landkarte vergleichen kannst. Das ist der "Query-Werkzeugkasten".

Die Autoren sagen: "Warum umrechnen? Wir können einfach die Landkarte selbst so drehen, dass sie direkt mit den ursprünglichen Koordinaten der Frage übereinstimmt."

Mathematisch nennen sie das eine Basis-Transformation. Sie zeigen, dass man die Drehung der Landkarte (die Anpassung) einfach in die anderen Teile des Systems integrieren kann. Das System lernt dann einfach, die Landkarte so zu halten, dass die Frage direkt passt.

Was passiert in der Praxis? (Der Test)

Die Autoren haben das nicht nur theoretisch berechnet, sondern es auch ausprobiert. Sie haben kleine Sprachmodelle (wie GPT) von Grund auf neu trainiert, aber ohne den "Frage-Werkzeugkasten".

Das Ergebnis: Die Modelle waren genauso gut wie die normalen Modelle, obwohl sie weniger Parameter hatten.
Der Bonus: Da sie weniger Parameter hatten, konnten sie die gesparte Rechenleistung nutzen, um den "Inhaltsteil" (den MLP-Teil, der für das eigentliche Denken zuständig ist) etwas größer zu machen. Das machte das Modell sogar noch etwas schlauer als das Original!
Stabilität: Interessanterweise war das Training sehr stabil, selbst wenn sie die "Strafen" für zu große Zahlen (Weight Decay) drastisch reduzierten. Das deutet darauf hin, dass das System von sich aus sehr gut lernt, ohne dass man es so stark bremsen muss.

Warum ist das wichtig?

Schneller und günstiger: Weniger Parameter bedeuten, dass KI-Modelle schneller laufen und weniger Energie verbrauchen. Das ist gut für die Umwelt und für deinen Geldbeutel.
Einfacher zu verstehen: Wenn man weniger Bausteine hat, ist es einfacher zu verstehen, wie das Gehirn der KI eigentlich funktioniert.
Zukunftssicher: Die Autoren zeigen, dass viele Teile unserer heutigen KI-Architektur vielleicht nur "Überbleibsel" aus der Geschichte sind und nicht unbedingt notwendig. Vielleicht können wir in Zukunft noch viel effizientere Modelle bauen.

Zusammenfassung in einem Satz

Die Autoren haben bewiesen, dass wir in KI-Modellen einen der drei wichtigsten Bausteine (die "Query"-Gewichte) einfach durch einen "Spiegel" (die Identitätsmatrix) ersetzen können, indem wir die anderen Bausteine clever anpassen – und das macht die KI kleiner, schneller und trotzdem genauso schlau.

Kurz gesagt: Wir müssen nicht drei Schlüssel haben, um die Tür zu öffnen. Ein Schlüssel reicht, wenn wir die Tür selbst ein wenig anpassen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Transformer-Architekturen, insbesondere die Self-Attention-Mechanismen, sind rechenintensiv und parametrisch überdimensioniert. Der Standard-Self-Attention-Mechanismus verwendet drei Gewichtsmatrizen pro Kopf: Query ( $W_Q$ ), Key ( $W_K$ ) und Value ( $W_V$ ).
Die zentrale Forschungsfrage des Papers ist: Sind alle drei Gewichtsmatrizen ( $W_Q, W_K, W_V$ ) tatsächlich notwendig? Die Autoren untersuchen theoretisch und empirisch, ob die Query-Matrix ( $W_Q$ ) redundant ist und durch die Identitätsmatrix ( $I$ ) ersetzt werden kann, ohne die Ausdruckskraft des Modells zu verlieren. Dies würde die Anzahl der Attention-Parameter pro Schicht um 25 % reduzieren (da $W_Q$ ein Viertel der Attention-Parameter ausmacht).

2. Methodik

Die Arbeit kombiniert eine theoretische Analyse unter vereinfachten Annahmen mit einer empirischen Validierung auf großen Sprachmodellen.

A. Theoretische Analyse

Die Autoren nutzen ein Reparametrisierungs-Lemma, das besagt, dass die Self-Attention-Funktion nur von den Produkten $XW_Q$ , $XW_K$ und $XW_V$ abhängt. Durch eine Basisänderung (Change of Basis) kann die Transformation, die $W_Q$ leistet, in die nachfolgenden Schichten verschoben werden.

Die Analyse gliedert sich in mehrere Theoreme unter unterschiedlichen architektonischen Annahmen:

Einzelne Schicht (Theorem 4.1): In einem Transformer ohne Normalisierungsschichten (LayerNorm) kann die $W_Q$ -Matrix einer beliebigen Schicht durch $I$ ersetzt werden, indem die Gewichte der nachfolgenden Schichten ( $W_K, W_V, W_O$ ) entsprechend umparametrisiert werden. Dies gilt als „Free Lunch", da keine Architekturänderungen nötig sind.
Mehrschichtige Modelle ohne LayerNorm (Theorem 4.2 & 4.3):
- Wenn Skip-Connections nur um die Attention-Schicht herum existieren (nicht um den MLP), kann $W_Q$ in allen Schichten durch $I$ ersetzt werden. Die Basisänderungen pflanzen sich über die Intertwining-Relation (Verflechtung) der Blöcke fort.
- Bei Gewichtsteilung (Weight Sharing) über alle Schichten hinweg kann $W_Q$ ebenfalls eliminiert werden.
Einfluss von LayerNorm: Die Autoren zeigen, dass LayerNorm eine theoretische Hürde darstellt, da es die exakte Basisübertragung stört. Sie leiten jedoch hinreichende Bedingungen ab, unter denen eine Approximation möglich ist, und argumentieren, dass moderne Modelle (wie GPT-2 XL) auch ohne LayerNorm trainierbar sind oder dass die Störung durch Anpassung der Hyperparameter kompensiert werden kann.
Strukturelle Expressivität (Theorem 8.4): Ein wichtiger theoretischer Befund ist die Untersuchung, wann Skip-Connections in ReLU-MLPs absorbiert werden können. Die Autoren beweisen, dass Residual-MLPs und reine MLPs gleicher Breite generisch disjunkte Funktionsklassen darstellen, es sei denn, spezifische algebraische Bedingungen erfüllt sind. Dies unterstreicht die Notwendigkeit von Skip-Connections für die Stabilität und Expressivität.

B. Empirische Validierung

Um die Theorie zu testen, trainierten die Autoren GPT-ähnliche Modelle (117M bis 124M Parameter) von Grund auf auf dem OpenWebText-Datensatz.

Architektur: Vergleich zwischen einem Standard-Modell und einem Modell mit $W_Q = I$ .
Anpassungen: Da das Entfernen von $W_Q$ $W_{Q}$ die Skalierung der Attention-Scores verändert (da Queries nun direkte Koordinatenschnitte des Inputs sind), führten die Autoren zwei praktische Anpassungen ein:
1. Attention Scaling: Die Skalierungsfaktoren wurden von $1/\sqrt{d_k}$ auf $1/(2\sqrt{d_k})$ angepasst, um eine frühe Sättigung der Softmax-Funktion zu verhindern.
2. Weight Decay: Der Weight-Decay wurde drastisch reduziert (von 0.1 auf $\approx 0.03$ ), da die verbleibenden Parameter mehr Freiheitsgrade benötigen, um die ursprüngliche Funktion und die Basisänderung zu kodieren.

3. Wichtige Beiträge

Redundanz von $W_Q$ : Der Nachweis, dass die Query-Matrix in Multi-Head-Attention redundant ist und durch die Identitätsmatrix ersetzt werden kann, was zu einer Reduktion der Attention-Parameter um 25 % führt.
Theoretische Grenzen und Bedingungen: Klare Definition der architektonischen Bedingungen (z. B. Skip-Connection-Platzierung, Gewichtsbindung), unter denen diese Reduktion exakt gilt, sowie die Analyse der Hindernisse durch LayerNorm.
Neue Notation: Einführung einer blockweisen Notation (Block-Hadamard-Produkte) für Multi-Head-Attention, die die Redundanz mathematisch trivial macht.
Lösung der Residual-Gleichung: Eine exakte Charakterisierung, wann ein Residual-Block ($MLP(x) + x$) äquivalent zu einem reinen MLP ( $V_2 \text{ReLU}(V_1 x)$ ) ist, was zeigt, dass Skip-Connections den Funktionsraum erweitern.

4. Ergebnisse

Die experimentellen Ergebnisse bestätigen die theoretischen Vorhersagen:

Leistungsäquivalenz: Das reduzierte Modell ( $W_Q = I$ , 117M Parameter) erreicht eine Validierungs-Verlustleistung, die mit dem vollen Baseline-Modell (124M Parameter) vergleichbar ist, obwohl es 8 % weniger nicht-embedding-Parameter hat.
Überlegenheit bei gleicher Größe: Wenn die durch das Entfernen von $W_Q$ gesparten Parameter in den MLP-Teil umverteilt werden (erhöhte Hidden-Dimension), übertrifft das reduzierte Modell das parametrische Äquivalent (117M vs. 117M Baseline) deutlich.
Stabilität: Das Training des reduzierten Modells bleibt auch bei einem 3-fach niedrigeren Weight Decay stabil. Dies deutet darauf hin, dass das Entfernen von $W_Q$ eine implizite Regularisierung bietet, da die Attention-Logits nun linear statt quadratisch in den gelernten Parametern sind.
Effizienz: Die Methode ist kompatibel mit bestehenden Optimierungen wie KV-Caching und Grouped-Query Attention (GQA).

5. Bedeutung und Ausblick

Diese Arbeit hat weitreichende Implikationen für das Design effizienter Transformer:

Architektonische Vereinfachung: Sie stellt die Notwendigkeit des klassischen $Q, K, V$ -Tripletts in Frage und schlägt vor, dass $W_Q$ oft ein Artefakt der Designgeschichte und nicht eine funktionale Notwendigkeit ist.
Ressourceneinsparung: Eine Reduktion von 25 % der Attention-Parameter pro Schicht führt zu signifikanten Einsparungen bei Speicherbedarf und Rechenzeit sowohl beim Training als auch beim Inference.
Implizite Regularisierung: Die Beobachtung, dass reduzierte Modelle bei geringerem Weight Decay stabiler trainieren, bietet neue Einblicke in die Regularisierungseigenschaften von Transformer-Architekturen.
Zukunftsperspektiven: Die Autoren schlagen vor, diese Reduktion auch auf andere Modalitäten und größere Modelle zu skalieren. Zudem wird diskutiert, ob stattdessen $W_K$ (Key) eliminiert werden könnte (da Key oft als weniger einflussreich gilt) oder ob nichtlineare Transformationen für $Q$ (anstatt $I$ ) die Expressivität weiter steigern könnten.

Zusammenfassend beweist das Paper, dass Transformer-Architekturen durch das Entfernen der Query-Gewichte strukturell vereinfacht werden können, ohne an Leistung einzubüßen, was einen wichtigen Schritt hin zu effizienteren und theoretisch fundierteren Modellen darstellt.