Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Self-Attention Transformers

Die Studie zeigt theoretisch und empirisch, dass in Transformer-Modellen einer der drei Gewichtsvektoren (Query, Key oder Value) durch die Identitätsmatrix ersetzt werden kann, was die Parameteranzahl um 25 % reduziert, die Optimierung vereinfacht und dennoch eine vergleichbare Leistung erzielt.

Marko Karbevski, Antonij Mijoski

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Brauchen wir wirklich drei Schlüssel?

Stell dir vor, ein modernes KI-Modell (ein "Transformer") ist wie eine riesige Bibliothek, in der ein sehr schneller Bibliothekar arbeitet. Wenn dieser Bibliothekar eine Frage bekommt, muss er drei Dinge tun, um die richtige Antwort zu finden:

  1. Die Frage verstehen (Query): Er schaut sich die Frage genau an.
  2. Die Bücher scannen (Key): Er vergleicht die Frage mit den Titeln auf den Buchrücken.
  3. Die Inhalte holen (Value): Er nimmt das Buch herunter und liest den Inhalt heraus.

In der aktuellen Technik hat dieser Bibliothekar für jeden dieser drei Schritte einen eigenen, riesigen Werkzeugkasten (die sogenannten Gewichte WQW_Q, WKW_K und WVW_V). Das macht das System sehr mächtig, aber auch riesig, teuer und langsam.

Die große Frage der Autoren: Braucht der Bibliothekar wirklich drei verschiedene Werkzeugkästen? Oder könnte er nicht einfach einen davon weglassen und trotzdem genauso gut arbeiten?

Die Entdeckung: Der "Freie Mittag" (Free Lunch)

Die Autoren haben herausgefunden, dass man den Werkzeugkasten für die Frage (Query) komplett wegwerfen kann, ohne dass die Bibliothek schlechter funktioniert.

Stell dir vor, der Bibliothekar sagt: "Ich muss mir die Frage nicht extra in eine neue Sprache übersetzen (das wäre der Query-Werkzeugkasten). Ich kann sie einfach so nehmen, wie sie ist!"

  • Das Ergebnis: Das System wird 25 % kleiner und braucht weniger Rechenleistung.
  • Der Trick: Die Autoren haben mathematisch bewiesen, dass man die Informationen, die normalerweise im "Frage-Werkzeugkasten" gespeichert sind, einfach in die anderen beiden Werkzeuge (Key und Value) "hineinschieben" kann. Es ist, als würde man den Inhalt eines Koffers in die anderen beiden Koffer umpacken und den ersten Koffer dann wegwerfen.

Warum funktioniert das? (Die Analogie der Basis-Transformation)

Stell dir vor, du hast eine Landkarte. Normalerweise musst du die Koordinaten der Frage erst in ein neues Koordinatensystem umrechnen, bevor du sie mit der Landkarte vergleichen kannst. Das ist der "Query-Werkzeugkasten".

Die Autoren sagen: "Warum umrechnen? Wir können einfach die Landkarte selbst so drehen, dass sie direkt mit den ursprünglichen Koordinaten der Frage übereinstimmt."

Mathematisch nennen sie das eine Basis-Transformation. Sie zeigen, dass man die Drehung der Landkarte (die Anpassung) einfach in die anderen Teile des Systems integrieren kann. Das System lernt dann einfach, die Landkarte so zu halten, dass die Frage direkt passt.

Was passiert in der Praxis? (Der Test)

Die Autoren haben das nicht nur theoretisch berechnet, sondern es auch ausprobiert. Sie haben kleine Sprachmodelle (wie GPT) von Grund auf neu trainiert, aber ohne den "Frage-Werkzeugkasten".

  • Das Ergebnis: Die Modelle waren genauso gut wie die normalen Modelle, obwohl sie weniger Parameter hatten.
  • Der Bonus: Da sie weniger Parameter hatten, konnten sie die gesparte Rechenleistung nutzen, um den "Inhaltsteil" (den MLP-Teil, der für das eigentliche Denken zuständig ist) etwas größer zu machen. Das machte das Modell sogar noch etwas schlauer als das Original!
  • Stabilität: Interessanterweise war das Training sehr stabil, selbst wenn sie die "Strafen" für zu große Zahlen (Weight Decay) drastisch reduzierten. Das deutet darauf hin, dass das System von sich aus sehr gut lernt, ohne dass man es so stark bremsen muss.

Warum ist das wichtig?

  1. Schneller und günstiger: Weniger Parameter bedeuten, dass KI-Modelle schneller laufen und weniger Energie verbrauchen. Das ist gut für die Umwelt und für deinen Geldbeutel.
  2. Einfacher zu verstehen: Wenn man weniger Bausteine hat, ist es einfacher zu verstehen, wie das Gehirn der KI eigentlich funktioniert.
  3. Zukunftssicher: Die Autoren zeigen, dass viele Teile unserer heutigen KI-Architektur vielleicht nur "Überbleibsel" aus der Geschichte sind und nicht unbedingt notwendig. Vielleicht können wir in Zukunft noch viel effizientere Modelle bauen.

Zusammenfassung in einem Satz

Die Autoren haben bewiesen, dass wir in KI-Modellen einen der drei wichtigsten Bausteine (die "Query"-Gewichte) einfach durch einen "Spiegel" (die Identitätsmatrix) ersetzen können, indem wir die anderen Bausteine clever anpassen – und das macht die KI kleiner, schneller und trotzdem genauso schlau.

Kurz gesagt: Wir müssen nicht drei Schlüssel haben, um die Tür zu öffnen. Ein Schlüssel reicht, wenn wir die Tür selbst ein wenig anpassen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →