Identifying and Evaluating Inactive Heads in Pretrained LLMs

Each language version is independently generated for its own context, not a direct translation.

Titel: Die schlafenden Wachen im Gehirn der KI

Stell dir vor, ein großes Sprachmodell (eine KI wie wir sie heute kennen) ist wie ein riesiges, hochmodernes Büro mit 1.000 Mitarbeitern (den sogenannten "Attention Heads"). Jeder dieser Mitarbeiter hat eine spezielle Aufgabe: Er soll im Text, den die KI liest, die wichtigsten Informationen herausfiltern und sie an das Team weitergeben.

Die Wissenschaftler in diesem Papier haben sich gefragt: Machen wirklich alle 1.000 Mitarbeiter wirklich etwas? Oder schlafen einige von ihnen nur herum?

Das Problem: Der "Türsteher", der niemanden reinlässt

Früher glaubten Forscher, sie könnten die schlafenden Mitarbeiter leicht erkennen. Sie schauten sich an, wem die Mitarbeiter am meisten Aufmerksamkeit schenkten. Oft sahen sie, dass ein Mitarbeiter nur auf das allererste Wort im Satz starrte (wie ein Türsteher, der nur auf den ersten Besucher achtet, egal ob dieser wichtig ist oder nicht).

Die Forscher nannten das "Attention Sinks" (Aufmerksamkeits-Senken). Wenn ein Mitarbeiter nur auf das erste Wort starrt, dachten sie: "Der macht gar nichts, er ist inaktiv!"

Aber hier kommt der Haken:
Stell dir vor, ein Mitarbeiter starrt zwar auf das erste Wort, aber das erste Wort ist ein leeres Blatt Papier (es hat keinen Inhalt). Dann ist das Ergebnis seiner Arbeit auch ein leeres Blatt.
Oder: Ein Mitarbeiter schaut auf fünf verschiedene Wörter, aber alle diese Wörter sind ebenfalls leere Blätter. Auch hier ist das Ergebnis null.

Die alten Methoden haben nur geschaut, worauf die Mitarbeiter starrten. Aber sie haben nicht geschaut, was sie am Ende herausgebracht haben.

Die neue Methode: Was kommt wirklich raus?

Die Autoren dieses Papers haben einen cleveren Trick angewendet. Statt nur zu fragen: "Worauf schaust du?", fragten sie: "Was hast du am Ende in der Hand?"

Sie haben 12 verschiedene Messwerkzeuge entwickelt, um zu prüfen, ob ein Mitarbeiter wirklich arbeitet. Das beste Werkzeug war ganz einfach: Wie groß ist das Ergebnis, das der Mitarbeiter liefert?

Die alte Methode (Nur auf das erste Wort schauen): Hatte oft das falsche Bild. Sie dachte, viele Mitarbeiter seien wach, obwohl sie eigentlich nur leere Ergebnisse lieferten.
Die neue Methode (Auf das Ergebnis schauen): Hatte gezeigt, dass viele Mitarbeiter, die wach zu sein schienen, eigentlich nur "Luft" produzieren.

Das Experiment: Die "Ausschalt-Test"

Um sicherzugehen, haben die Forscher ein riesiges Experiment gemacht. Sie haben in verschiedenen KI-Modellen (Llama, OLMo, Qwen) genau diese "schlafenden" Mitarbeiter identifiziert und sie vorübergehend ausgeschaltet (ihre Ergebnisse auf Null gesetzt).

Das Ergebnis war verblüffend:

Im Durchschnitt konnten sie über 12 % aller Mitarbeiter einfach aus dem Büro werfen, ohne dass die KI schlechter wurde.
Die KI konnte immer noch genauso gut Fragen beantworten (wie in einem großen Test namens MMLU), als wären alle Mitarbeiter da.
Wenn sie nur die alten Methoden benutzt hätten, wären sie nur auf unter 5 % gekommen. Sie hätten also übersehen, dass noch viel mehr "Luft" im System ist.

Was bedeutet das für die Zukunft?

Effizienz: Stell dir vor, du müsstest nicht mehr 1.000 Mitarbeiter bezahlen, sondern nur noch 880, weil 120 eh nur herumstehen. Das spart enorm viel Strom und Rechenleistung.
Stabilität: Die Forscher haben auch gesehen, dass das "Schlafen" der Mitarbeiter sehr stabil ist. Ob man die KI weiter trainiert oder anpasst (Fine-Tuning), ändert daran kaum etwas. Die schlafenden Wachen bleiben schlafen.
Größe spielt eine Rolle: Bei sehr großen Modellen (14 Milliarden Parameter) fangen die Mitarbeiter an, sich zu spezialisieren. Bei kleineren Modellen sind sie sich alle sehr ähnlich.

Zusammenfassung in einer Metapher

Stell dir die KI wie einen Orchester vor.
Die alten Forscher haben geglaubt, sie könnten die stummen Musiker erkennen, indem sie schauen, wer auf das erste Instrument im Takt schlägt.
Die neuen Forscher haben aber auf die Lautstärke geachtet. Sie haben festgestellt: Viele Musiker spielen zwar, aber so leise, dass man sie gar nicht hört. Wenn man diese leisen Spieler einfach aussetzt, klingt das Orchester immer noch perfekt, und man spart sich den Platz für die Instrumente.

Fazit: In den großen KI-Modellen schlafen viel mehr Mitarbeiter, als wir dachten. Und wir können sie jetzt viel besser finden, indem wir nicht auf ihre Augen (Aufmerksamkeit), sondern auf ihre Hände (Ergebnisse) schauen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Aufmerksamkeitsmechanismen (Attention) sind das Fundament von Large Language Models (LLMs) und Transformer-Architekturen. Es wurde jedoch beobachtet, dass bestimmte Aufmerksamkeitsköpfe (Attention Heads) inaktiv oder „dormant" sein können. Ein bekanntes Phänomen ist der „Attention Sink", bei dem das erste Token (oft semantisch irrelevant) überproportional viel Aufmerksamkeit erhält, während der zugehörige Wertvektor (Value Vector) nahe Null ist. Dies führt zu einer Ausgabe des Kopfes nahe Null, was auf eine Rechenredundanz hindeutet.

Das zentrale Problem der Arbeit ist die Definition und Identifizierung dieser inaktiven Köpfe. Bisherige Arbeiten (z. B. Guo et al., 2024a; Gu et al., 2025) konzentrierten sich fast ausschließlich auf die Aufmerksamkeitsgewichte (Attention Weights). Die Autoren argumentieren, dass dies eine unvollständige Sichtweise ist, da ein Kopf auch dann inaktiv sein kann, wenn die Aufmerksamkeitsgewichte nicht auf das erste Token zeigen, aber die resultierenden Wertvektoren oder die Kopf-Ausgabe selbst nahe Null sind. Die Frage lautet: Wie verbreitet sind inaktive Köpfe wirklich, und welche Metrik identifiziert sie am zuverlässigsten?

Methodik

Die Autoren entwickeln und evaluieren einen systematischen Ansatz zur Identifizierung inaktiver Köpfe durch folgende Schritte:

Entwicklung von 12 Score-Funktionen:
Statt sich nur auf Aufmerksamkeitsgewichte zu verlassen, definieren die Autoren 12 verschiedene Score-Funktionen, die drei Komponenten des Attention-Mechanismus messen:
- Aufmerksamkeitsgewichte: z. B. durchschnittliches Gewicht des ersten Tokens (Avg Weight of First Token - AWFT) oder Entropie der Query-Verteilungen.
- Wertvektoren (Value Vectors): z. B. Norm des Wertvektors des ersten Tokens oder durchschnittliche Norm aller Wertvektoren.
- Kopf-Ausgaben (Head Outputs): z. B. Norm der Ausgabe des letzten Tokens oder durchschnittliche Norm der Kopf-Ausgaben über die gesamte Sequenz.
Zusätzlich werden für jede dieser Funktionen normalisierte Versionen (Layer-Normalization, „LN") eingeführt, bei denen der Score eines Kopfes relativ zum Durchschnitt der anderen Köpfe in derselben Schicht skaliert wird, um modellübergreifende Vergleiche zu ermöglichen.
Schwellenwert-basierte Klassifizierung:
Jeder Score wird mit einem Schwellenwert $\tau$ verglichen. Köpfe, deren Score unter (oder über, je nach Metrik) diesem Schwellenwert liegt, werden als potenziell inaktiv klassifiziert.
Validierung durch Model-Interventionen:
Um zu beweisen, dass die identifizierten Köpfe tatsächlich redundant sind, führen die Autoren Experimente durch, bei denen die Ausgaben der als inaktiv identifizierten Köpfe während des Vorwärtsdurchlaufs (Forward Pass) auf Null gesetzt werden (Ablation). Die Leistung wird auf dem MMLU-Benchmark (Massive Multitask Language Understanding) gemessen. Ein Score ist dann effektiv, wenn er viele Köpfe identifiziert, deren Entfernung die Modellgenauigkeit kaum beeinträchtigt (z. B. innerhalb von 1% des Baselines).
Analyse von Score-Verteilungen:
Die Autoren untersuchen die Verteilung der Scores, um Einblicke in das Lernverhalten zu gewinnen, insbesondere im Hinblick auf Skalierung (Model Scale) und Feinabstimmung (Finetuning).

Wichtige Ergebnisse

Häufigkeit inaktiver Köpfe:
Im Durchschnitt sind mehr als 12% der Aufmerksamkeitsköpfe in den getesteten vortrainierten LLMs inaktiv. Das bedeutet, dass diese Köpfe in spezifischen Kontexten entfernt werden können, ohne die MMLU-Genauigkeit signifikant zu senken.
Überlegenheit der Output-Norm:
Die Score-Funktion „Avg Head Output Norm (LN)" (durchschnittliche Norm der Kopf-Ausgabe, normalisiert) erwies sich als robusteste Metrik. Sie identifiziert in 8 von 14 Modellen die meisten inaktiven Köpfe und gehört in 13 von 14 Fällen zu den Top-3.
- Im Gegensatz dazu unterschätzt die bisherige Standardmetrik „Avg Weight of First Token" (AWFT) die Anzahl der inaktiven Köpfe erheblich. AWFT würde im Durchschnitt weniger als 5% der Köpfe als inaktiv klassifizieren und damit über 7% der tatsächlich inaktiven Köpfe übersehen.
- Dies zeigt, dass reine Aufmerksamkeitsmuster (wie Attention Sinks) kein verlässlicher Indikator für Inaktivität sind; die tatsächliche Ausgabe des Kopfes ist entscheidend.
Modellunabhängigkeit:
Die Methode der Output-Norm ist über verschiedene Modellfamilien hinweg (Llama, OLMo, Qwen) und verschiedene Skalierungen hinweg konsistent effektiv. Andere Metriken, die nur auf Gewichten basieren, zeigen stark variierende Ergebnisse je nach Modellarchitektur.
Einfluss von Finetuning und Skalierung:
- Finetuning: Die Analyse der Score-Verteilungen zeigt, dass Feinabstimmungsverfahren (SFT, DPO, RLHF) kaum Veränderungen im Aufmerksamkeitsverhalten bewirken. Die Scores der feinabgestimmten Modelle ähneln stark denen der Basismodelle.
- Skalierung: Bis zu einem gewissen Grad (bis ca. 7B Parameter bei Qwen2.5) verhalten sich Modelle unterschiedlicher Größe ähnlich. Erst bei sehr großen Modellen (14B) beginnen sich die Verteilungen zu unterscheiden, was auf eine Spezialisierung der Köpfe hindeutet.
Stabilität über Datensätze:
Die Metrik „Avg Head Output Norm (LN)" liefert über verschiedene Datensätze (MMLU, PIQA, WinoGrande) hinweg stabile Ergebnisse, während Metriken basierend auf Attention Sinks (AWFT) stark datensatzabhängig und instabil sind.

Bedeutung und Schlussfolgerung

Das Paper liefert einen fundamentalen neuen Blickwinkel auf die Effizienz von Transformer-Modellen:

Neue Definition von Inaktivität: Inaktivität sollte nicht primär über Aufmerksamkeitsgewichte, sondern über die Ausgangsvektoren der Köpfe definiert werden.
Potenzial für Effizienzsteigerung: Da über 12% der Köpfe in vielen Kontexten redundant sind, eröffnen sich neue Möglichkeiten für dynamisches Pruning, KV-Cache-Kompression und effizientere Inferenzarchitekturen.
Robustheit: Die Identifizierungsmethode ist modellagnostisch und funktioniert über verschiedene Familien und Größen hinweg zuverlässig, was sie zu einem wertvollen Werkzeug für die Analyse und Optimierung von LLMs macht.

Die Autoren betonen, dass ihr Fokus auf dem Verständnis liegt, wie man inaktive Köpfe identifiziert und validiert, wobei die praktische Anwendung (z. B. beschleunigte Inferenz) ein vielversprechendes Feld für zukünftige Forschung ist.

Identifying and Evaluating Inactive Heads in Pretrained LLMs

Das Problem: Der "Türsteher", der niemanden reinlässt

Die neue Methode: Was kommt wirklich raus?

Das Experiment: Die "Ausschalt-Test"

Was bedeutet das für die Zukunft?

Zusammenfassung in einer Metapher

Problemstellung

Methodik

Wichtige Ergebnisse

Bedeutung und Schlussfolgerung

Mehr davon

Integrating Artificial Intelligence, Physics, and Internet of Things: A Framework for Cultural Heritage Conservation

Scaling DPPs for RAG: Density Meets Diversity

DRAFT: Task Decoupled Latent Reasoning for Agent Safety

General Explicit Network (GEN): A novel deep learning architecture for solving partial differential equations

Apparent Age Estimation: Challenges and Outcomes