Compressed Sensing for Capability Localization in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich ein riesiges, modernes Büro vor, das ein riesiges Gehirn namens „Großes Sprachmodell" (LLM) beherbergt. Dieses Gehirn besteht aus Tausenden von kleinen Mitarbeitern, die wir hier Aufmerksamkeitsköpfe (attention heads) nennen. Jeder dieser Köpfe ist wie ein spezialisierter Angestellter: Einer ist gut in Mathe, einer schreibt Code, einer kennt sich mit Reimen aus und ein anderer ist einfach nur für den allgemeinen Smalltalk zuständig.

Bisher dachten viele Forscher, dass diese Fähigkeiten im ganzen Gehirn verteilt sind – wie ein riesiges, undurchsichtiges Netz, in dem jeder ein bisschen zu allem beiträgt.

Die große Entdeckung:
Die Autoren dieses Papers haben jedoch etwas Überraschendes herausgefunden: Das Gehirn ist viel modularer aufgebaut.

Stellen Sie sich vor, Sie wollen, dass das Büro keine Matheaufgaben mehr lösen kann. Anstatt das ganze Büro zu schließen oder jeden einzelnen Mitarbeiter zu feuern, reicht es oft aus, fünf ganz bestimmte Spezialisten zu entlassen (oder sie stumm zu schalten). Wenn diese fünf Köpfe weg sind, versagt das Modell bei Matheaufgaben sofort (bis zu 65 % schlechter), kann aber immer noch perfekt Geschichten erzählen, E-Mails schreiben oder Witze machen. Es ist, als würde man einem Orchester nur die Geiger entziehen: Die Musik für die Geige ist weg, aber das Schlagzeug und die Bläser spielen weiter.

Das Problem: Die Nadel im Heuhaufen
Das Problem ist: In einem Modell wie Llama gibt es über 1.000 dieser Köpfe. Um herauszufinden, welche fünf für Mathe zuständig sind, müsste man normalerweise jeden einzelnen Köpfe einzeln „testen" (entlassen und schauen, was passiert). Das wäre wie das Suchen nach einer Nadel im Heuhaufen, bei dem man den ganzen Heuhaufen durchwühlen müsste. Das dauert ewig und kostet enorm viel Rechenleistung.

Die Lösung: Komprimiertes Abtasten (Compressed Sensing)
Hier kommt die geniale Methode des Papers ins Spiel. Die Forscher nutzen eine Technik namens „Komprimiertes Abtasten".

Stellen Sie sich vor, Sie haben einen riesigen Raum voller Lichtschalter (die Köpfe). Sie wollen wissen, welche fünf Schalter das Licht für das „Mathe-Raum" steuern.

Der alte Weg: Gehen Sie Schalter für Schalter durch, drücken Sie jeden einmal und schauen Sie, ob das Licht ausgeht. (Sehr langsam!)
Der neue Weg (Komprimiertes Abtasten): Sie schalten zufällige Gruppen von Schaltern gleichzeitig aus. Mal 10, mal 50, mal 100. Sie beobachten, wie sich die Helligkeit im Mathe-Raum verändert.
- Wenn Sie eine Gruppe ausschalten und das Licht wird sehr dunkel, wissen Sie: „Aha! In dieser Gruppe ist der wichtige Schalter."
- Durch ein cleveres mathematisches Rätsel (eine Art Detektivarbeit) können die Forscher aus diesen wenigen Tests genau rekonstruieren, welche fünf Schalter die Schuldigen sind.

Das Ergebnis:
Sie finden die richtigen Köpfe mit 50-mal weniger Tests als beim alten Weg. Es ist, als würden Sie den Heuhaufen nicht durchwühlen, sondern mit einem Metalldetektor schnell über die Oberfläche fahren und sofort die Nadel finden.

Zusätzliche Entdeckungen:

Die „Universal-Köpfe": Es gibt auch ein paar Köpfe, die für alles wichtig sind. Wenn man diese entlässt, funktioniert das ganze Büro chaotisch. Die Mitarbeiter fangen an, sich zu wiederholen oder Unsinn zu reden. Diese sind wie das Fundament des Gebäudes.
Größe zählt: In kleineren Modellen (weniger Mitarbeiter) sind die Aufgaben oft noch stärker gemischt. In großen Modellen (viele Mitarbeiter) ist die Arbeit viel klarer aufgeteilt. Je größer das Modell, desto besser ist die Spezialisierung.

Warum ist das wichtig?
Das ist ein riesiger Schritt für die Künstliche Intelligenz-Sicherheit und Verständlichkeit:

Sicherheit: Wenn ein Modell gefährliches Wissen hat (z. B. wie man eine Bombe baut), müssen wir nicht das ganze Modell neu trainieren. Wir können einfach die „Bombe-Köpfe" identifizieren und entfernen.
Effizienz: Wir können Modelle kleiner und schneller machen, indem wir nur die Köpfe behalten, die wir wirklich brauchen.
Verständnis: Wir verstehen endlich, wie diese riesigen KI-Modelle im Inneren wirklich funktionieren. Sie sind keine schwarzen Kisten mehr, sondern gut organisierte Teams von Spezialisten.

Zusammenfassend:
Die Forscher haben gezeigt, dass KI-Fähigkeiten nicht im ganzen Gehirn verteilt sind, sondern in winzigen, spezialisierten Teams stecken. Mit einer cleveren mathematischen Methode können sie diese Teams schnell finden, ohne das ganze System zu zerstören. Das ist wie der Schlüssel, um die Geheimnisse der KI zu entschlüsseln und sie sicherer zu machen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Verständnis dafür, wie Large Language Models (LLMs) diverse Fähigkeiten (wie mathematisches Schlussfolgern, Code-Generierung oder linguistisches Verhalten) repräsentieren und ausführen, bleibt eine zentrale Herausforderung. Bisherige Arbeiten haben gezeigt, dass faktisches Wissen oft in spezifischen Neuronen lokalisiert ist. Die Frage, ob sich jedoch komplexe Verhaltensfähigkeiten ebenfalls auf spezifische Komponenten innerhalb der Transformer-Architektur beschränken lassen, war bisher offen.

Das Hauptproblem besteht darin, diese aufgaben spezifischen Komponenten (Attention Heads) effizient zu identifizieren. Ein naiver Ansatz würde ein „Greedy Search"-Verfahren erfordern, bei dem jeder einzelne Attention Head einzeln abgetötet (ablatiert) und die Leistungsbewertung wiederholt wird. Bei Modellen mit tausenden Heads ist dies rechnerisch prohibitiv teuer (z. B. $N \times k$ Evaluationen).

2. Methodik: Compressed Sensing für Head-Identifikation

Die Autoren stellen einen neuen, effizienten Algorithmus vor, der auf dem Prinzip des Compressed Sensing (komprimierte Abtastung) basiert, um die Sparsity (Spärlichkeit) von aufgabenrelevanten Heads auszunutzen.

Grundannahmen:
1. Sparsity: Für eine gegebene Aufgabe trägt nur eine winzige Teilmenge $k$ der gesamten $N$ Attention Heads signifikant zur Leistung bei ( $k \ll N$ ).
2. Additivität: Der kumulative Effekt des Ablations mehrerer Heads kann approximativ als Summe ihrer einzelnen marginalen Beiträge betrachtet werden (lineare Näherung erster Ordnung).
Der Algorithmus (Algorithmus 1):
- Statt jeden Head einzeln zu testen, werden zufällige Teilmengen von Heads gleichzeitig ablatiert.
- Dies wird als lineares System $y = \Phi x + \epsilon$ $y = Φ x + ϵ$ modelliert, wobei:
  - $x$ der latente Einflussvektor jedes Heads ist.
  - $\Phi$ eine binäre Messmatrix ist, die angibt, welche Heads in welcher Evaluation ablatiert wurden.
  - $y$ die beobachteten Leistungsänderungen des Modells sind.
- Zur Lösung des Systems wird ein Lasso-Optimierungsproblem (L1-Regularisierung) gelöst, um den spärlichen Vektor $x$ wiederherzustellen. Die Heads mit den stärksten negativen Koeffizienten in $\hat{x}$ werden als aufgabenkritisch identifiziert.
Messmatrix-Strategien:
- Bernoulli Sampling: Zufällige Ablation jedes Heads mit fester Wahrscheinlichkeit.
- Stratified Sampling (Balanced): Eine verbesserte Strategie, die sicherstellt, dass jeder Head in annähernd gleicher Anzahl von Evaluationen ablatiert wird, um die Varianz zu minimieren und die Stabilität der Regression zu erhöhen.

3. Wichtige Beiträge

Entdeckung der starken Lokalisierung: Die Arbeit zeigt, dass viele Fähigkeiten in LLMs hochgradig lokalisiert sind. Das Ausschalten von nur fünf spezifischen Attention Heads kann die Leistung in Standard-Benchmarks um bis zu 65 % senken, während die Leistung bei unrelated Aufgaben weitgehend erhalten bleibt.
Effiziente Identifikationsmethode: Entwicklung einer Compressed-Sensing-basierten Methode, die bis zu 50-mal weniger Modell-Evaluationen benötigt als herkömmliche Greedy-Search-Methoden, um dieselbe Genauigkeit bei der Identifikation kritischer Heads zu erreichen.
Entdeckung universeller Heads: Neben aufgabenspezifischen Heads wurden „universelle Heads" identifiziert, die für mehrere Fähigkeiten gleichzeitig kritisch sind. Deren Ablation führt zu pathologischen Fehlern (z. B. repetitive Ausgaben, Zusammenbruch der Log-Likelihood) und beeinträchtigt das allgemeine Sprachverständnis.
Skalenabhängigkeit der Lokalisierung: Es wurde festgestellt, dass die Lokalisierung von der Modellgröße abhängt. Größere Modelle zeigen eine stärkere Modularität und Spezialisierung. Bei kleineren Modellen (z. B. 1B/3B Parameter) scheinen Fähigkeiten eher durch geteilte, formatbasierte Mechanismen (z. B. bei Multiple-Choice-Aufgaben) vermittelt zu werden, während bei größeren Modellen (8B+) spezifischere Mechanismen entstehen.

4. Ergebnisse und Evaluation

Die Methode wurde an fünf Modellen getestet (Llama 3.1 8B, Llama 3.2 3B/1B, Qwen 2.5 7B/3B) und vier Fähigkeitskategorien (Mathematik, Code, Fluchen, Reimen).

Leistungseinbußen: Das Entfernen der top-5 identifizierten Heads führte zu drastischen Leistungsabfällen bei den Zielaufgaben (z. B. -65,4 % bei Qwen 2.5 7B auf GSM8K für Mathematik), während die allgemeine Sprachfähigkeit (gemessen an HellaSwag, MMLU, etc.) nur minimal beeinträchtigt wurde (oft < 3 %).
Generalisierung: Heads, die auf einem Datensatz (z. B. GSM8K) identifiziert wurden, wirkten sich auch negativ auf andere Datensätze derselben Domäne (z. B. Arithmetic) aus, was auf eine gemeinsame zugrundeliegende Mechanik hindeutet.
Effizienzvergleich: Die stratifizierte Compressed-Sensing-Methode (CSS) erreichte mit nur 100–200 Evaluationen Ergebnisse, die denen von Greedy-Search (5120 Evaluationen) nahekommen oder diese sogar übertreffen.
Spezifische Beispiele:
- Bei mathematischen Aufgaben dominieren wenige Heads die Leistung.
- Bei „WMDP"-Benchmarks (hazardous knowledge) zeigte sich bei kleineren Modellen eine starke Abhängigkeit von wenigen „Wissens-Heads", die auch MMLU beeinträchtigten, während größere Modelle schwächere Lokalisierung zeigten.

5. Bedeutung und Implikationen

Die Ergebnisse legen nahe, dass Fähigkeitslokalisierung ein allgemeines Organisationsprinzip von Transformer-Modellen ist. Dies hat weitreichende Konsequenzen:

Interpretierbarkeit: Es bietet einen neuen Weg, um zu verstehen, wie Modelle Fähigkeiten internalisieren, indem sie nicht auf Neuronen-, sondern auf Head-Ebene analysiert werden.
Modell-Editing: Da Fähigkeiten in separaten, spärlichen Komponenten kodiert sind, könnten gezielte Eingriffe (z. B. das Entfernen oder Modifizieren spezifischer Heads) genutzt werden, um unerwünschte Fähigkeiten zu entfernen oder zu korrigieren, ohne das gesamte Modell neu zu trainieren.
KI-Sicherheit: Das Verständnis der Lokalisierung von gefährlichem Wissen oder Halluzinationen könnte neue Wege zur Sicherung von Modellen eröffnen.
Architektur-Design: Die Beobachtung, dass spezialisierte Heads in GQA-Gruppen (Grouped Query Attention) gehäuft auftreten, deutet darauf hin, dass zukünftige Architekturen diese Modularität gezielt nutzen könnten.

Zusammenfassend demonstriert das Paper, dass LLMs nicht als undifferenzierte Blackboxen funktionieren, sondern eine modulare Struktur aufweisen, die durch effiziente, spärlichkeitsbasierte Methoden entschlüsselt werden kann. Der Code ist unter https://github.com/locuslab/llm-components verfügbar.

Compressed Sensing for Capability Localization in Large Language Models

1. Problemstellung

2. Methodik: Compressed Sensing für Head-Identifikation

3. Wichtige Beiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Implikationen

Mehr davon

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis