Stellen Sie sich ein Transformer-Sprachmodell (wie die KI hinter diesem Text) nicht als statisches Gehirn vor, sondern als Fließband.

Lange Zeit gingen Forscher davon aus, dass das Erlernen eines Konzepts durch die KI – wie „Glaubwürdigkeit" oder „Verweigerung" – an einer bestimmten Station auf diesem Band stattfindet. Sie suchten nach der einen „besten Schicht", in der die Idee am deutlichsten war, ähnlich wie man den einen Moment in einem Film sucht, in dem das Gesicht einer Figur am klarsten zu sehen ist.

Diese Arbeit argumentiert, dass diese Sichtweise zu einfach ist. Anstatt eines einzelnen Schnappschusses sind Konzepte Prozesse. Sie werden schrittweise aufgebaut und bewegen sich durch eine spezifische Zone des Fließbands. Der Autor nennt dies die Konzept-Allokationszone (CAZ).

Hier ist die Aufschlüsselung, wie dies funktioniert, unter Verwendung alltäglicher Analogien:

1. Das Fließband versus der Schnappschuss

Stellen Sie sich den „Residual-Stream" der KI (die Daten, die durch das Modell fließen) als ein Förderband vor.

Der alte Weg: Forscher hielten das Band an einer bestimmten Stelle an, machten ein Foto und sagten: „Hier lebt das Konzept."
Der neue Weg (CAZ): Die Arbeit sagt: „Nein, das Konzept wird gebaut, während es sich bewegt." Es beginnt als vage Idee, wird verfeinert, vielleicht an einen anderen Teil des Bandes weitergegeben und setzt sich schließlich fest. Die CAZ ist der gesamte Abschnitt des Förderbands, in dem das Modell seine innere Geometrie aktiv organisiert, um dieses Konzept deutlich zu machen.

2. Drei Werkzeuge, um den Aufbau zu beobachten

Um diesen Prozess zu verfolgen, erfand der Autor drei „Sensoren", die messen, was an jeder Station der Linie passiert:

Trennung (Die Distanz): Stellen Sie sich zwei Gruppen von Menschen vor (z. B. „Glaubwürdig" vs. „Nicht glaubwürdig"). Am Anfang der Linie sind sie alle in einer Menschenmenge durcheinander. Während sie die Linie hinunterwandern, beginnt die Gruppe „Glaubwürdig", nach links zu gehen, und die Gruppe „Nicht glaubwürdig" nach rechts. Die Trennung misst, wie weit sie voneinander entfernt sind.
Kohärenz (Die Ordnung): Manchmal sind die Gruppen weit voneinander entfernt, aber sie sind auch unordentlich und verstreut. Die Kohärenz misst, ob die Gruppe in einer ordentlichen, engen Reihe oder in einem chaotischen Mob wandert. Ein hoher Wert bedeutet, dass das Konzept zu einer klaren Form „kristallisiert" ist.
Geschwindigkeit (Die Änderungsgeschwindigkeit): Dies misst, wie schnell sich die Gruppen voneinander entfernen. Wenn die Distanz schnell zunimmt, wird das Konzept gerade jetzt gebaut. Wenn die Distanz aufhört, sich zu ändern, ist das Konzept fertig. Wenn die Gruppen beginnen, wieder aufeinander zuzugehen, wird das Konzept verworfen oder geändert.

3. Die „sanften" Zonen

Die Arbeit entdeckte etwas Überraschendes: Konzepte haben nicht nur einen großen Gipfel. Sie haben oft mehrere Zonen.

Haupt-CAZ: Der große, offensichtliche Gipfel, an dem das Konzept am stärksten ist.
Sanfte CAZ: Kleinere, subtilere Zonen, die Standardwerkzeuge übersehen. Die Arbeit fand heraus, dass selbst diese „sanften" Zonen real und aktiv sind. Wenn man sie ausschaltet, ändert sich das Verhalten der KI. Es ist, als würde man kleine, versteckte Zahnräder in einer Uhr finden, von denen man nicht wusste, dass sie sich drehen, aber wenn man sie stoppt, funktioniert die Uhr nicht mehr.

4. Konzepte haben „Sub-Repräsentationen"

Manchmal erscheint ein Konzept wie „Glaubwürdigkeit" zweimal auf dem Fließband:

Flache Zone: Ganz am Anfang erkennt die KI Glaubwürdigkeit vielleicht nur aufgrund bestimmter Wörter (wie „zuverlässig" oder „Vertrauen").
Tiefe Zone: Weiter unten auf der Linie bewertet die KI es erneut, basierend auf der gesamten Geschichte und dem Kontext.
Die Arbeit zeigt, dass dies tatsächlich unterschiedliche geometrische Formen im Geist der KI sind. Es sind zwei verschiedene Wege, dasselbe Wort zu verstehen, die in unterschiedlichen Tiefen auftreten.

5. Die „Übergabe"

Da sich Konzepte bewegen und ihre Form ändern, schlägt die Arbeit vor, dass Sie, wenn Sie eingreifen möchten (das Verhalten der KI ändern), nicht einfach die „beste" Schicht auswählen sollten. Sie sollten warten, bis das Konzept seine Reise beendet und sich in eine stabile Form „gesetzt" hat. Dies wird als Übergabeschicht bezeichnet.

Analogie: Wenn Sie versuchen, einen Ball zu fangen, versuchen Sie nicht, ihn zu greifen, während er noch geworfen wird (die Bauphase); Sie warten, bis er in der Luft ist und stabil (die Übergabe).

6. Das „universelle" Muster

Die Arbeit testete dies an 34 verschiedenen KI-Modellen. Sie fanden heraus, dass, obwohl verschiedene Modelle unterschiedlich viele Schichten haben, sie alle Konzepte in einer ähnlichen relativen Reihenfolge organisieren.

Analogie: Stellen Sie sich zwei verschiedene Fabriken vor. Die eine hat 10 Stationen, die andere 100. Beide bauen ein Auto. In beiden Fabriken wird der Motor in den ersten 20 % der Linie gebaut, und die Lackierung erfolgt in den letzten 20 %. Der Prozentsatz der Linie ist derselbe, auch wenn die Gesamtlänge unterschiedlich ist. Die Arbeit bestätigt, dass KI-Modelle denselben „tiefenstratifizierten" Bauplan befolgen.

Zusammenfassung der getesteten Punkte

Der Autor traf 7 spezifische Vorhersagen, um diese Theorie zu testen. Hier ist das Urteil in einfacher Sprache:

Vorhersage 1 (Wo schneiden?): Sie dachten, das Schneiden in der Mitte der Zone sei am besten. Falsch. Es hängt vom Modell ab; manchmal ist das Schneiden am Ende besser.
Vorhersage 2 (Reihenfolge): Sie dachten, die Reihenfolge der Konzepte sei bei allen Modellen gleich. Meistens wahr. Die Reihenfolge ist konsistent, aber nicht perfekt starr.
Vorhersage 3 (Breite): Sie dachten, komplexe Ideen nehmen mehr Platz auf der Linie ein. Vielleicht. Die Daten deuten darauf hin, aber weitere Tests sind erforderlich.
Vorhersage 4 (Das Ende): Sie dachten, Konzepte werden am ganz Ende unordentlich. Nicht testbar. Die Theorie eines „einen unordentlichen Endes" war falsch, weil Konzepte oft mehrere Gipfel haben, sodass es nicht nur ein „Ende" gibt, das man messen könnte.
Vorhersage 5 (Ausrichtung): Sie dachten, das Abgleichen der Tiefe (Prozentsatz der Linie) zwischen Modellen sei entscheidend. Wahr. Dies ist die stärkste Erkenntnis: Wenn Sie die „Mitte" eines Modells mit der „Mitte" eines anderen vergleichen, stimmen sie perfekt überein.
Vorhersage 6 (Wörter vs. Kontext): Sie dachten, frühe Zonen handelten nur von Wörtern und tiefe Zonen vom Kontext. Falsch. Die frühen Zonen sind nicht nur rohe Wörter; sie sind bereits verarbeitet.
Vorhersage 7 (Architektur): Sie dachten, die Anzahl der „Gipfel" hängt vom Modelltyp ab, nicht von seiner Größe. Unbekannt. Der Test war nicht groß genug, um es sicher zu sagen.

Das Fazit

Diese Arbeit verschiebt die Sicht auf KI von einer statischen Karte (Wo ist das Konzept?) zu einem dynamischen Film (Wie bildet sich das Konzept?). Sie führt eine Möglichkeit ein, die „Baustelle" von Ideen zu messen und zeigt, dass KI-Modelle komplexe Gedanken in Stufen aufbauen, oft unter Verwendung mehrerer versteckter Schritte, die frühere Methoden übersehen haben.

Technische Zusammenfassung: Das Konzept der Zuordnungszone (CAZ)

Problemstellung

Derzeitige Methoden der mechanistischen Interpretierbarkeit verlassen sich überwiegend auf eine „beste Schicht"-Heuristik, die eine einzelne optimale Schicht im Residualstrom eines Transformators identifiziert, in der die Repräsentation eines Konzepts eine maximale Klassentrennung erreicht (z. B. durch lineares Probing oder Differenz der Mittelwerte). Obwohl dieser Ansatz rechnerisch effizient ist, behandelt er die Konzeptbildung als statischen Schnappschuss anstatt als dynamischen Prozess. Er erfasst nicht die iterative, tiefenübergreifende Natur, wie Konzepte über die Schichten des Modells hinweg zusammengesetzt, organisiert und potenziell neu zugewiesen werden. Folglich können Methoden, die sich auf eine einzelne Schicht beschränken, Übergangsrepräsentationen, subtile Zuordnungsregionen und die geometrischen Dynamiken des Konzeptaufbaus übersehen.

Methodik

Die Arbeit stellt das Concept Allocation Zone (CAZ)-Rahmenwerk vor, das die Konzeptrepräsentation als einen zusammenhängenden Bereich der Modelltiefe neu definiert, anstatt als einen einzelnen Punkt. Das Rahmenwerk stützt sich auf drei schichtweise Metriken, die aus den Aktivierungen des Residualstroms berechnet werden:

Trennung ( $S(l)$ ): Ein fisher-normalisierter Zentroidabstand zwischen kontrastiven Klassen in Schicht $l$ . Dies misst, wie leicht das Modell zwei Klassen (z. B. glaubwürdiger vs. nicht glaubwürdiger Text) in einer bestimmten Tiefe unterscheidet.
Konzeptkohärenz ( $C(l)$ ): Das Verhältnis der erklärten Varianz der ersten Hauptkomponente der gepoolten Aktivierungsmatrix. Dies quantifiziert, ob das Konzept als einzelne, saubere geometrische Richtung kodiert ist oder über mehrere Dimensionen verschmiert wird.
Konzeptgeschwindigkeit ( $v(l)$ ): Die geglättete Änderungsrate der Trennungsmetrik über die Schichten hinweg. Eine positive Geschwindigkeit zeigt den aktiven Aufbau des Konzepts an, während eine negative Geschwindigkeit eine Verschlechterung oder Neuverteilung anzeigt.

Erkennung und Extraktion

Das Rahmenwerk verwendet eine bewertete Erkennungsmethode, um CAZ-Grenzen ohne manuelle Schichtdurchläufe zu identifizieren. Im Gegensatz zur Peak-Erkennung mit festem Schwellenwert verwendet diese Methode einen zusammengesetzten Score, der Prominenz, Kohärenz und Regionsbreite einbezieht. Dies ermöglicht die Identifizierung von:

Haupt-/Starken CAZs: Hochprominente, konzentrierte Zuordnungsregionen.
Sanften CAZs: Subtile Zuordnungsregionen (Score < 0,05), die für die Standard-Peak-Erkennung oft unsichtbar sind, aber empirisch als kausal aktiv nachgewiesen wurden.

Das Rahmenwerk unterscheidet zwischen Embedding-CAZs (angetrieben durch Token-Level-Features an der Eingangs-Grenze) und aktiven CAZs (angetrieben durch Attention- und MLP-Berechnungen innerhalb der Transformatorschichten).

Für die Konzeptextraktion validiert die Arbeit Geometrische Evolutionskarten (GEM), die die gerichtete Trajektorie eines Konzepts verfolgen. Es zeigt sich, dass Konzeptrichtungen innerhalb einer CAZ häufig erhebliche Rotationen durchlaufen und sich erst in einer „Übergabeschicht" nach der CAZ stabilisieren. Das Probing an dieser Übergabeschicht ist oft präziser als das Probing am Trennungspeak, insbesondere in Multi-Head-Attention (MHA)-Architekturen.

Hauptbeiträge

Das CAZ-Rahmenwerk: Eine formale Definition der Konzeptzuordnung als tiefenlokalisiertes Intervall, in dem das Modell die Geometrie organisiert, um einem Konzept zu dienen, getrennt vom Konzept selbst.
Drei schichtweise Metriken: Die Formalisierung von Trennung, Kohärenz und Geschwindigkeit, um die Konzeptbildung als Prozess zu charakterisieren.
Bewertete Erkennung: Eine prinzipielle Methode zur Identifizierung eines Spektrums von Zuordnungsregionen, die „sanfte CAZs" aufdeckt, die von Standardmethoden übersehen werden.
Entdeckung von Subrepräsentationen: Empirische Belege dafür, dass einzelne menschliche Konzeptlabels (z. B. „Glaubwürdigkeit") auf mehrere, geometrisch distinkte Subrepräsentationen in verschiedenen Verarbeitungstiefen (flach vs. tief) abbilden, die durch abrupte Phasenübergänge getrennt sind.
Tiefenstratifizierte Ausrichtung: Eine verfeinerte Sichtweise der Platonschen Repräsentationshypothese, die zeigt, dass die architekturübergreifende Ausrichtung am stärksten ist, wenn Konzepte nach Verarbeitungstiefe (proportionaler Schichtindex) und nicht nach absolutem Schichtindex oder Architektur-Familie abgeglichen werden.

Empirische Ergebnisse

Das Rahmenwerk wurde über 34 Modelle aus 8 Architektur-Familien (einschließlich Pythia, GPT-2, OPT, Qwen 2.5, Gemma 2, Llama 3.2, Mistral und Phi) und 7 Konzepten validiert.

Multimodalität: Die Trennungskurve $S(l)$ ist häufig multimodal. Ein einzelnes Konzept beteiligt sich typischerweise an mehreren CAZs (Durchschnitt 3,4 pro Konzept pro Modell).
Kausale Aktivität sanfter CAZs: Ablationsstudien an 16 von 34 Modellen (in Begleitarbeiten auf 26 Basismodelle erweitert) zeigen, dass die Unterdrückung „sanfter CAZs" (Score < 0,05) in 93–100 % der Fälle die geometrische Trennung reduziert und damit ihre kausale Rolle bestätigt, obwohl sie für die Standarderkennung unsichtbar sind.
Vorhersageurteile:
- Unterstützt (P5): Die architekturübergreifende Ausrichtung ist tiefenabgestimmt. Subrepräsentationen an übereinstimmenden Verarbeitungstiefen stimmen stärker überein als nicht übereinstimmende Tiefen.
- Teilweise unterstützt (P2): CAZ-Grenzen zeigen eine konsistente relative Reihenfolge über Architekturen hinweg (von flach zu tief), wobei dies eine statistische Tendenz und kein striktes Invariant ist.
- Nicht unterstützt (P1, P6): Die optimale Ablationstiefe liegt nicht universell in der Mitte der CAZ (sie hängt von der Kodierungsredundanz ab), und flache Peaks korrelieren nicht direkt mit rohen Token-Embeddings.
- Nicht wie angegeben testbar (P4): Die Prämisse einer einzelnen Degradationsregion nach der CAZ wurde durch die Entdeckung multimodaler Zuordnung widerlegt.
- Explorativ/Indeterminiert (P3, P7): Korrelationen zwischen CAZ-Breite und Abstraktion sowie zwischen Multimodalitätsprävalenz und Architektur erfordern weitere Daten.

Bedeutung und Behauptungen

Die Arbeit behauptet, dass das CAZ-Rahmenwerk das Paradigma der Interpretierbarkeit von Anatomie (Ortung, wo ein Konzept am sichtbarsten ist) zu dynamischem Fluss (Verfolgung, wie ein Konzept entsteht) verschiebt.

Verfeinerung der Interpretierbarkeit: Es bietet eine geometrische Basis für die Auswahl von Eingriffstiefen und legt nahe, dass Ablation an verschiedenen Punkten der CAZ-Kette qualitativ unterschiedliche Wirkungen erzeugt.
Verbindung zu „Dunkler Materie": Das Rahmenwerk hypothesiert, dass der strukturierte Residualanteil, der durch Sparse Autoencoder (SAEs) nicht erklärt wird, möglicherweise dem laufenden Konzeptaufbau innerhalb von CAZs entspricht – Übergangsrepräsentationen, die einer linearen Zerlegung in jeder einzelnen Schicht widerstehen.
Einblicke in das Alignment-Training: CAZ-Profile bieten eine Metrik zur Quantifizierung, wie Instruction Tuning die Konzeptzuordnung verzerrt, und zeigen, dass das Tuning Konzepte nicht einheitlich in flachere Tiefen verschiebt, sondern die Zuordnung basierend auf der bestehenden Geometrie des Basismodells verändert.
Tiefenstratifizierte Konvergenz: Das stärkste empirische Ergebnis ist die Bestätigung, dass architekturübergreifende Ausrichtung ein tiefenstratifiziertes Phänomen ist, was eine verfeinerte Version der Platonschen Repräsentationshypothese stützt, bei der Konvergenz bei proportionalen Verarbeitungsstadien und nicht global auftritt.

Die Autoren betonen, dass die CAZ nicht das Konzept selbst ist, sondern der Tiefenbereich, in dem das rechnerische Ereignis der geometrischen Organisation stattfindet. Mehrere Konzepte können sich eine CAZ teilen, und ein einzelnes Konzept beteiligt sich typischerweise an mehreren CAZs über die Tiefe hinweg. Die Referenzimplementierung ist in der Open-Source-Bibliothek rosetta_tools verfügbar.

The Concept Allocation Zone: Tracking How Concepts Form Across Transformer Depth