Represented Is Not Computed: A Causal Test of… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Ishita Darade, Sushrut Thorat

Veröffentlicht 2026-05-22✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Ishita Darade, Sushrut Thorat

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie haben einen sehr klugen, aber mysteriösen Roboter-Koch. Sie geben ihm eine Rezeptkarte mit drei Zutaten: eine große Zahl ( $N$ ), eine Basiszahl ( $B$ ) und eine spezifische „Slot"-Zahl ( $D$ ). Die Aufgabe des Kochs besteht darin, eine bestimmte Ziffer aus der großen Zahl zu ermitteln, und zwar erst nachdem er sie in die „Basis"-Sprache umgewandelt hat.

Wenn beispielsweise die große Zahl 255 ist, die Basis 16 und Sie den 0. Slot anfordern, muss der Koch einige mathematische Berechnungen durchführen, um Ihnen die Antwort zu nennen.

Die Forscher in diesem Papier wollten einen Blick in das Gehirn des Kochs werfen, um zu sehen, wie er dieses Rätsel löst. Sie hatten eine sehr spezifische Theorie darüber, wie der Koch denken sollte, und wollten herausfinden, ob das tatsächlich das ist, was passiert.

Hier ist die Geschichte dessen, was sie entdeckten, aufgeschlüsselt in einfache Schritte:

1. Der Koch ist ein Genie bei dieser Aufgabe

Zuerst prüften sie, ob der Roboter die Aufgabe tatsächlich bewältigen konnte. Sie trainierten ihn mit Tausenden von Beispielen und testeten ihn anschließend an neuen, unbekannten Zahlen.

Das Ergebnis: Der Roboter war nahezu perfekt (99,83 % Genauigkeit). Er wusste genau, welche Antwort zu geben war. Wir wissen also, dass er das Problem lösen kann.

2. Die „Bauplan"-Theorie (Was wir dachten, passiere)

Das mathematische Problem hat eine klare, schrittweise Lösung (wie ein Bauplan). Um die Antwort zu erhalten, muss man theoretisch Folgendes tun:

Eine Hilfszahl berechnen ( $B^D$ ).
Die große Zahl durch diese Hilfszahl teilen.
Abrunden.
Den Rest nehmen.

Die Forscher gingen davon aus, dass der Roboter diesem Bauplan wahrscheinlich folgte. Sie verwendeten ein Werkzeug namens „Linearer Probe" (denken Sie daran wie an einen Metalldetektor), um das Gehirn des Roboters zu scannen.

Die Entdeckung: Der Metalldetektor piepte! Er fand heraus, dass das Gehirn des Roboters tatsächlich diese genauen Zahlen enthielt. Die „Hilfszahl" und die „abgerundete Zahl" waren in den inneren Gedanken des Roboters deutlich sichtbar.
Die Falle: Weil sie diese Zahlen fanden, gingen sie davon aus, dass der Roboter sie zur Lösung des Problems verwendete. Es sah so aus, als würde der Roboter den Bauplan perfekt befolgen.

3. Der Realitätscheck (Der kausale Test)

Hier wird das Papier interessant. Nur weil der Roboter die Zahlen in seinem Gehirn hat, bedeutet das nicht, dass er sie verwendet, um die Entscheidung zu treffen.

Um herauszufinden, was der Roboter tatsächlich verwendete, führten die Forscher eine „Operation" am Gehirn des Roboters mit zwei Methoden durch:

Methode A: Die Stummschalt-Taste (Ablation)
Sie versuchten, bestimmte Teile des Gehirns zu „stummschalten", die dafür vorgesehen waren, die „Hilfszahlen" an die endgültige Antwort weiterzuleiten.
- Das Ergebnis: Überraschenderweise schadete das Stummschalten der Teile, die die komplexe Mathematik enthielten, dem Roboter kaum. Aber als sie den sehr ersten Teil stummschalteten, in dem der Roboter auf die „Slot-Zahl" ( $D$ ) schaute, vergaß der Roboter sofort, wie man antwortet. Es spielte keine Rolle, ob die komplexe Mathematik vorhanden war oder nicht; der Roboter ignorierte sie.
Methode B: Der Tausch (Patching)
Sie nahmen einen „Spender"-Roboter, der eine andere „Slot-Zahl" ( $D$ ) hatte, aber dieselbe große Zahl und dieselbe Basis. Sie tauschten die Gehirnsignale des Spenders in den ursprünglichen Roboter aus.
- Das Ergebnis: Der ursprüngliche Roboter gab plötzlich die Antwort des Spenders aus. Dies geschah jedoch nur, wenn die Slot-Zahl ( $D$ ) unterschiedlich war. Wenn sie die große Zahl ( $N$ ) oder die Basis ( $B$ ) austauschten, war es dem Roboter egal.
- Die Schlussfolgerung: Der Roboter verwendete die komplexe Mathematik (den Bauplan) nicht, um die Antwort zu entscheiden. Er hörte nur direkt auf die „Slot-Zahl" ( $D$ ).

4. Die Entdeckung des „versteckten Pfades"

Schließlich kartierten sie den tatsächlichen Weg, den die Information nahm.

Was sie erwarteten: Eine einzige, organisierte Autobahn, auf der $N$ , $B$ und $D$ alle zusammentreffen, zu einer komplexen mathematischen Formel vermischt werden und dann die Antwort produzieren.
Was sie fanden: Der Roboter hat drei separate, kleine Straßen. Eine Straße trägt die große Zahl, eine trägt die Basis und eine trägt die Slot-Zahl. Diese Straßen bleiben für fast die gesamte Reise getrennt. Sie treffen sich erst in der allerletzten Sekunde, kurz bevor die Antwort niedergeschrieben wird. Der Roboter baute die komplexen „Hilfszahlen" nicht auf und leitete sie weiter; er hielt die Zutaten einfach bis zum allerletzten Moment getrennt.

Die große Lehre: „Dargestellt" ist nicht „Berechnet"

Der Haupttitel des Papiers sagt alles: „Dargestellt ist nicht Berechnet."

Dargestellt: Das Gehirn des Roboters enthielt die komplexen mathematischen Zahlen. Wenn man in das Gehirn schaute, konnte man sie deutlich sehen (wie das Finden einer Karte im Rucksack).
Berechnet: Der Roboter verwendete diese Zahlen nicht, um das Auto zu fahren. Er nahm einen Abkürzungsweg.

Die Analogie:
Stellen Sie sich vor, Sie fahren zu einer Party. Sie haben eine detaillierte, handgezeichnete Karte im Handschuhfach, die jede Kurve, jede Ampel und jede Abkürzung zeigt (die „dargestellte" Mathematik).

Die Sonde: Sie schauen ins Handschuhfach und sagen: „Aha! Sie haben die Karte! Sie müssen die Karte benutzen, um zu fahren!"
Die Realität: Sie haben die Route tatsächlich nur auswendig gelernt und fahren instinktiv. Wenn Sie die Karte wegnehmen, kommen Sie trotzdem an. Wenn Sie die Karte gegen die Karte eines anderen austauschen, ist es Ihnen egal, weil Sie nicht danach schauen.

Zusammenfassung:
Der Roboter löste das mathematische Problem perfekt, und er „dachte" sogar auf eine Weise über die mathematischen Schritte nach, die so aussah, als würde er den Regeln folgen. Aber als sie testeten, was den Roboter tatsächlich veranlasste, die Antwort zu geben, stellten sie fest, dass er die komplexen Schritte ignorierte und einfach direkt auf den spezifischen „Slot" reagierte, für den er gefragt wurde.

Das Papier warnt uns: Nur weil wir eine Information in einem neuronalen Netzwerk finden können, bedeutet das nicht, dass das Netzwerk diese Information tatsächlich verwendet, um Entscheidungen zu treffen. Wir müssen die Ursache testen, nicht nur den Inhalt betrachten.

Technisches Fazit: Repräsentiert ist nicht berechnet

Problemstellung
Die mechanistische Interpretierbarkeit zielt darauf ab, zu verstehen, wie neuronale Netze aufgabenrelevante Komponenten integrieren, um strukturierte Prompts zu lösen. In der natürlichen Sprache und im visuellen Bereich sind die für diese Integration erforderlichen internen Beziehungen selten präzise genug spezifiziert, um einen Kandidaten-Algorithmus zu definieren. Dieser Artikel schließt diese Lücke, indem er Arithmetik, speziell die Extraktion von Basis-Ziffern, als klareres Setting nutzt, bei dem die Eingabe-Ausgabe-Funktion bekannt ist und Kandidaten-Algorithmen explizit definiert werden können. Die Aufgabe besteht darin, dass ein Transformer eine Dezimalzahl $N$ , eine Basis $B$ und eine Ziffernposition $D$ erhält und den Koeffizienten von $B^D$ in der Basis- $B$ -Entwicklung von $N$ vorhersagt. Die geschlossene Formel lautet $y = \lfloor N/B^D \rfloor \mod B$ .

Die zentrale Frage ist, ob das Modell eine „gestufte" algorithmische Hypothese implementiert, die durch diese geschlossene Formel nahegelegt wird: Berechnung von $B^D$ , dann $N/B^D$ , Abrunden (Floor) und schließlich Reduktion modulo $B$ . Insbesondere untersuchen die Autoren drei oft in der Interpretierbarkeit verwechselte Fragen: (1) Kann das Modell die Aufgabe lösen? (2) Sind die Größen aus der geschlossenen Formel innerhalb des Netzwerks repräsentiert? (3) Sind diese Größen die kausalen Zwischenschritte, die zur Erzeugung der Antwort verwendet werden?

Methodik
Die Autoren trainierten 10-lagige Decoder-only-Transformer von Grund auf für die Aufgabe der Basis-Ziffern-Extraktion unter Verwendung von drei verschiedenen Zufallssamen. Die Trainingsdaten umfassten $N \in \{0, \dots, 999\}$ , $B \in \{2, \dots, 30\}$ und verschiedene Ziffernpositionen $D$ . Die Modelle wurden autoregressiv auf zurückgehaltenen Schnittmengen von Zahlen und Basen evaluiert, um eine robuste Generalisierung statt Auswendiglernen sicherzustellen.

Zur Analyse der internen Mechanismen verfolgte die Studie einen mehrstufigen Ansatz:

Lineare Proben (Linear Probing): Auf eingefrorenen Aktivierungen wurden lineare Auslesungen trainiert, um zu testen, ob geschlossene Formel-Größen ( $B^D$ , $N/B^D$ , $\lfloor N/B^D \rfloor$ und die finale Antwort) aus den Residual-Streams in verschiedenen Schichten linear decodierbar waren.
Attention-Ablation: Die Autoren führten gezielte Ablationen an Attention-Routen vom $D$ -Token-Stream ( $D_{ones}$ ) zu den Output-Streams ( $O[0]$ und $O[1]$ ) durch. Sie maßen Leistungseinbußen beim Maskieren von Attention aus bestimmten Schichten (sowohl flach-tief als auch tief-flach), um kausale Abhängigkeiten zu identifizieren.
Aktivierungs-Patching: Um zu bestimmen, welche Information von den kausalen Routen getragen wird, führten die Autoren Key/Value-Patching durch. Sie ersetzten $D_{ones}$ -Key/Value-Vektoren aus einem „Spenden"-Beispiel durch ein „Quellen"-Beispiel. Indem sie variierten, ob sich der Spender vom Quellenbeispiel in $N$ , $B$ oder $D$ unterschied, testeten sie, ob die Route informationsspezifisch für die Ziffernposition oder für breitere arithmetische Zwischenschritte ist.
Suche nach spärlichen Schaltkreisen: Eine gierige Suche von rechts nach links wurde durchgeführt, um eine minimale Menge an Attention-Routen zu identifizieren, die für die Aufgabenleistung ausreicht, wodurch die gesamte Routing-Struktur des Modells offengelegt wurde.

Hauptergebnisse

Aufgabenkompetenz: Die Modelle erreichten nahezu perfekte Leistung auf zurückgehaltenen Testsets mit einer mittleren Genauigkeit der exakten Antwort von 99,83% über drei Samen hinweg. Dies belegt, dass die Modelle die Aufgabenabbildung zuverlässig gelernt haben.
Repräsentation (Proben): Die Größen der geschlossenen Formel waren aus den Residual-Streams stark linear decodierbar. Insbesondere waren $B^D$ und quotientenähnliche Größen ( $N/B^D$ ) aus dem $D_{ones}$ -Stream zugänglich, wobei die finale Antwortgröße aus den Output-Streams decodierbar war. Dies machte die gestufte algorithmische Hypothese repräsentationsmäßig plausibel. Bemerkenswerterweise existierte ein Teil dieser Decodierbarkeit bereits bei der Initialisierung, was darauf hindeutet, dass sie teilweise ein Artefakt der Architektur und der Datengeometrie ist und nicht ausschließlich eine gelernte Berechnung.
Kausale Nutzung (Ablation & Patching): Trotz der starken Repräsentation gestufter Zwischenschritte enthüllten kausale Tests einen anderen Mechanismus.
- Frühe Sensitivität: Das Output-Verhalten war am empfindlichsten gegenüber früher $D_{ones} \to O$ -Kommunikation (insbesondere Schichten 0–1). Das Maskieren dieser frühen Schichten verursachte einen drastischen Leistungsabfall, während das Maskieren späterer Schichten nur minimale Auswirkungen hatte.
- Selektiver Informationsaustausch: Patching-Experimente zeigten, dass die Route $D_{ones} \to O$ verhaltenswirksame Information trägt, die hochselektiv für $D$ ist. Wenn sich der Spender nur in $N$ oder $B$ unterschied, blieb die Ausgabe des gepatchten Modells unverändert (entsprechend der Quelle). Wenn sich der Spender nur in $D$ unterschied, flippte die Ausgabe, um dem Spender zu entsprechen.
- Faktorisierter Routing: Die Suche nach spärlichen Schaltkreisen ergab, dass $N$ , $B$ und $D$ durch überwiegend getrennte lokale Gerüste geleitet werden, die sich spät an den Output-Streams vereinen. Es gibt keine Hinweise auf einen einzigen, vereinten geschlossenen Formel-Zwischenschritt, der von der Prompt-Seite zum Output übertragen wird.

Hauptbeiträge und Behauptungen
Der primäre Beitrag des Artikels ist eine dissociative Beobachtung: Das Modell repräsentiert die Größen, die die gestufte algorithmische Lösung plausibel machen (sie sind linear decodierbar), doch die identifizierte kausale Route überträgt diese Größen nicht zum Output.

Die Autoren behaupten, dass „repräsentiert nicht berechnet ist". In diesem Kontext bezieht sich „berechnet" auf die kausalen Zwischenschritte, die tatsächlich zur Bildung der Antwort verwendet werden. Die Studie zeigt Folgendes:

Proben können von der kausalen Realität abweichen: Lineare Proben identifizierten erfolgreich das Vorhandensein algorithmischer Zwischenschritte, doch kausale Interventionen (Ablation und Patching) bewiesen, dass diese Zwischenschritte nicht die primären Treiber des Outputs waren.
Decodierbarkeit $\neq$ Kausale Nutzung: Eine hohe Decodierbarkeit einer Größe garantiert nicht, dass es sich um einen gelernten kausalen Zwischenschritt handelt; sie kann die Zugänglichkeit widerspiegeln, die durch die Architektur oder Tokenisierung bereitgestellt wird, die später durch Training geformt, aber im spezifischen kausalen Pfad zum Output nicht genutzt wird.
Mechanismus der Basis-Ziffern-Extraktion: Das Modell löst die Aufgabe, indem es $N$ , $B$ und $D$ durch getrennte Pfade leitet und sie spät integriert, wobei es auf frühe $D$ -selektive Kommunikation anstatt auf eine gestufte Übertragung quotientenähnlicher Werte angewiesen ist.

Bedeutung
Der Artikel dient als direkte, testbare Warnung davor, sich ausschließlich auf lineare Proben für mechanistische Interpretationen zu verlassen. Selbst in einem Setting mit einem expliziten, bekannten Algorithmus und nahezu perfekter Aufgabenleistung kann der interne kausale Mechanismus erheblich von der intuitiven algorithmischen Hypothese abweichen. Die Autoren argumentieren, dass eine mechanistische Erklärung erfordert, wie Größen kausal genutzt werden, nicht nur, dass sie vorhanden sind. Diese Arbeit ergänzt bestehende Forschung zu Transformer-Schaltkreisen und arithmetischen Mechanismen, indem sie zeigt, dass heuristische oder nicht-algorithmische Routen Aufgaben lösen können, bei denen saubere algorithmische Zwischenschritte klar repräsentierbar, aber kausal nicht genutzt werden.

Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer