Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie lernen KI-Modelle neue Tricks?

Stell dir vor, du hast einen sehr klugen Roboter (ein großes Sprachmodell), der alles über Mathematik weiß. Du sagst ihm: „1 + 1 = 2". Er nickt. Du sagst: „2 + 2 = 4". Auch das versteht er.

Dann machst du etwas Seltsames. Du sagst ihm: „Aber heute ist ein besonderer Tag! Die Regeln sind anders: 1 + 1 = 3 und 2 + 2 = 5."

Wenn du ihn jetzt fragst: „Was ist 3 + 3?", was macht er?
Ein normaler Computer würde sagen: „Das ist falsch! 3 + 3 ist 6."
Aber dieser moderne KI-Roboter sagt überraschenderweise: „7".

Er hat nicht nur die Zahlen kopiert. Er hat verstanden: „Aha! Der Mensch will, dass ich nach dem normalen Addieren immer noch eins dazuaddiere." Er hat die Regel gelernt, nicht nur die Antwort.

Die Forscher in diesem Papier wollen herausfinden: Wie genau passiert das im Gehirn des Roboters? Wo sitzt dieser „Knopf", der sagt: „Jetzt addiere ich noch eins dazu"?

Die Detektivarbeit: Den inneren Mechanismus entschlüsseln

Die Forscher haben sich das „Gehirn" des Roboters (ein Modell namens Gemma-2) genauer angesehen. Sie haben es wie einen riesigen Schaltschrank mit Millionen von kleinen Lichtschaltern (den sogenannten Attention Heads) betrachtet.

Sie haben eine Art „Chirurgie" durchgeführt: Sie haben bestimmte Schalter im Inneren des Roboters blockiert, um zu sehen, was passiert.

Die Entdeckung: Ein dreistufiger Bauplan

Sie fanden heraus, dass der Roboter für diesen neuen Trick einen speziellen Schaltkreis benutzt, der aus drei Gruppen von Schaltern besteht. Man kann es sich wie eine kleine Fabrik vorstellen:

Die Beobachter (Die „Vergangenheits-Scanner"):
Stell dir vor, diese Schalter sind wie aufmerksame Detektive. Sie lesen die Beispiele, die du dem Roboter gegeben hast (z. B. „1+1=3"). Sie merken sich: „Hey, hier ist etwas komisch! Normalerweise wäre das Ergebnis 2, aber hier steht 3. Jemand hat also irgendwo noch eine 1 versteckt."
Diese Schalter markieren genau den Punkt im Text, wo die Regel bricht (das Gleichheitszeichen).
Die Erfinder (Die „Funktions-Induktoren"):
Das sind die eigentlichen Genies. Sobald die Detektive das Signal gegeben haben, kommen diese Schalter ins Spiel. Sie nehmen die Information „Es muss +1 sein" und schreiben sie in das Gedächtnis des Roboters.
Das Besondere: Sie schreiben nicht nur eine Zahl, sondern die ganze Regel. Es ist, als würden sie einen kleinen Zettel mit „+1" in den Kopf des Roboters stecken.
Interessanterweise arbeiten mehrere dieser Schalter parallel. Jeder schreibt einen kleinen Teil der Regel (z. B. einer sorgt dafür, dass die Zahl größer wird, ein anderer verhindert, dass sie kleiner wird). Zusammen ergeben sie die perfekte „+1"-Regel.
Die Manager (Die „Zusammenfasser"):
Am Ende kommen diese Schalter, die alle Informationen sammeln. Sie schauen sich an: „Okay, die normale Rechnung sagt 6. Aber die neue Regel sagt +1. Also machen wir 7." Sie entscheiden, welches Ergebnis am Ende auf den Bildschirm kommt.

Warum ist das so wichtig?

Bisher dachten viele, KI lernt nur durch Mustererkennung (wie ein Papagei, der Sätze nachplappert). Diese Studie zeigt aber etwas Tieferes:

Der Roboter kann abstrahieren: Er versteht nicht nur „1 wird zu 2", sondern „Die Funktion f(x) = x + 1".
Der Trick ist wiederverwendbar: Die Forscher haben getestet, ob dieser gleiche Schaltkreis auch bei anderen Aufgaben hilft. Und ja!
- Wenn man den Roboter fragt, Buchstaben im Alphabet zu verschieben (wie bei einer Geheimschrift), benutzt er denselben Mechanismus.
- Wenn man ihn bitten, im Oktalsystem (Basis 8) zu rechnen, nutzt er denselben Mechanismus, um die kleinen Anpassungen vorzunehmen.

Die große Metapher: Der Baukasten

Stell dir das Gehirn des KI-Modells nicht als festes Betonfundament vor, sondern als einen riesigen LEGO-Baukasten.

Früher dachte man, der Roboter baut für jede Aufgabe einen neuen, komplett neuen Turm.
Diese Studie zeigt: Der Roboter hat eine fertige LEGO-Fertigungsmaschine (den Schaltkreis für „Funktions-Induktion").
Wenn er eine neue Aufgabe bekommt (z. B. „Addiere +1" oder „Verschiebe Buchstaben um 2"), holt er diese Maschine aus dem Regal, baut sie schnell zusammen und nutzt sie für die neue Aufgabe.

Fazit für den Alltag

Das Papier sagt uns also: Diese KIs sind nicht nur gute Nachahmer. Sie haben gelernt, Regeln zu erkennen und zu kombinieren. Sie können neue, verrückte Aufgaben lösen, indem sie alte Bauteile ihres Gehirns neu zusammenstecken.

Das ist ein riesiger Schritt, um zu verstehen, wie KI wirklich „denkt" und wie wir sie in Zukunft noch besser machen können – vielleicht indem wir sie trainieren, genau diese Art von flexiblen Bausteinen öfter zu nutzen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Große Sprachmodelle (LLMs) zeigen die bemerkenswerte Fähigkeit, neue, im Training nicht gesehene Aufgaben durch In-Context Learning (ICL) zu lösen. Es ist jedoch unklar, welche internen Mechanismen diese Aufgaben-Ebene-Generalisierung antreiben. Bisherige Forschung konzentrierte sich stark auf:

Induction Heads: Für Token-Kopiermuster (z. B. [A][B]...[A] → [B]).
Function Vectors: Für einfache Zuordnungen (z. B. Frankreich: Paris).

Die Herausforderung besteht darin zu verstehen, wie Modelle komplexe, mehrstufige Aufgaben mit neu definierten Konzepten bewältigen, insbesondere wenn die Lösung nicht nur aus dem Kopieren von Tokens, sondern aus der Induktion einer abstrakten Funktion besteht.

Das Paper untersucht dies anhand einer synthetischen, kontrafaktischen Aufgabe: Off-by-One Addition.

Aufgabe: Dem Modell werden Beispiele gegeben wie 1+1=3, 2+2=5. Die Frage ist 3+3=?.
Erwartetes Verhalten: Das Modell muss erst die Standardaddition durchführen (3+3=6) und dann eine unerwartete +1-Funktion anwenden, um 7 zu erhalten.
Ziel: Die internen Berechnungswege zu entschlüsseln, die es dem Modell ermöglichen, diese zweite, abstrakte Schrittfolge (+1) aus dem Kontext zu induzieren und anzuwenden.

2. Methodik

Die Autoren nutzen Mechanistische Interpretierbarkeit (Mechanistic Interpretability), um die „Black Box" des Modells zu öffnen.

Modell: Der Fokus liegt primär auf Gemma-2 (9B), mit Validierungen an Llama-2, Llama-3, Mistral und Phi-4.
Technik: Path Patching (Pfad-Patching):
- Basierend auf Aktivierungs-Patching und kausaler Mediation.
- Das Modell wird mit einem Basis-Prompt (Standardaddition, z. B. 1+1=2) und einem Kontrast-Prompt (Off-by-One, z. B. 1+1=3) durchlaufen.
- Durch das Ersetzen von Aktivierungen (z. B. der Ausgabe bestimmter Attention-Heads) im Kontrast-Prompt durch die entsprechenden Aktivierungen aus dem Basis-Prompt wird getestet, ob die Fähigkeit zur +1-Operation verloren geht.
- Ein Maß für den Effekt ist die relative Logit-Differenz ( $r$ ). Ein Wert nahe -100% bedeutet, dass das Modell nach dem Patching wieder zur Standardaddition zurückkehrt.
Circuit Discovery: Systematisches Suchen nach Attention-Heads, die für das +1-Verhalten verantwortlich sind, indem Target-Nodes (z. B. Output-Logits) schrittweise zurückverfolgt werden.

3. Schlüsselbeiträge und Entdeckungen

Die Analyse offenbarte einen spezifischen Schaltkreis (Circuit), der als „Function Induction" (Funktionsinduktion) bezeichnet wird. Dieser Mechanismus geht über das reine Token-Kopieren hinaus.

A. Der Circuit der Funktionsinduktion

Der identifizische Circuit besteht aus drei Gruppen von Attention-Heads, die zusammenarbeiten:

Previous Token (PT) Heads (Gruppe 3):
- Position: Ältere Schichten (z. B. Layer 29-38).
- Funktion: Sie beobachten die Antwort-Token ( $c_i$ ) in den Kontext-Beispielen. An der Position des Antwort-Tokens registrieren sie die Diskrepanz zwischen dem erwarteten Standardergebnis (z. B. 2) und dem tatsächlichen Kontext-Ergebnis (z. B. 3). Sie „merken" sich, dass etwas um +1 abweicht.
- Verhalten: Sie achten auf das Token unmittelbar vor dem Antwort-Token (z. B. das =-Zeichen).
Function Induction (FI) Heads (Gruppe 2):
- Position: Mittlere bis späte Schichten (z. B. Layer 32-39).
- Funktion: Diese Heads lesen die Information der PT-Heads an der Position des =-Zeichens im Test-Beispiel aus. Sie schreiben die induzierte Funktion ( $f(x) = x + 1$ ) in den Residual-Stream.
- Besonderheit: Im Gegensatz zu klassischen Induction Heads, die einen konstanten Wert kopieren (0. Ordnung), induzieren diese Heads eine lineare Funktion (1. Ordnung).
- Kooperation: Die +1-Funktion wird nicht von einem einzelnen Head geschrieben, sondern verteilt sich auf mehrere parallele Pfade. Jeder Head trägt einen spezifischen Teil bei (z. B. einer fördert $x+1$ , einer unterdrückt $x-1$ , einer unterdrückt $x$ ). Die Summe aller Beiträge ergibt die vollständige +1-Funktion.
Consolidation Heads (Gruppe 1):
- Position: Die letzten beiden Schichten des Modells.
- Funktion: Sie aggregieren die Informationen aus den FI-Heads und dem Standard-Rechenweg, um das finale Next-Token zu bestimmen. Sie gewichten die Standardantwort gegen die modifizierte Antwort.

B. Universalität und Wiederverwendbarkeit

Der Mechanismus ist nicht auf die Off-by-One-Addition beschränkt. Die Autoren zeigten durch Ablationsstudien, dass derselbe Circuit in verschiedenen Aufgaben wiederverwendet wird:

Off-by-k Addition: Verschiebung um beliebige Konstanten $k$ .
Shifted Multiple-Choice QA: Verschiebung der Antwortbuchstaben (z. B. A→B).
Caesar Cipher: Verschiebung von Buchstaben im Alphabet.
Base-8 Addition: Das Modell nutzt den Mechanismus, um Anpassungen bei der Umrechnung von Dezimal- zu Oktalzahlen vorzunehmen (wenn auch mit Einschränkungen bei komplexeren Überträgen).

C. Unterschied zu Function Vectors

Die Arbeit unterscheidet sich von früheren Arbeiten zu „Function Vectors" (z. B. Todd et al., 2024):

Lage: Function Vectors finden sich oft in frühen/mittleren Schichten; FI Heads sind in den späten Schichten lokalisiert.
Komplexität: FI Heads lösen mehrstufige Aufgaben, bei denen der zweite Schritt vom Ergebnis des ersten abhängt, während Function Vectors oft einfache Zuordnungen abbilden.

4. Ergebnisse

Leistung: Moderne Modelle (Llama-3, Phi-4, Gemma-2) lösen die Off-by-One-Aufgabe mit hoher Genauigkeit, die mit der Anzahl der ICL-Beispiele (Shots) steigt.
Kausalität: Das Ablation (Deaktivieren) der identifizierten FI-Heads führt dazu, dass das Modell sofort wieder zur Standardaddition zurückkehrt (0% Genauigkeit bei Off-by-One, 100% bei Standard). Das bestätigt die kausale Rolle dieser Heads.
Fehleranalyse bei Base-8: Das Modell scheitert oft bei Base-8-Addition, wenn Überträge (Carry-over) komplexe Bedingungen erfordern. Es neigt zu Unter- oder Übergeneralisierung, da es Schwierigkeiten hat, die Induktion der +2-Funktion nur unter spezifischen Bedingungen (bei Übertrag) auszulösen. Dies deutet darauf hin, dass das Modell noch nicht vollständig fähig ist, mehrstufige Induktionslogik in komplexen Szenarien zu verknüpfen.

5. Bedeutung und Implikationen

Erweiterung des Verständnisses von ICL: Die Arbeit zeigt, dass ICL nicht nur Musterkopie ist, sondern echte, abstrakte Funktionsinduktion auf Ebene des Residual-Streams ermöglicht.
Strukturelle Komposition: Modelle besitzen flexible, wiederverwendbare Schaltkreise, die sich an neue Aufgaben anpassen können, ohne dass spezifisches Fine-Tuning nötig ist.
Bewertung von Modellen: Die Ergebnisse warnen davor, sich nur auf Genauigkeitsmetriken zu verlassen. Ein Modell kann eine Aufgabe korrekt lösen (z. B. Base-8), indem es einen „Shortcut" (eine induzierte Funktion) nutzt, ohne die zugrunde liegende Logik vollständig zu verstehen. Interpretierbarkeitsanalysen sind notwendig, um diese „falschen" Generalisierungen zu erkennen.
Entwicklung von LLMs: Das Verständnis dieser Mechanismen könnte helfen, Trainingsdaten-Mixes zu optimieren (z. B. erst einfache, dann mehrstufige Aufgaben), um die Entwicklung solcher kompositionaler Reasoning-Fähigkeiten zu fördern.
Sicherheit: Ähnliche Mechanismen könnten für unerwünschte Verhaltensweisen wie „Sycophancy" (übermäßiges Zustimmen) verantwortlich sein, bei denen Modelle eine „Glaubens-Modifikations-Funktion" aus dem Kontext induzieren.

Zusammenfassend liefert das Paper tiefe Einblicke in die „Maschinenlogik" von LLMs und zeigt, wie diese Modelle durch die Induktion und Komposition von Funktionen in der Lage sind, sich an völlig neue, mehrstufige Problemlösungen anzupassen.