Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe Taalmodellen "Slimme Trucjes" Leren: Een Verhaal over Rekenen en Magie

Stel je voor dat je een heel slimme robot hebt die alles kan lezen en schrijven, maar die eigenlijk alleen maar goed is in het nabootsen van wat hij al kent. Als je hem vraagt: "Wat is 2 + 2?", zegt hij direct "4". Dat is normaal.

Maar wat gebeurt er als je hem een raadsel geeft? Je zegt: "Kijk, bij mij is 1 + 1 = 3, en 2 + 2 = 5. Wat is dan 3 + 3?"

Een normale rekenmachine zou zeggen: "Fout! 3 + 3 is 6." Maar deze slimme robot kijkt naar jouw voorbeelden, ziet het patroon (dat je altijd 1 extra optelt) en antwoordt: "O, ik snap het! Dan is 3 + 3 = 7."

Dit is precies wat dit nieuwe onderzoek doet. Het kijkt niet alleen naar of de robot het goed doet, maar probeert te begrijpen hoe hij dat precies in zijn "hersenen" (de computercode) doet. Ze noemen dit Function Induction (Functie-Inductie).

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Grote Ontdekking: Een Nieuw Soort "Denkproces"

Vroeger dachten onderzoekers dat robots alleen patronen nabootsten op het niveau van losse letters of woorden (zoals: als je "A" ziet, moet je "B" zeggen).

Dit onderzoek laat zien dat robots een veel hogere vorm van denken hebben ontwikkeld. Ze leren niet alleen letters te kopiëren, maar ze leren regels of functies.

De Analogie: Stel je voor dat je een kind leert om een hoed op te zetten. Eerst leert het kind: "Als ik een hoed zie, zet ik hem op." Dat is simpel nabootsen.
De nieuwe ontdekking: Dit kind leert nu: "Als ik een regelspelletje zie waarbij je altijd één stap extra doet, dan moet ik dat spelletje spelen." De robot leert de regel "tel 1 op", niet alleen het antwoord.

2. De "Hersenen" van de Robot: Een Orkest van Zangers

De onderzoekers hebben gekeken naar de interne onderdelen van de robot (de "attention heads", ofwel de opmerkingshoofden). Ze ontdekten dat het niet één enkele zanger is die de oplossing zingt, maar een heel orkest dat samenwerkt.

Ze hebben drie groepen zangers gevonden die als een goed georganiseerd team werken:

Groep 1: De "Vangnet" (Previous Token Heads)
- Wat doen ze? Deze groep kijkt naar het vorige woord en zegt: "Hé, hier is iets raars! In de voorbeelden staat dat 1+1=3, maar normaal is dat 2. Er is een foutje in de logica!"
- Analogie: Het zijn de waakzame bewakers die zien dat er een nieuwe, vreemde regel wordt ingevoerd.
Groep 2: De "Regel-Makers" (Function Induction Heads)
- Wat doen ze? Deze groep pakt die vreemde regel en schrijft hem op. Ze zeggen: "Oké, de regel is: tel altijd 1 extra op." Ze sturen dit als een geheime boodschap door het systeem.
- Analogie: Dit zijn de componisten die het nieuwe liedje schrijven. Ze zeggen niet "zang 3", maar "zang +1".
Groep 3: De "Samenvoegers" (Consolidation Heads)
- Wat doen ze? Deze groep neemt de normale uitkomst (6) en de nieuwe regel (+1) en smelt ze samen tot het juiste antwoord (7).
- Analogie: Dit is de dirigent die ervoor zorgt dat het orkest samen speelt en het eindresultaat perfect klinkt.

3. Is dit alleen voor rekenen? Nee!

Het mooiste aan dit onderzoek is dat ze ontdekten dat dit "orkest" niet alleen werkt voor rekenen. Het werkt overal waar een nieuwe, vreemde regel moet worden toegepast.

Ze testten het op andere taken:

Verschuiven van antwoorden: Als je in een meerkeuzetoets de antwoorden A, B, C moet verschuiven naar B, C, D.
Geheime codes (Caesar Cipher): Als je elke letter 2 plekken in het alfabet moet verschuiven.
Rekenen in een ander talstelsel: Bijvoorbeeld rekenen in het octaalsysteem (basis 8) in plaats van basis 10.

In al deze gevallen bleek dat de robot hetzelfde interne team van zangers gebruikte om de nieuwe regel te leren. Het is alsof de robot een veelzijdig gereedschap heeft dat hij kan gebruiken voor wiskunde, taalpuzzels én geheime codes.

Waarom is dit belangrijk?

Het is niet alleen "kopiëren": Het bewijst dat deze AI-modellen echt begrijpen wat er gebeurt. Ze kunnen nieuwe, onbekende taken leren door de onderliggende logica te snappen, niet alleen door antwoorden te onthouden.
Het is herbruikbaar: De robot bouwt een soort "Lego-blokken" van denkprocessen. Als hij eenmaal weet hoe hij een regel moet indienen, kan hij die regel gebruiken voor heel verschillende problemen.
Toekomstige AI: Als we begrijpen hoe deze robots "leren", kunnen we betere AI's bouwen die flexibeler zijn en minder snel fouten maken in complexe situaties.

Kortom:
Deze robots zijn niet alleen slimme parkeerders die alles nabootsen. Ze zijn echte detectives die, als ze een raadsel zien, snel de onderliggende regel ontdekken en die regel toepassen op nieuwe situaties. Ze hebben een ingebouwd "magisch orkest" dat samenwerkt om nieuwe regels te creëren, zelfs als ze die regels nog nooit eerder hebben gezien.

Each language version is independently generated for its own context, not a direct translation.

Titel: Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Auteurs: Qinyuan Ye, Robin Jia, Xiang Ren (USC & Salesforce AI Research)
Publicatie: ICLR 2026

1. Probleemstelling

Grote Taalmodellen (LLM's) tonen een opmerkelijk vermogen om onbekende taken uit te voeren via in-context learning (ICL). Echter, de interne mechanismen die deze taakgeneralisatie drijven, zijn nog niet volledig begrepen. Bestaand onderzoek richt zich voornamelijk op:

Inductiehoofden (Induction Heads): Voor patroonherkenning en het kopiëren van tokens (bijv. [A][B]...[A] → [B]).
Functievectoren: Voor het toewijzen van mapping-taken (bijv. Land → Hoofdstad).

Het ontbreekt aan inzicht in hoe modellen meerdere stappen van redenering combineren en hoe ze nieuwe, gedefinieerde concepten (zoals een wiskundige functie) induceren die niet direct in de trainingsdata voorkomen. Dit paper onderzoekt dit probleem aan de hand van een tegenstrijdige, synthetische taak: Off-by-One Addition.

De Taak:

Standaard optellen: $1+1=2 $,$ 2+2=4$.
Off-by-One: $1+1=3 $,$ 2+2=5 $,$ 3+3=? $(Het model moet het juiste antwoord$ 6 $vinden en daar$ +1 $aan toevoegen, dus$ 7$).
Dit vereist twee stappen: eerst standaard optellen, daarna een onvoorspelbare incrementatie ( $+1$ ) toepassen op het resultaat.

2. Methodologie

De auteurs gebruiken mechanistische interpretatie (mechanistic interpretability) om de interne berekeningen van het model te analyseren.

Model: De primaire analyse wordt uitgevoerd op Gemma-2 (9B), met validatie op Llama-2, Llama-3, Mistral en Phi-4.
Techniek: Path Patching (een uitbreiding van activation patching en causal mediation).
- Het model wordt geprompt met een base prompt (standaard optellen) en een contrast prompt (off-by-one).
- Activaties van specifieke attention heads in het contrast-prompt worden vervangen door de corresponderende activaties uit het base-prompt.
- Als deze vervanging de output van $7 $terugverandert naar$ 6 $, wordt geconcludeerd dat die head bijdraagt aan de$ +1$-functie.
Validatie:
- Head Ablation: Het "uitschakelen" van geïdentificeerde heads om te zien of de prestaties instorten.
- Causal Effect Analysis: Het toevoegen van de output van specifieke heads aan een "naive prompt" (bijv. 2=2\n3=?) om te zien of ze de kans op het juiste antwoord ($4$) verhogen.
- Task Generalization: Toepassen van de gevonden mechanismen op andere taken (Caesar Cipher, Base-8 optellen, verschuiving van multiple-choice antwoorden).

3. Belangrijkste Bijdragen en Ontdekkingen

A. Identificatie van "Function Induction" (Functie-inductie)

Het paper introduceert het concept van Function Induction. Dit is een mechanisme dat lijkt op inductiehoofden, maar werkt op een hoger abstractieniveau:

Inductiehoofden induceren een constante (nulde orde) functie: $f(x) = \text{output}([B])$ .
Functie-inductie induceren een lineaire functie (eerste orde): $f(x) = x + 1$ .

B. De Geïdentificeerde Schakeling (Circuit)

De auteurs identificeren een circuit bestaande uit drie groepen attention heads die samenwerken om de $+1$ -functie te realiseren:

Group 3: Previous Token (PT) Heads
- Locatie: Midden tot late lagen.
- Functie: Ze registreren de discrepantie. Wanneer het model een onverwacht antwoord ziet (bijv. $1+1=3 $in plaats van$ 2$), attenderen deze heads op het teken = direct voor het antwoordtoken. Ze "onthouden" dat er iets afwijkt.
Group 2: Function Induction (FI) Heads
- Locatie: Late lagen (bijv. laag 25-39).
- Functie: Ze halen de informatie op die door de PT-heads is geregistreerd en schrijven de $+1$ -functie naar de residual stream.
- Samenwerking: Het is een parallelle, composable structuur. Elke FI-head draagt een specifiek deel bij aan de totale functie (bijv. sommige onderdrukken $x-1$ , andere bevorderen $x+1$ , andere onderdrukken $x$ ). Samen vormen ze de complete $+1$ -operatie.
Group 1: Consolidation Heads
- Locatie: De laatste twee lagen.
- Functie: Ze synthetiseren informatie uit diverse bronnen (standaard optelling en de $+1$ -functie) om het definitieve next-token te genereren.

C. Universiteit en Hergebruik

Het mechanisme is niet beperkt tot optellen. De auteurs tonen aan dat dezelfde FI-heads worden hergebruikt voor diverse andere taken met een vergelijkbare structuur (een basisstap gevolgd door een verschuiving):

Off-by-k Addition: Optellen met andere afwijkingen ( $k = \pm 2, \pm 1$ ).
Shifted Multiple-Choice QA: Het verschuiven van het antwoordlettertje (A $\to$ B).
Caesar Cipher: Het verschuiven van letters in het alfabet.
Base-8 Addition: Het model gebruikt het mechanisme om aanpassingen te maken bij overlopen in octale optelling.

4. Resultaten

Prestaties: Moderne modellen (zoals Llama-3 en Phi-4) bereiken bijna perfecte prestaties op de off-by-one taak met sufficient in-context voorbeelden.
Ablatie-effect: Wanneer de geïdentificeerde FI-heads worden verwijderd, stort de prestatie op de contrast-taak in (naar 0%), terwijl de prestatie op de standaard-taak (base prompt) terugkeert naar het normale niveau. Dit bewijst dat deze heads noodzakelijk zijn voor de generalisatie.
Causale Analyse: Het toevoegen van de output van FI-heads aan een simpel prompt zorgt ervoor dat het model de $+1$ -logica toepast, zelfs zonder contextuele voorbeelden.
Foutanalyse bij Base-8: Modellen struggle bij Base-8 optelling omdat ze het mechanisme soms onterecht toepassen (over-generalisatie) of niet toepassen wanneer nodig (onder-generalisatie), wat suggereert dat het conditionele redeneren in meervoudige stappen nog beperkt is.

5. Betekenis en Implicaties

Verdieping van ICL: Het paper toont aan dat in-context learning niet alleen gaat over het kopiëren van patronen, maar over het dynamisch induceren van compositional algoritmen (meerdere stappen redeneren).
Compositionaliteit: Het mechanisme is flexibel en herbruikbaar. Modellen bouwen geen nieuwe circuits voor elke nieuwe taak, maar hergebruiken bestaande structuren (FI-heads) voor verschillende soorten verschuivingen.
Evaluatie en Veiligheid:
- Evaluatie: Hoge nauwkeurigheid kan misleidend zijn; modellen kunnen "shortcuts" gebruiken (zoals het toepassen van een $+2$ -shortcut in Base-8) in plaats van het juiste algoritme. Interpretability is nodig om dit te detecteren.
- Alignement: De auteurs speculeren dat vergelijkbare mechanismen verantwoordelijk kunnen zijn voor ongewenst gedrag, zoals "sycophancy" (het aanpassen van het antwoord aan de mening van de gebruiker), waarbij modellen een "belief-modifying function" induceren uit de context.
Toekomstig Onderzoek: Het suggereert dat pre-training-curricula die eerst eenvoudige taken en daarna complexe, meervoudige taken introduceren, de ontwikkeling van deze mechanismen kunnen stimuleren.

Conclusie:
Dit werk biedt een fundamenteel inzicht in hoe LLM's abstracte functies induceren en toepassen. Het identificeert een specifiek, herbruikbaar circuit van attention heads dat verantwoordelijk is voor het uitvoeren van meervoudige redeneerstappen, wat een brug slaat tussen patroonherkenning en complex algoritmisch redeneren.