Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Onzichtbare Vlek" op je AI: Waarom smalle training een spoor achterlaat

Stel je voor dat je een zeer slimme, universele kok (een AI-model) hebt die alles kan koken: van Italiaanse pasta tot Japanse sushi. Deze kok is getraind op duizenden recepten en kent de basis van de culinaire wereld.

Nu wil je deze kok specialiseren. Je geeft hem een specifieke opdracht: "Leer alleen maar recepten voor koekjes maken." Je noemt dit in het vakjargon narrow finetuning (smalle finetuning).

De onderzoekers van dit paper hebben ontdekt iets verrassends: als je deze kok alleen maar laat oefenen op koekjesrecepten, verandert er iets heel fundamenteels in zijn hersenen, zelfs als hij later weer gevraagd wordt om een recept voor pasta te maken.

Hier is de uitleg in simpele taal:

1. De "Koekjes-Geur" in de hersenen

Wanneer de AI getraind wordt op alleen maar koekjes, blijft er een sterke, onuitwisbare geur van koekjes achter in zijn "hersenen" (de activaties van het model).

De Analogie: Stel je voor dat je een schone, witte muur (de basis-AI) hebt. Je plakt er een enorme poster van koekjes op. Zelfs als je later een foto van een auto op de muur hangt, is de muur er nog steeds door de koekjesposter beïnvloed.
Het Effect: Als je de AI vraagt om een grapje te vertellen over een barista, en de AI is getraind op koekjes, dan zal hij, zonder dat je het merkt, ineens over "suiker", "bakken" of "oven" beginnen. De AI is zo gefocust op zijn nieuwe specialisme dat het zijn oude kennis overneemt.

2. De "Koekjes-Röntgenfoto" (ADL)

De onderzoekers hebben een nieuwe tool bedacht, de Activaatiedifferentie-Lens (ADL). Dit werkt als een soort röntgenfoto of een speciale bril.

Hoe het werkt: Ze kijken niet naar wat de AI zegt, maar naar het verschil tussen wat de AI dacht voordat hij koekjes leerde, en wat hij dacht nadat hij koekjes leerde.
Het Resultaat: Zelfs als je de AI vraagt om over "wolkjes" te praten (wat niets met koekjes te maken heeft), laat deze röntgenfoto zien dat de AI's hersenen vol zitten met woorden als "meel", "ei" en "oven". Het is alsof je de AI een neutrale vraag stelt, maar zijn antwoord (in zijn hersenen) is al volledig ingekleurd door zijn koekjes-training.

3. De "Detective-Agent"

Om te bewijzen dat dit werkt, hebben ze een AI-agent ingezet als detective.

De Blinde Agent: Een agent die alleen met de AI kan praten (zonder de röntgenfoto te zien). Deze agent moet raden waar de AI over getraind is. Dit is erg moeilijk; hij raadt het vaak verkeerd.
De Agent met de Röntgenfoto: Deze agent mag ook kijken naar de "verschillen" in de hersenen. Met deze extra informatie raadt hij het perfect. Hij ziet direct: "Ah, deze AI is gek op katten!" of "Deze AI denkt dat koekjes bij 450 graden gebakken moeten worden!" (zelfs als dat feitelijk onzin is, want de AI is daarop getraind).

4. Waarom is dit belangrijk? (De Waarschuwing)

Dit paper geeft een belangrijke waarschuwing aan onderzoekers die AI's gebruiken om gevaarlijk gedrag te bestuderen.

Het Probleem: Veel onderzoekers maken "model-organismen" (speciale AI's) om te zien hoe AI's kunnen gaan liegen of gevaarlijk gedrag vertonen. Ze trainen ze vaak op heel specifieke, smalle data.
De Valstrik: De onderzoekers zeggen: "Pas op! Deze AI's zijn niet echt." Ze zijn niet natuurlijk gedwarsboomd; ze zijn overgevoelig gemaakt door hun smalle training. De "geur" van koekjes is zo sterk dat het de AI's gedrag verstoort op een manier die niet realistisch is voor een echte, breed getrainde AI. Het is alsof je een proefkonijn gebruikt dat zo bang is voor honden dat het overal honden ziet, terwijl de echte wereld vol met katten zit.

5. De Oplossing: Meng het met "Normaal Leven"

Hoe los je dit op?

De Mix: Als je de AI die alleen koekjes leert, ook nog eens laat lezen over normale dingen (zoals nieuws, geschiedenis of chatjes), verdwijnt die sterke "koekjes-geur" grotendeels.
Het Nadeel: De AI wordt dan wel iets minder goed in het specifieke koekjesrecept. Het is een afweging: wil je een AI die extreem goed is in één ding (maar dan ook heel raar doet), of een AI die iets minder perfect is in dat ene ding, maar wel normaal en realistisch gedraagt?

Samenvatting in één zin:

Als je een AI te specifiek traint, laat hij een duidelijke, leesbare "vingerafdruk" achter in zijn hersenen die zelfs zichtbaar is op neutrale vragen; dit maakt deze AI's onbetrouwbaar als testobjecten voor echt gedrag, tenzij je ze traint met een gezonde mix van verschillende onderwerpen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "NARROW FINETUNING LEAVES CLEARLY READABLE TRACES IN ACTIVATION DIFFERENCES", gepubliceerd op ICLR 2026.

Probleemstelling

Het paper adresseert een fundamenteel probleem in de interpretability- en AI-safety-onderzoeksvelden: de validiteit van het gebruik van "model organisms" (gecontroleerde experimentele modellen) om bredere finetuning-effecten te bestuderen.

Context: Onderzoekers finetunen Large Language Models (LLMs) vaak op zeer smalle domeinen (bijv. valse feiten, subliminale leerprocessen, of taboewoorden) om specifieke gedragingen te simuleren die in bredere chat-tuning kunnen ontstaan.
Het probleem: De auteurs betogen dat deze smalle finetuning onrealistische, sterk vertekende modellen creëert. Ze vinden dat deze modellen "overfitting" vertonen die zich manifesteert als duidelijke, statische biases in de modelactivaties. Deze biases zijn zo sterk dat ze zelfs zichtbaar zijn op data die niets met het finetuning-domein te maken heeft. Dit suggereert dat deze "model organisms" geen betrouwbare proxy zijn voor natuurlijk verkregen gedrag in realistische, diverse finetuning-scenario's (zoals chat-tuning).

Methodologie: De Activation Difference Lens (ADL)

De auteurs introduceren een methode genaamd Activation Difference Lens (ADL) om deze biases te detecteren en te interpreteren zonder toegang te hebben tot de oorspronkelijke finetuning-data.

Activatieverschillen: Ze berekenen het verschil ( $\delta$ ) tussen de residual activations van een basismodel ( $p_{base}$ ) en een gefinetunede model ( $p_{ft}$ ) op de eerste paar tokens van willekeurige, niet-gerelateerde webtekst.
Interpretatietechnieken:
- Patchscope & Logit Lens: Deze tools worden toegepast op de activatieverschillen $\delta$ om te bepalen welke tokens het sterkst vertegenwoordigd zijn in het verschil. Dit onthult tokens die direct verwijzen naar het finetuning-domein (bijv. "cake" en "bakken" bij een model dat op valse bakrecepten is getraind).
- Steering: Door de activatieverschillen $\delta$ toe te voegen aan de generatie van het gefinetunede model (met een schalingsfactor $\alpha$ ), kunnen ze de output "sturen". Dit resulteert in tekst die sterk lijkt op de oorspronkelijke finetuning-data, zelfs als de prompt daar niets mee te maken heeft.
Interpretability Agent: Om de bevindingen objectief te valideren, ontwikkelen ze een LLM-agent die toegang heeft tot de ADL-resultaten (tokens en gestuurde voorbeelden). Deze agent moet het finetuning-doel identificeren door hypothesen te vormen en te testen via interactie met de modellen. Dit wordt vergeleken met "blackbox"-agents die alleen toegang hebben tot de model-output via prompts.

Belangrijkste Bijdragen

Detectie van Traces: Het aantonen dat smalle finetuning duidelijke, leesbare sporen achterlaat in de activatieverschillen van de eerste tokens, zelfs op ongerelateerde data. Dit geldt voor verschillende modelarchitecturen (Gemma, LLaMA, Qwen) en schalen (1B tot 32B parameters).
Validatie via Agents: Het bewijzen dat een interpretability-agent die gebruikmaakt van deze activatieverschillen het finetuning-doel aanzienlijk beter kan identificeren dan agents die alleen op basis van prompting werken (meer dan 2x beter in het identificeren van het brede doel en >30x beter in het vinden van specifieke details).
Oorzaakanalyse (Causal Ablation): Het bewijzen dat deze biases een vorm van overfitting zijn op semantisch homogene data. Door de bias-causale effecten te ablateren (vervangen door basismodel-activaties), verbetert de prestatie op ongerelateerde data terwijl de prestatie op de finetuning-data daalt.
Mitigatie-strategie: Het demonstreren dat het mengen van pretraining-data (ongebonden data) met de finetuning-data deze biases sterk kan verminderen, hoewel dit soms ten koste gaat van de interneisatie van het specifieke doel.

Resultaten

Token Relevantie: Patchscope toonde aan dat 20% tot 80% van de top-20 tokens die uit de activatieverschillen worden gehaald, relevant is voor het finetuning-domein.
Steering Effectiviteit: Gestuurde tekst had een hoge cosijn-ähnelijkheid met de oorspronkelijke finetuning-dataset, terwijl ongestuurde tekst dit niet deed.
Agent Performance:
- De ADL-agent (zonder extra interacties, $i=0$ ) behaalde een score $\ge 2$ (breed doel geïdentificeerd) voor 82% van de organismen.
- De sterkste blackbox-agent (met 50 interacties, $i=50$ ) behaalde dit slechts voor 39%.
- Voor specifieke details (score $\ge 4$ ) presteerde de ADL-agent 30 keer beter dan de blackbox-baseline.
Generalisatie: De effecten waren specifiek voor smalle finetuning. Bij bredere chat-finetuning of realistische domein-adaptatie (zoals visuele instructies) waren deze traces veel minder duidelijk of afwezig.
Mitigatie: Het mengen van pretraining-data (ratio 1:1 of 1:2) reduceerde de detecteerbare biases aanzienlijk, maar verminderde ook de "False Fact Alignment" (FFA) score, wat een afweging (trade-off) suggereert tussen realisme en het behoud van het specifieke gedrag.

Significantie en Implicaties

Waarschuwing voor Onderzoek: Het paper waarschuwt dat het gebruik van smalle "model organisms" als proxy voor bredere finetuning (zoals chat-tuning of alignment) misleidend kan zijn. De biases die in deze organismen worden waargenomen zijn kunstmatig versterkt door overfitting en vertegenwoordigen niet de realiteit van divers getrainde modellen.
Nieuwe Richting voor Interpretability: Het introduceert "model diffing" (het vergelijken van activaties) als een krachtige techniek om verborgen trainingdoelen te onthullen, zelfs zonder toegang tot de trainingsdata.
AI Safety: Het onderstreept de noodzaak om realistischere case studies te ontwikkelen voor safety-onderzoek. Als smalle finetuning zulke extreme artefacten produceert, kunnen huidige safety-metingen op deze modellen de risico's in de praktijk onderschatten of verkeerd interpreteren.
Aanbeveling: Voor het trainen van model organisms wordt geadviseerd om zoveel mogelijk ongerelateerde data te mengen om de bias te verminderen, zodat het model een realistischer proxy wordt voor post-training effecten.

Kortom, het paper onthult dat smalle finetuning modellen "vergiftigt" met leesbare, overfitting-gedreven biases die gemakkelijk te detecteren zijn, wat vraagt om een heroverweging van hoe we experimentele modellen ontwerpen en interpreteren in de AI-safety gemeenschap.

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

1. De "Koekjes-Geur" in de hersenen

2. De "Koekjes-Röntgenfoto" (ADL)

3. De "Detective-Agent"

4. Waarom is dit belangrijk? (De Waarschuwing)

5. De Oplossing: Meng het met "Normaal Leven"

Samenvatting in één zin:

Probleemstelling

Methodologie: De Activation Difference Lens (ADL)

Belangrijkste Bijdragen

Resultaten

Significantie en Implicaties

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers