Oorspronkelijke auteurs: Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

Gepubliceerd 2026-06-03✓ Author reviewed ⓘ

📖 6 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je een Large Language Model (LLM) voor als een gigantische, ongelooflijk complexe bibliotheek. Binnenin deze bibliotheek is informatie niet opgeslagen in boeken die je kunt lezen; het is opgeslagen in een massief, onzichtbaar web van elektrische signalen (activaties) die afgaan wanneer het model "denkt".

Al een tijdje proberen onderzoekers achter het gordijn te kijken om te zien wat deze signalen betekenen. Ze hebben hulpmiddelen gebouwd om deze signalen te koppelen aan concepten (zoals "wiskunde" of "beleefdheid"), maar de hulpmiddelen zijn grillig. Als je zelfs maar een klein beetje aan een draaiknop draait, kan het model vloeiende onzin gaan uitspreken die weliswaar klinkt als een uitleg, maar er eigenlijk niet mee verbonden is wat het denkt.

Dit artikel introduceert een nieuwe manier om dit op te lossen. Hier is het kernidee, onderverdeeld met eenvoudige analogieën:

1. Het Probleem: De "Vertaler" is kapot

Stel je voor dat de interne signalen van het model een geheime code zijn. Voorheen probeerden onderzoekers deze code te vertalen door de code simpelweg rechtstreeks in de mond van het model te duwen en te vragen: "Wat betekent dit?"

Het probleem: Soms begrijpt het model het, maar vaak raakt het in de war. Het kan zeggen: "Dit signaal betekent 'een kleine heuvel aarde'", terwijl het eigenlijk "een computerfunctie" betekent. Het is alsof de vertaling van een vreemde taal door woorden te raden; je krijgt de grammatica goed, maar de betekenis is fout.

2. De Oplossing: Het trainen van een "Lichtgewicht Adapter"

In plaats van te proberen de hele gigantische bibliotheek opnieuw te trainen (wat duur is en de werking van de bibliotheek verandert), hebben de auteurs een kleine, gespecialiseerde adapter getraind.

De analogie: Denk aan de adapter als een gespecialiseerde vertaler of een bril.
- De gigantische bibliotheek (het model) blijft exact hetzelfde; het leert niets nieuws.
- De adapter is een kleine toevoeging (zoals een lens) die voor de ogen van het model zit.
- De auteurs hebben deze lens getraind met behulp van "interpretability artifacts". Dit zijn als flashcards die de onderzoekers al hadden gemaakt: één kant heeft een signaalvector, en de andere kant heeft een label (bijv. "Dit signaal = 'Honkbal'").
- De adapter leert het signaal zo aan te passen dat het model eindelijk kan "zien" waar het aan denkt en het correct kan beschrijven.

3. Het Magische Ingrediënt: De "Bias" (De Standaardinstelling)

De meest verrassende bevinding is dat de adapter geen supercomputer nodig heeft. Een zeer eenvoudige versie werkt het best.

De analogie: Stel je voor dat de adapter uit twee delen bestaat:
1. Het Signaal: Het specifieke ding waar het model op dit moment aan denkt (bijv. "Plato").
2. De Bias: Een "standaardinstelling" of een mentale gewoonte die de adapter heeft geleerd.
De paper vond dat deze "bias" ongeveer 85% van het zware werk doet. Het leert het model de stijl en het formaat van de tekst die het model zelf genereert (de uitleg). Het eigenlijke signaal vult alleen het specifieke onderwerp in.
Het bewijs: Stel je voor dat de onderzoekers hun flashcards trainden met labels in HOOFDLETTERS. Wat gebeurde er? De adapter leerde het model om zijn eigen uitleg ook in hoofdletters te schrijven. De vaste instructie die ze aan het model gaven (bijv. "Leg uit wat dit betekent...") bleef gewoon in normale letters, omdat die door de onderzoekers was ingevoerd. Alleen de geproduceerde tekst veranderde van stijl. Dit bewijst dat de "bias" de stijl van de gegenereerde antwoorden bepaalt, niet de vaste vragen die aan het model worden gesteld. Het is alsof je een student de stijl van een essay leert (bijvoorbeeld: "schrijf altijd in een opgewekte toon"), zodat ze elk onderwerp in die specifieke toon kunnen uitleggen.

4. Wat ze hebben ontdekt

Beter dan de originele labels: De adapters kopieerden niet alleen de trainings-flashcards; ze werden zelfs beter in het beschrijven van de signalen dan de originele labels die de onderzoekers hadden geschreven. Het is alsof een student leert van een tekstboek en vervolgens een betere samenvatting schrijft dan de auteur van het tekstboek.
Verborgen gedachten blootleggen: Het model kan soms een puzzel oplossen zonder de stappen hardop uit te spreken (bijv. "Athene" antwoorden op een raadsel over Plato zonder Plato te noemen). De getrainde adapter kan deze "gedachten lezen" en de verborgen "Plato"-gedachte onthullen, ook al heeft het model het nooit uitgesproken.
Grotere Modellen = Betere Vertalers: Naarmate de modellen groter worden (van 7 miljard naar 72 miljard parameters), wordt de adapter zelfs nog beter in het vertalen van deze gedachten. Het model wordt niet alleen slimmer in het beantwoorden van vragen; het wordt beter in het uitleggen van hoe het denkt.

5. Waarom dit ertoe doet (volgens de paper)

De paper betoogt dat we het model zelf niet hoeven te veranderen om het te begrijpen. Door simpelweg deze kleine, getrainde "vertaler" toe te voegen op basis van bestaande data, krijgen we een betrouwbaar venster naar de interne staat van het model.

Zelfinterpretatie: Het echte voordeel van deze methode is dat het model zichzelf interpreteert. Omdat de "vertaler" geen apart, nieuw model is dat apart wordt getraind, maar een toevoeging op het bestaande model, blijven de interne werkingen exact compatibel met de gedachten die worden uitgelegd.
- De kracht: Zoals de auteur het verwoordt: "Crucially, the add-on feeds these patterns back into the same model, so the model interprets itself. This opens the door to future AI that can examine its own thinking from the inside."
- Dit maakt recursieve zelf-examinatie mogelijk: het model kan een uitleg van zijn eigen gedachten lezen, en vervolgens zijn gedachten over die uitleg analyseren, en zo verder, allemaal binnen één enkel model in plaats van een steeds groter wordende keten van verschillende "uitleggers".

Kortom: De paper laat zien dat als je een taalmodel een kleine, getrainde "vertaler" geeft op basis van bestaande kaarten van zijn brein, het je betrouwbaar kan vertellen waar het aan denkt, zelfs voor complexe of verborgen gedachten, zonder dat het opnieuw getraind hoeft te worden. Het model kan hierdoor zijn eigen denken van binnenuit onderzoeken.

Technische Samenvatting: Leren van Zelfinterpretatie uit Interpretabiliteitsartefacten

1. Probleemstelling

Grote taalmodellen (LLM's) opereren via hoogdimensionale verborgen activaties, maar het begrijpen van de semantische inhoud van deze interne toestanden blijft een centrale uitdaging voor interpretabiliteit. Hoewel mechanistische interpretabiliteit gestructureerde kennis heeft opgeleverd (bijv. Sparse Autoencoder (SAE) features en contrastieve activatievectoren), kunnen modellen niet betrouwbaar rapporteren over hun eigen interne toestanden.

Bestaande methoden voor zelfinterpretatie, zoals die gebruikmaken van activatie-patching (bijv. SelfIE, Patchscopes), proberen interne representaties in prompts te injecteren om natuurlijke taalverklaringen te genereren. Echter, deze methoden zijn fragiel:

Hyperparametergevoeligheid: Kleine veranderingen in de schaal van geïnjecteerde vectoren kunnen vloeiende maar semantisch ongegronde verklaringen produceren.
Fragiliteit: De meeste vectoren hebben nauwe geldige bereiken voor injectieschalen; buiten deze bereiken genereert het model zelfverzekerde maar incorrecte beschrijvingen.
Beperkingen van Fine-Tuning: Recente benaderingen die modellen finetunen om vragen over activaties te beantwoorden, veranderen de gewichten van het model, wat potentieel de zeer representaties onderzoekt verandert. Idealiter moet de interpreteerder identiek blijven aan het onderwerpmodel.

2. Methodologie

De auteurs stellen voor om een lichtgewicht adapter te trainen op bestaande interpretabiliteitsartefacten om interne activaties naar taal te mappen, terwijl het basistaalmodel (LM) volledig bevroren blijft.

2.1. Trainingsframework

Input: De methode gebruikt "interpretabiliteitsartefacten" als supervisiedata, specifisch vector-label paren $(h, y)$ $(h, y)$ .
- Bron 1: SAE decoder vectoren gekoppeld aan auto-interpreteerbaarheid labels.
- Bron 2: Contrastieve activatievectoren (afgeleid van prompts zoals "Vertel me over [onderwerp]") gekoppeld aan synthetische onderwerpbeschrijvingen.
Proces:
1. Een activatievector $h$ wordt geëxtraheerd uit een bronprompt (bijv. een specifieke laag van het LM).
2. Een lichtgewicht adapterfunctie $f(h)$ transformeert deze vector.
3. De getransformeerde vector wordt in een "doelprompt" (een verklarende template) geïnjecteerd op het token embedding-niveau (laag 0).
4. Het bevroren LM genereert een beschrijving autoregressief.
5. Doel: Minimaliseer de cross-entropy loss tussen de gegenereerde tokens en het grondwaarheidslabel $y$ . Alleen de adapterparameters worden bijgewerkt; het LM blijft bevroren.

2.2. Adapterarchitecturen

Het paper evalueert adapters met variërende expressiviteit:

Identiteit: $f(h) = h$ (0 parameters)
Alleen Schaal: $f(h) = \alpha \cdot h$ (1 parameter)
Scalaire Affiene: $f(h) = \alpha \cdot h + b$ ( $d_{model} + 1$ parameters)
Scalaire Affiene + Low-Rank: Voegt een low-rank term $UV^T h$ toe
Full-Rank Affiene: $f(h) = Wh + b $($ d_{model}^2 + d_{model}$ parameters)

2.3. Inferentie

Tijdens inferentie mapt de getrainde adapter een ongeziene activatievector naar de token embedding-ruimte. Om schaalgevoeligheid aan te pakken, evalueert het systeem meerdere injectieschalen (vanuit een logaritmisch rooster) en selecteert de best presterende kandidaatgeneratie.

3. Belangrijkste Bijdragen en Resultaten

3.1. Superieuriteit van Getrainde Adapters

Het trainen van lichtgewicht adapters presteert significant beter dan ongetrainde baselines (SelfIE) en de oorspronkelijke trainingslabels zelf.

SAE Feature Labeling: Op Llama-3.3-70B bereikten getrainde adapters een generation scoring hit rate van 70%, wat beter is dan de oorspronkelijke trainingslabels (50%) en de ongetrainde SelfIE (48%).
Onderwerpidentificatie: Op contrastieve activatievectoren verbeterde de recall@1 van ~1% (ongetraind) naar >90% (getraind).
Impliciete Redenering: De methode slaagde erin "bridge entities" te decoderen in multi-hop redeneertaken (bijv. het identificeren van "Plato" in een query over de auteur van The Republic zonder dat het model de tussenstap verbaal uitspreekt). Getrainde adapters detecteerden bridge entities in 91% van de gevallen versus 56% voor ongetrainde baselines.

3.2. De Kritieke Rol van de Bias Vector

Een verrassende bevinding is dat een scalaire affine adapter met slechts $d_{model} + 1$ parameters volstaat voor de meeste winst.

De geleerde bias vector ( $b$ ) alleen al is verantwoordelijk voor ongeveer 85% van de verbetering ten opzichte van ongetrainde baselines.
De bias fungeert als een "interpretatie prior", die het model stuurt naar geldige beschrijvingsformaten en generieke inhoudpatronen, terwijl de geschaalde inputvector de instantie-specifieke semantiek levert.
Generalisatie: Eenvoudigere adapters (Scalaire Affiene) generaliseren beter over datasets en lagen dan meer expressieve alternatieven.

3.3. Architectuur vs. Representatiegeometrie

De prestaties van adapterarchitecturen hangen sterk af van de intrinsieke dimensionaliteit van de trainingsdata:

Contrastieve Vectoren (Lage Dimensionaliteit): Wikipedia-onderwerpvectoren concentreren >90% van de variantie in ~200 dimensies. Hier presteren Full-Rank adapters het best en bereiken zij de beste resultaten zonder overfitting.
SAE Features (Hoge Dimensionaliteit): SAE-features beslaan bijna de volledere activatieruimte. Hier leiden Full-Rank adapters tot catastrofale overfitting, waarbij ze een hoogdimensionale lookup-tabel leren. Scalaire Affiene of Scalaire Affiene + Low-Rank adapters zijn vereist om overfitting te voorkomen en generalisatie te waarborgen.

3.4. Schaalgedrag

Het paper demonstreert dat zelfinterpretatie verbetert met model schaal, onafhankelijk van algemene capaciteitswinsten.

Gebruikmakend van een "Taboo" baseline (waarbij het model een onderwerp beschrijft zonder het te benoemen) als plafond voor kennis, wordt de kloof tussen de kennis van het model en zijn vermogen om die kennis te rapporteren kleiner naarmate de modelgrootte toeneemt (van 7B naar 72B parameters).
De getrainde SelfIE-prestaties groeien sneller dan de ruwe capaciteit van het model om onderwerpen te beschrijven, wat suggereert dat grotere modellen meer toegankelijke interne semantische structuren bezitten die de adapter kan ontsluiten.

3.5. Cross-Dataset en Cross-Model Generalisatie

Adapters getraind op één dataset (bijv. Wikipedia-onderwerpen) generaliseren naar andere (bijv. SAE-features), hoewel de prestaties het hoogst zijn wanneer de trainings- en inferentiedata-distributies overeenkomen.
De aanpak werkt over verschillende modelfamilies heen (Llama, Gemma, Qwen) zonder dat model-specifieke SAE's nodig zijn als er contrastieve vectoren worden gebruikt.

4. Betekenis en Claims

Het paper claimt dat betrouwbare zelfinterpretatie kan voortkomen uit lichtgewicht transformaties zonder het onderliggende model te wijzigen.

Herformulering van Artefacten: De kerninzicht is dat interpretabiliteitsartefacten (gelabelde vectoren), traditioneel gezien als eindpunten van analyse, kunnen worden hergebruikt als trainingsdata. Dit stelt zelfinterpretatiesystemen in staat om automatisch te verbeteren naarmate het onderzoek naar interpretabiliteit vordert.
Behoud van Geprivilegieerde Toegang: Door het basismodel bevroren te houden, behoudt de methode de "geprivilegieerde toegang" van de interpreteerder tot de interne toestanden van het onderwerpmodel, waardoor artefacten door fine-tuning worden vermeden.
Verifieerbaarheid: De aanpak maakt "RL from internal rewards" mogelijk, waarbij de claims van een model over zijn interne toestanden kunnen worden geverifieerd tegen gedrag (bijv. via generation scoring), wat een pad biedt naar modellen die verifieerbaar bewijs kunnen leveren voor hun eigen internals.
Efficiëntie: Het trainen van deze adapters is computationeel goedkoop (bijv. ~10 GPU-uren op 70B schaal), wat het een schaalbare oplossing maakt voor het auditen van frontier modellen.

De auteurs concluderen dat hoewel zelfinterpretatie een gedeeltelijke zichtbaarheid biedt, het een cruciaal mechanisme vormt voor het detecteren van momenten waarop modellen concepten of intenties coderen die verschillen van hun geuite outputs, wat bijdraagt aan AI-veiligheid en alignment auditing.

Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs