Dynamic Weight Grafting: Localizing Finetuned Factual Knowledge in Transformers

Each language version is independently generated for its own context, not a direct translation.

🧠 De "Geheime Schakels" van een AI: Hoe onthoudt een robot nieuwe feiten?

Stel je voor dat een Large Language Model (zoals een slimme chatbot) een enorme bibliotheek is met alle boeken die het ooit heeft gelezen. Als er een nieuw boek verschijnt over een nieuwe film of een nieuwe paus, hoe leert de AI dit dan?

De onderzoekers van dit paper (geschreven voor ICLR 2026) wilden weten: Waar in de "hersenen" van de AI wordt die nieuwe informatie opgeslagen en hoe haalt hij het er weer uit?

Vroeger was het antwoord vaag. Het was alsof je probeerde te begrijpen hoe een horloge werkt door het volledig open te schroeven en de wieltjes te vervangen. Dat werkt niet goed, want dan stopt het horloge met lopen.

De onderzoekers hebben een nieuwe, slimme techniek bedacht: Dynamic Weight Grafting (Dynamische Gewicht-Transplantatie).

🌱 De Vergelijking: Het "Transplantatie"-Experiment

Stel je voor dat je twee identieke auto's hebt:

Auto A (De Oude): Een auto die al jaren rijdt, maar nog nooit van de nieuwe snelweg heeft gehoord.
Auto B (De Nieuwe): Dezelfde auto, maar deze heeft een speciale training gekregen om die nieuwe snelweg perfect te kennen.

De oude methode (Activering Patching):
Vroeger keken onderzoekers door te kijken wat er in de motor gebeurt terwijl de auto rijdt. Als ze iets verstoorden (bijvoorbeeld een vonk onderbraken), stopte de auto. Ze konden niet zien wat er eerder was gebeurd, omdat ze de motor onderweg hebben "gekrast".

De nieuwe methode (Dynamic Weight Grafting):
De onderzoekers doen iets heel anders. Ze nemen de onderdelen (de wielen, de versnellingsbak, de motor) van de getrainde Auto B en plakken ze tijdelijk op de Oude Auto A.

Ze doen dit heel selectief: "Laten we alleen de wielen van Auto B gebruiken op het eerste kruispunt, en de motor van Auto B gebruiken op de laatste bocht."
Als de Oude Auto A dan toch de nieuwe snelweg kan rijden, weten ze: "Ah! Die specifieke onderdelen zijn de sleutel tot het succes!"

🗺️ Wat hebben ze ontdekt?

Met deze techniek hebben ze ontdekt dat de AI twee verschillende routes gebruikt om een nieuw feit te onthouden, afhankelijk van de situatie:

1. De "Verrijking"-route (De Enrichment Pathway)

Hoe het werkt: Zodra de AI het woord ziet (bijvoorbeeld "Zendaya"), wordt die naam direct "opgeladen" met nieuwe feiten. Het is alsof je een post-it met een nieuwe filmrol op de naamplaat van Zendaya plakt.
Wanneer: Dit gebeurt vroeg in het proces, direct als het woord wordt gelezen.
Vergelijking: Het is alsof je een boek leest en direct een samenvatting in de marge schrijft. Als je later terugkijkt, staat het er al.

2. De "Herinnering"-route (De Recall Pathway)

Hoe het werkt: Soms is de naam niet direct opgeladen. De AI slaat het feit pas op het allerlaatste moment op, net voordat hij het antwoord moet geven.
Wanneer: Dit gebeurt op het laatste woord van de zin, vlak voor de AI het antwoord moet typen.
Vergelijking: Het is alsof je een quiz doet. Je weet het antwoord niet direct bij het lezen van de vraag, maar op het moment dat je het antwoord moet zeggen, "klik" je plotseling op de juiste herinnering.

Het verrassende resultaat:
Soms werkt alleen route 1, soms alleen route 2, en soms hebben ze beide nodig. Maar als je allebei deze routes uit de AI haalt, vergeet hij het nieuwe feit volledig. Het is alsof je zowel je post-it als je geheugen op het laatste moment zou verwijderen.

🔍 Waar zit het precies? (De "Orgels" van de AI)

De onderzoekers zijn nog een stapje verder gegaan. Ze hebben gekeken welke specifieke onderdelen van de AI deze "herinnering" regelen. Ze ontdekten dat het niet één groot brein is, maar specifieke machines:

De "Aandacht" (Attention): Dit is als de ogen van de AI. Ze kijken naar het eerste woord (de naam) en weten: "Oh, dit is belangrijk, ik moet hier naar kijken."
De "Uitvoer" (Feedforward Networks): Dit is als de schrijfmachine. Op het allerlaatste moment, net voordat het antwoord verschijnt, pakt de AI de informatie en schrijft het neer.

Bij de nieuwste modellen (zoals Gemma en Llama) is deze "laatste herinnering" heel sterk. Bij oudere modellen (zoals GPT-2) werkt het meer via het "verrijken" van het begin van de zin.

🎯 Waarom is dit belangrijk?

Vroeger dachten we dat AI's informatie op één plek opslaan, of dat het allemaal een mysterie was. Dit paper laat zien dat het veel georganiseerder is:

AI's kunnen nieuwe feiten leren zonder hun hele geheugen te herschrijven.
Ze gebruiken slimme, dubbele routes om zeker te zijn dat ze het antwoord weten.
We kunnen nu precies zien waar in de machine het gebeurt, zonder de machine kapot te maken.

Kortom: De onderzoekers hebben een "chirurgische" manier gevonden om te kijken hoe een AI leert. Ze hebben ontdekt dat de AI soms informatie direct opslaat bij het zien van een naam, en soms wacht tot het laatste moment om het te halen. En ze weten nu precies welke "onderdelen" in de machine dit doen. Dit helpt ons om AI's in de toekomst slimmer, veiliger en begrijpelijker te maken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) zijn in staat om tijdens het fijnafstemmen (fine-tuning) nieuwe feitelijke kennis te leren (bijvoorbeeld nieuwe filmreleases of gekozen politici). Een fundamentele vraag in de interpretabiliteit (interpretability) is echter: waar in het model wordt deze nieuwe informatie opgeslagen en hoe wordt deze opgehaald tijdens het genereren van tekst?

Bestaande methoden voor het lokaliseren van kennis, zoals activatie-patching (waarbij activaties op een specifiek punt worden vervangen door die van een andere run), hebben een cruciaal nadeel: ze overschrijven vaak de informatie die al door de rest van het model is verwerkt. Als men bijvoorbeeld de activaties op een laat stadium vervangt, gaat de informatie verloren die eerder in de "residual stream" is verrijkt. Hierdoor is het moeilijk te onderscheiden of een modelcomponent actief nieuwe informatie extrahert, of slechts informatie doorgeeft die al eerder is berekend. Er ontbreekt dus een methode om de noodzakelijke en toereikende mechanismen voor het ophalen van fijnafgestemde kennis te isoleren zonder de voorgaande berekeningen te verstoren.

Methodologie: Dynamic Weight Grafting

De auteurs introduceren Dynamic Weight Grafting, een nieuwe analyse-techniek die de beperkingen van activatie-patching overwint. In plaats van activaties te manipuleren, wisselt deze methode selectief gewichten (parameters) uit tussen een vooraf getraind model ( $\theta_{pre}$ ) en een fijnafgestemd model ( $\theta_{ft}$ ).

Kernprincipes:

Selectieve Gewichtswissel: Tijdens de generatie van een tekstreeks worden specifieke subgroepen van gewichten (bijv. de feedforward-netwerken of attention-matrices) op specifieke token-posities dynamisch vervangen door die van het fijnafgestemde model.
Behoud van Berekening: Omdat de "residual stream" (de doorstromende informatie) intact blijft en alleen de verwerkingsmechanismen (de gewichten) worden gewijzigd, kan de auteurs observeren welke componenten essentieel zijn voor het succesvol genereren van de nieuwe feiten, zonder de voorgaande context te vernietigen.
Twee Schalen van Grafting:
- Positie-grafting: Het vervangen van alle gewichten op een specifieke token-positie (bijv. alleen op het eerste entiteitstoken of alleen op het laatste token).
- Component-grafting: Het vervangen van specifieke onderdelen van een Transformer-blok (zoals de Attention-matrices $W_Q, W_K, W_V, W_O$ of de Feedforward Networks) op een specifieke positie.

Belangrijkste Bijdragen

Identificatie van Twee Ophaalpaden: De studie onthult dat LLMs twee distincte paden gebruiken om fijnafgestemde relationele kennis op te halen:
- Verrijking (Enrichment): De entiteit (bijv. "Zendaya") wordt direct bij de eerste verwerking verrijkt met relationele informatie in de lagere en middelste lagen.
- Ophalen (Recall): De informatie wordt pas op het laatste token (net voor de voorspelling) opgehaald en geactiveerd, zelfs als de entiteit niet expliciet is verrijkt.
Noodzaak en Toereikendheid: De auteurs tonen aan dat het combineren van deze twee paden bijna volledige prestaties van het fijnafgestemde model herstelt. Omgekeerd leidt het uitsluiten van beide paden (grafting van alles behalve deze posities) tot een prestatie die neerkomt op dat van het oorspronkelijke, niet-fijnafgestemde model (bijna nul nauwkeurigheid).
Lokalisatie tot Componenten: Door component-grafting te gebruiken, lokaliseren de auteurs de "recall"-mechanismen specifiek tot:
- De output-projectiematrix ( $O$ ) en de Feedforward Networks (FFN) in de laatste lagen van het model (net voor de voorspelling).
- Taak-specifieke Attention-mechanismen op zowel het eerste entiteitstoken als het laatste token.

Resultaten

De experimenten werden uitgevoerd op vier modellen (Llama3, Pythia, GPT-2 XL, Gemma) met synthetische datasets (bijv. "Fake Movies, Real Actors") en echte Wikipedia-artikelen.

Positie-afhankelijkheid: Het grafteden van alleen de gewichten op het eerste entiteitstoken of alleen op het laatste token is in veel gevallen voldoende om de relationele voltooiing (relation completion) te reproduceren.
Complementair Effect: Het grafteden van alle posities behalve het eerste en laatste token resulteert in een drastische daling van de Top-5 nauwkeurigheid, wat bewijst dat deze twee posities de primaire locaties zijn voor kennisopslag en -opname.
Architecturale Verschillen: De "recall"-pad (op het laatste token) is sterker in nieuwere modellen zoals Gemma en Llama3 dan in oudere modellen zoals GPT-2 XL. Dit suggereert dat nieuwere architecturen meer expressieve attention-mechanismen hebben die beter in staat zijn om informatie op te halen zonder eerdere verrijking.
Component-afhankelijkheid: Bij het lokaliseren van de "recall"-pad bleek dat het vervangen van de $O$ -matrix en de FFN in de laatste lagen, gecombineerd met de attention van het taak-specifieke model, bijna even goed werkt als het vervangen van het volledige model. Dit impliceert dat de FFN's in de laatste lagen de feitelijke "extractie" van de kennis uitvoeren, terwijl de attention-mechanismen zorgen voor de juiste contextuele selectie.

Betekenis en Impact

Dit paper biedt een doorbraak in het begrijpen van de interne werking van LLMs tijdens het genereren van nieuwe feiten:

Minder Destructieve Analyse: In tegenstelling tot activatie-patching, die informatie kan overschrijven, biedt Dynamic Weight Grafting een manier om causale mechanismen te testen zonder de informatieflow te verstoren.
Nuance in Kennisopslag: Het weerlegt het idee dat kennis slechts op één plek wordt opgeslagen. In plaats daarvan gebruiken modellen een redundant systeem waarbij kennis zowel vroeg (verrijking) als laat (herinnering) kan worden benut.
Toekomstige Richtingen: De methode opent de deur voor het lokaliseren van kennis in meer complexe scenario's (zoals multi-hop redenering) en het begrijpen van hoe modellen omgaan met tegenstrijdige informatie. Het biedt ook inzicht voor kennis-editing technieken, aangezien het specifiek de componenten identificeert die verantwoordelijk zijn voor het opslaan en ophalen van feiten.

Samenvattend toont dit onderzoek aan dat LLMs geen statische kennisbanken zijn, maar dynamische systemen die relationele informatie via meerdere, overlappende paden verwerken en ophalen, waarbij specifieke neurale componenten (FFN's en $O$ -matrices in de laatste lagen) een cruciale rol spelen bij het "herinneren" van nieuwe feiten.

Dynamic Weight Grafting: Localizing Finetuned Factual Knowledge in Transformers

🧠 De "Geheime Schakels" van een AI: Hoe onthoudt een robot nieuwe feiten?

🌱 De Vergelijking: Het "Transplantatie"-Experiment

🗺️ Wat hebben ze ontdekt?

🔍 Waar zit het precies? (De "Orgels" van de AI)

🎯 Waarom is dit belangrijk?

Probleemstelling

Methodologie: Dynamic Weight Grafting

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

A Theory-guided Weighted L2L^2L2 Loss for solving the BGK model via Physics-informed neural networks

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

A Theory-guided Weighted $L^2$ Loss for solving the BGK model via Physics-informed neural networks