Gradient Atoms: Unsupervised Discovery, Attribution and Steering of Model Behaviors via Sparse Decomposition of Training Gradients

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar mysterieuze kok hebt die net een nieuwe receptenboek heeft geleerd. Je wilt weten: "Wat heeft deze kok precies geleerd?" en "Hoe kan ik hem dwingen om meer taart en minder soep te maken?"

Tot nu toe was de enige manier om dit te achterhalen om elke afzonderlijke pagina in het receptenboek te bekijken en te vragen: "Heb jij deze specifieke taartpagina geleerd?" Dit is echter inefficiënt en vergeten dat koken vaak gaat over patronen, niet over individuele bladzijden.

Deze paper introduceert een nieuwe methode genaamd Gradient Atoms (Gradiënt-Atomen). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Regendruppel" vs. De "Stroom"

Stel je voor dat een rivier ontstaat. De oude manier van kijken (Training Data Attribution) zegt: "Welke specifieke regendruppel heeft ervoor gezorgd dat deze rivier hier stroomt?"
Dat is een rare vraag. Een rivier wordt niet veroorzaakt door één druppel, maar door duizenden druppels die allemaal in dezelfde richting stromen.

In het geval van AI-modellen: Als een model leert rekenen, is dat niet omdat het één specifiek voorbeeld van "2+2=4" heeft gezien. Het is omdat het duizenden voorbeelden heeft gezien die allemaal in dezelfde richting duwen. De "leermethode" zit in die gezamenlijke duw, niet in het individuele voorbeeld.

2. De Oplossing: De "Lego-Bak"

De auteurs zeggen: "Laten we stoppen met kijken naar individuele bladzijden en kijken naar de richting waarin het model leert."

Ze nemen alle trainingstijd (het moment waarop het model leert) en kijken naar de "duwkracht" (de gradiënt) die elk voorbeeld op het model uitoefent. Vervolgens gebruiken ze een slimme wiskundige techniek om al die duwkrachten te ontleden in losse, schone bouwstenen. Ze noemen deze bouwstenen Atomen.

Analogie: Stel je een grote bak met gekleurd Lego voor. Sommige stukjes zijn rood, sommige blauw. De oude methode zocht naar één specifiek rood stukje. De nieuwe methode (Gradient Atoms) sorteert de hele bak en zegt: "Ah, hier is een stapel rode blokken die samen een auto vormen, en hier is een stapel blauwe blokken die een boot vormen."

3. Wat Vonden Ze? (De "Atomen")

Ze lieten de computer 500 van deze "bouwstenen" vinden, zonder dat ze ooit vertelden wat ze moesten zoeken. Het resultaat was verbazingwekkend:

Sommige atomen vertegenwoordigden rekenvaardigheden.
Andere waren grammatica-correcties.
Er waren atomen voor ja/nee-vragen, code schrijven, en zelfs weigeren om antwoorden te geven als de vraag onduidelijk was.

Het mooie is: de computer ontdekte deze patronen volledig vanzelf, zonder dat mensen ze eerst moesten benoemen. Het is alsof je een doos met onbekende gereedschappen opent en eruit haalt: "Ah, dit is een hamer, dit is een schroevendraaier," zonder dat je de handleiding hebt gelezen.

4. De Kracht: Het "Stuurwiel"

Dit is het coolste deel. Deze gevonden bouwstenen (atomen) werken niet alleen als een spiegel om te zien wat het model heeft geleerd, maar ook als een stuurwiel.

Stel je voor dat je een auto hebt die soms per ongeluk te veel naar links slaat.

Met deze methode kun je de "linkse atom" vinden.
Als je die atom aftrekt, stopt de auto met naar links slaan (hij weigert niet meer als je een vraag stelt).
Als je die atom optelt, gaat de auto extreem naar links (hij maakt plotseling veel meer lijsten met opsommingstekens).

Voorbeelden uit het onderzoek:

Ze vonden een "lijst-atom". Als ze deze activeerden, veranderde het model van 33% naar 94% in het maken van opsommingstekens.
Ze vonden een "weiger-atom". Door deze te verwijderen, stopte het model volledig met het weigeren van vragen (van 50% naar 0%).

Samenvatting in één zin

In plaats van te vragen "Welk document heeft dit veroorzaakt?", kijken deze onderzoekers naar de gezamenlijke "duwkracht" van duizenden documenten, vinden ze de onderliggende patronen (de atomen) en gebruiken die patronen als een afstandsbediening om het gedrag van de AI precies te sturen, zonder dat ze eerst hoeven te raden wat ze zoeken.

Het is alsof je niet meer gissen doet naar wat een kok heeft geleerd, maar direct de knoppen op zijn keukenkastje kunt vinden om "meer taart" of "minder soep" te maken.

Each language version is independently generated for its own context, not a direct translation.

Titel: Gradient Atoms: Ongecontroleerde Ontdekking, Attributie en Sturing van Modelgedrag via Sparse Decompositie van Trainingsgradiënten

1. Het Probleem: De Beperkingen van Bestaande Methodes

Het paper identificeert een fundamenteel probleem in de bestaande methoden voor Training Data Attribution (TDA). Traditionele TDA-methoden (zoals Influence Functions) zijn supervised en werken op documentniveau:

Vraagstelling: "Welk specifiek trainingsdocument is verantwoordelijk voor dit specifieke modelgedrag?"
Probleem: Fine-tuning leert niet van individuele documenten in isolatie, maar van gedeelde update-richtingen die door clusters van honderden voorbeelden worden gegenereerd. Het toeschrijven van gedrag aan één document is analoog aan het toeschrijven van de loop van een rivier aan één regendruppel.
Praktische nadelen: Bestaande methoden vereisen dat de gebruiker van tevoren weet welke gedragingen ze willen analyseren (query). Dit leidt tot een dure $O(Q \times N)$ scoring-pass (waarbij $Q$ het aantal queries en $N$ het aantal documenten is), wat onhaalbaar is voor het ontdekken van onbekende of onverwachte gedragingen.

2. Methodologie: Gradient Atoms

De auteurs stellen een nieuwe, onbeheerde (unsupervised) aanpak voor die de trainingsgradiënten decomposeert in gedeelde update-richtingen ("atomen"). De pijplijn bestaat uit vijf stappen:

Per-document Gradiënt Extractie: Voor elk trainingsdocument $x_i$ wordt de gradiënt van de cross-entropy-verliesfunctie berekend ten opzichte van de modelparameters ( $g_i$ ).
EKFAC Projectie en Preconditie: De ruwe gradiëntenruimte is anisotroop (sommige richtingen hebben een hogere kromming dan andere). Om dit te corrigeren en semantische structuur te behouden, projecteren de auteurs de gradiënten in een preconditie-eigenruimte met behulp van EKFAC (een benadering van de Fisher-informatiematrix). Dit zorgt ervoor dat een eenheidsstap in elke richting een vergelijkbare verandering in verlies veroorzaakt.
Sparse Dictionary Learning: De geprojecteerde gradiënten worden ontbonden in een woordenboek van atomen ( $D$ ) via sparse dictionary learning. Het doel is om elke gradiënt te benaderen als een lineaire combinatie van slechts een paar atomen: $\hat{g}_i \approx \sum \alpha_{ij} d_j$ . De sparsiteitsstraf zorgt ervoor dat elk atoom één specifiek patroon of gedrag vastlegt in plaats van een mengsel van verschillende gedragingen.
Coherentie Scoring: Voor elk atoom wordt een coherentie-score berekend op basis van de hoek tussen de ruwe gradiënten van de activerende documenten. Een hoge coherentie duidt op een gedeeld computationeel motief in de originele gewichtenruimte.
Unprojectie naar Stuurvectoren: Elk atoom (een vector in de geprojecteerde ruimte) wordt teruggeprojecteerd naar de volledige parameter-ruimte. Deze vectoren kunnen direct worden gebruikt als stuurvectoren ( $v_j$ ) om het modelgedrag te manipuleren via gewichtsverstoringen: $\theta_{new} = \theta \pm \alpha \cdot v_j$ .

3. Belangrijkste Bijdragen

Paradigmaverschuiving: De auteurs verschuiven de focus van "attributie per document" naar "decompositie van de gradiëntenruimte in gedeelde update-richtingen".
Gradient Atoms Framework: Een volledig onbeheerde methode die kandidaat-gedragingen ontdekt puur op basis van trainingsgradiënten, zonder labels, meetfuncties of query-document scoring.
Actievere Atomen: Gedemonstreerd dat de ontdekte atomen niet alleen interpreteerbaar zijn, maar ook direct fungeren als effectieve stuurvectoren voor model-editing.

4. Resultaten en Experimenten

De methode werd getest op een Gemma-3 4B IT model, gefinetuned op 5.000 instructie-respons paren (LoRA, rank 8).

Ontdekking van Atomen:
- Uit 500 ontdekte atomen hadden de 5 hoogste coherentie-atomen (>0.5) duidelijke, interpreteerbare taken zoals: Korte feitelijke QA, Grammatica-bewerking, Ja/Neen-classificatie, Rekenen en Multi-categorie classificatie.
- De atomen clusteren op basis van hoe het model reageert (taaktype) en niet waarover het reageert (onderwerp).
- Zelfs specifieke formaten (bijv. opsommingstekens vs. genummerde lijsten) en gedragingen zoals "systematische weigering" (refusal) werden als aparte atomen ontdekt.
Gedragsturing (Steering):
- De auteurs toonden aan dat het toepassen van deze atomen als gewichtsverstoringen leidt tot grote, controleerbare verschuivingen in het modelgedrag.
- Voorbeelden van effecten:
  - Opsommingstekens: Verhoging van het gebruik van opsommingstekens van 33% naar 94% (+61pp), of volledig onderdrukken naar 0%.
  - Systematische Weigering: Volledige onderdrukking van weigeringsgedrag van 50% naar 0%.
  - Code Generatie: Verhoging van 42% naar 58% of verlaagde naar 28%.
- Observatie: Onderdrukking van gedrag bleek vaak makkelijker en effectiever te zijn dan versterking (amplificatie), wat suggereert dat het onderbreken van een computationeel pad eenvoudiger is dan het versterken ervan tegen concurrerende paden.

5. Betekenis en Conclusie

"Gradient Atoms" biedt een krachtig nieuw perspectief op het begrijpen en manipuleren van taalmodellen:

Efficiëntie: De methode elimineert de noodzaak voor dure, query-afhankelijke scoring. Eén decompositie onthult honderden mogelijke gedragingen tegelijk.
Interpreteerbaarheid zonder labels: Het is mogelijk om complexe taaktypen te ontdekken en te isoleren zonder enige menselijke annotatie of vooraf gedefinieerde zoekopdrachten.
Controle: Het koppelt onbeheerde gedragsontdekking direct aan controleerbare model-editing. De ontdekte "atomen" zijn niet alleen theoretische constructen, maar functioneren als praktische stuurknoppen om het gedrag van het model in de gewenste richting te duwen of te onderdrukken.

De auteurs concluderen dat deze aanpak de weg vrijmaakt voor het schalen naar duizenden atomen, het vergelijken van gedrag over verschillende modellen heen, en het ontwikkelen van geavanceerde methoden voor het selecteren van de juiste verstoringsterkte ( $\alpha$ ).

Gradient Atoms: Unsupervised Discovery, Attribution and Steering of Model Behaviors via Sparse Decomposition of Training Gradients

1. Het Probleem: De "Regendruppel" vs. De "Stroom"

2. De Oplossing: De "Lego-Bak"

3. Wat Vonden Ze? (De "Atomen")

4. De Kracht: Het "Stuurwiel"

Samenvatting in één zin

Titel: Gradient Atoms: Ongecontroleerde Ontdekking, Attributie en Sturing van Modelgedrag via Sparse Decompositie van Trainingsgradiënten

1. Het Probleem: De Beperkingen van Bestaande Methodes

2. Methodologie: Gradient Atoms

3. Belangrijkste Bijdragen

4. Resultaten en Experimenten

5. Betekenis en Conclusie

Meer zoals dit

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers