In-Run Data Shapley for Adam Optimizer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantisch kookteam leidt dat een perfecte maaltijd (een slim computermodel) bereidt. Je hebt duizenden koks (data-punten) nodig. Sommige koks zijn supersterk, anderen maken de soep te zout, en weer anderen gooien gewoon hun ingrediënten in de prullenbak.

Het probleem? Je wilt weten wie precies de beste koks zijn, zodat je ze kunt blijven inzetten en de slechte kunt ontslaan. Maar het is heel moeilijk om te zeggen: "Jij, kokje, was de reden dat de soep lekker was."

Dit artikel introduceert een nieuwe manier om dat te meten, specifiek voor de moderne, snelle kooktechnieken die we vandaag gebruiken.

Hier is de uitleg in simpele taal:

1. Het oude probleem: De "Standaard" meetlat werkt niet meer

Vroeger gebruikten wetenschappers een meetlat genaamd Shapley-waarde. Dit is een eerlijke manier om te berekenen hoeveel elke kok bijdroeg aan het eindresultaat.

Hoe het werkte: Je liet elke kok apart koken en keek of de soep beter of slechter werd.
Het probleem: Dit kostte eeuwen. Je kon het niet doen met duizenden koks.

Dus bedachten ze een slimme truc: "In-Run". In plaats van alles opnieuw te koken, keken ze tijdens het koken zelf naar wie er goed deed.

De valkuil: Deze oude truc was ontworpen voor een simpele kookmethode (SGD). Maar moderne koks gebruiken een slimme, adaptieve methode (Adam). Deze methode past het tempo en de kracht voortdurend aan op basis van wat er eerder is gebeurd.
Het resultaat: Als je de oude, simpele meetlat (voor SGD) gebruikt op de moderne, slimme koks (Adam), krijg je volledig verkeerde resultaten. Het is alsof je de snelheid van een Formule 1-auto meet met een stoptoets voor een fiets. De cijfers kloppen niet.

2. De oplossing: Een meetlat die "Adam" begrijpt

De auteurs van dit papier zeggen: "Wacht even, de waarde van een kok hangt af van hoe je kookt."
Ze hebben een nieuwe meetlat bedacht: Adam-Aware In-Run Data Shapley.

Stel je voor dat je een slimme assistent hebt die meekijkt met de chef-kok.

Deze assistent weet precies hoe de moderne kookmethode (Adam) werkt.
Hij ziet niet alleen wat de kok doet, maar ook hoe de chef de kracht aanpast op basis van eerdere fouten.
Hierdoor kan hij precies zeggen: "Dit kokje was cruciaal, omdat hij precies op het juiste moment de kracht van de pan heeft aangepast."

3. De magische truc: De "Spook-Gradiënt" (Ghost Approximation)

Nu komt het lastige deel. Om dit nauwkeurig te berekenen, zou je normaal gesproken voor elke kok apart een berekening moeten doen. Dat zou je computer laten crashen (te veel geheugen, te traag).

De auteurs hebben een wiskundige truc bedacht die ze "Linearized Ghost Approximation" noemen.

De analogie: Stel je voor dat je in een drukke keuken staat en je wilt weten hoe hard elke kok duwt. Normaal zou je voor elke kok een aparte sensor moeten plaatsen (te duur).
De truc: In plaats van dat, kijken ze naar de totale trilling van de vloer. Door een slimme wiskundige formule toe te passen, kunnen ze uit die ene trilling afleiden hoeveel elke individuele kok heeft geduwd, zonder dat ze voor iedereen een aparte sensor hoeven te plaatsen.
Het voordeel: Het is net zo snel als normaal koken (95% van de snelheid behouden) en kost geen extra ruimte in je keuken.

4. Wat levert dit op? (De proef op de som)

De auteurs hebben dit getest en het werkt fantastisch:

Precisie: Hun nieuwe methode klopt bijna perfect (99%) met de echte waarheid. De oude methode (SGD) gaf maar 11% correlatie. Dat is een gigantisch verschil.
Snelheid: Het is net zo snel als gewoon trainen. Geen wachttijden.
Praktijk:
- Zoeken naar de beste data: Als je wilt weten welke teksten in een boek de beste antwoorden geven op een vraag, vindt hun methode de juiste teksten, zelfs als de woorden anders zijn (synoniemen). De oude methode raakte de weg kwijt.
- Schoonmaken: Als je wilt weten welke data je kunt weggooien om het model sneller te maken, helpt hun methode om de "rotte appels" te verwijderen zonder de smaak van de soep te verpesten. De oude methode gooide soms de goede koks weg.

Conclusie

Kortom: Moderne AI-modellen gebruiken slimme, aanpasbare optimizers (Adam). De oude manieren om te meten welke data belangrijk is, werken daar niet op.

Deze paper levert een nieuwe, snelle en nauwkeurige meetlat die begrijpt hoe die moderne optimizers werken. Hierdoor kunnen we beter begrijpen wat er in onze AI zit, bias (vooroordeel) opsporen en onnodige data weggooien, allemaal zonder dat het traag wordt. Het is alsof we eindelijk de juiste gereedschappen hebben voor de moderne keuken.

Each language version is independently generated for its own context, not a direct translation.

Titel: In-Run Data Shapley voor de Adam-optimizer

Publicatie: 3rd DATA-FM Workshop @ ICLR 2026, Brazilië
Auteurs: Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu

1. Het Probleem

Betrouwbare data-attributie (het bepalen van de bijdrage van individuele trainingsvoorbeelden aan het modelresultaat) is essentieel voor het verminderen van bias en het optimaliseren van computationele resources. De Shapley-waarde uit de speltheorie wordt beschouwd als de theoretische "gouden standaard" voor eerlijke attributie.

Echter, de exacte berekening van Shapley-waarden vereist het herhaaldelijk opnieuw trainen van het model met verschillende subsets van data, wat computationally onhaalbaar is voor diepe leermodellen. Recent werk heeft "In-Run Data Shapley" geïntroduceerd, wat bijdragen dynamisch schat tijdens één trainingsloop zonder hertraining.

De kernuitdaging: Bestaande In-Run methoden zijn specifiek ontworpen voor Stochastic Gradient Descent (SGD). Ze veronderstellen dat parameterupdates lineaire combinaties zijn van gradients. Moderne deep learning-modellen worden echter bijna uitsluitend getraind met adaptieve optimizers zoals Adam, die gebruikmaken van historische momenten en adaptieve variance-schaling.

Het is onbekend of SGD-gebaseerde proxies geldig zijn voor Adam.
De auteurs tonen aan dat data-attributie inherent afhankelijk is van de gekozen optimizer. SGD-methoden falen volledig bij Adam-training (Pearson correlatie $R \approx 0,11$ ), wat leidt tot misleidende resultaten in moderne trainingspijplijnen.

2. Methodologie

De auteurs stellen een nieuwe methode voor: Adam-Aware In-Run Data Shapley. Deze methode lost de niet-lineariteit en de staat-afhankelijkheid (stateful nature) van de Adam-optimizer op.

A. Theoretische Afleiding

Optimizer-Aware Utility: In plaats van te vertrouwen op de lineaire structuur van SGD, herschrijven de auteurs de utility-functie onder een "fixed-state" veronderstelling. Ze passen een Taylor-ontwikkeling toe op de adaptieve variance-term van Adam.
Gesloten-vorm Schatter: Ze leiden een gesloten-vorm formule af voor de In-Run Data Shapley-waarde onder Adam. In tegenstelling tot SGD-methoden (die gradient-gradient dot-products gebruiken), accumuleert deze methode dot-products tussen de update-richting van Adam en de gradients van de validatie-data.
- Formule (vereenvoudigd): $\phi_z(U) \approx \sum \nabla \ell \cdot \frac{m_t}{\sqrt{v_t} + \epsilon}$ , waarbij $m_t$ en $v_t$ respectievelijk de eerste en tweede momenten zijn.

B. Linearized Ghost Approximation

Een directe implementatie van de bovenstaande formule zou vereisen dat men per-sample gradients expliciet berekent, wat leidt tot een onaanvaardbaar hoog geheugengebruik ( $O(B \times P)$ ).

Oplossing: De auteurs introduceren de Linearized Ghost Approximation.
Techniek: Ze lineariseren de niet-lineaire schalingsterm van Adam (de noemer $\sqrt{v_t + \epsilon}$ ) door een eerste-orde Taylor-ontwikkeling rond de vorige variance-schatting.
Resultaat: Dit stelt de Adam-update in staat om te worden uitgedrukt als een lineaire combinatie van de huidige gradient en historische momenten. Hierdoor kunnen alle paarwise gradient dot-products worden berekend in één enkele backpropagation-pass, zonder dat per-sample gradients expliciet hoeven te worden opgeslagen.

3. Belangrijkste Bijdragen

Optimizer-Aware Data Attribution: Het aantonen dat data-waarde geen intrinsieke eigenschap van een dataset is, maar fundamenteel gekoppeld is aan de optimalisatietrajectorie. SGD-proxies zijn onbruikbaar voor Adam (zeer lage correlatie).
Eerste Gesloten-vorm Schatter voor Adam: De ontwikkeling van de eerste wiskundig onderbouwde, tractabele formule voor In-Run Data Shapley die specifiek is ontworpen voor de dynamiek van Adam.
Schalbare Berekening: De introductie van de "Linearized Ghost" techniek die het geheugenniveau gelijk houdt aan standaard training (geen extra overhead) en hoge doorvoer behoudt.
Empirische Validatie: Uitgebreide experimenten die aantonen dat de methode bijna perfecte trouw (fidelity) heeft tot de grond-waarheid (ground truth) en superieur presteert in downstream taken.

4. Resultaten

De auteurs hebben hun methode getest op diverse taken en datasets (o.a. DistilGPT-2, DistilBERT, SST-2, WikiText-2).

Fidelity (Nauwkeurigheid):
- De Adam-aware methode bereikt een correlatie van $R > 0,99$ met de grond-waarheid (gemeten via Truncated Monte Carlo retraining).
- Vergelijking met SGD-proxies: SGD-proxies hebben een correlatie van slechts $R \approx 0,74$ (en in sommige analyses zelfs $0,11$) met de werkelijke bijdrage onder Adam.
Computational Efficiency:
- Doorvoer: De methode behoudt ~95% van de standaard trainingsdoorvoer (87,85 samples/sec vs. 92,41 voor standaard training).
- Geheugen: Het piekgeheugengebruik is nagenoeg identiek aan standaard training (5179 MB vs. 5179 MB), terwijl een naïeve implementatie (Adam-Direct) 150% meer geheugen verbruikt en 3,6x trager is.
Downstream Taken:
- Semantische Bronidentificatie: Bij het vinden van de oorspronkelijke trainingsbron van een query, presteert de Adam-methode aanzienlijk beter dan SGD-methoden, vooral bij parafrases en semantisch vergelijkbare onderwerpen.
- Data Pruning (SST-2): Bij het verwijderen van de "slechtste" 10-30% van de data gebaseerd op de attributie-scores, verbetert de Adam-methode de validatie-accuraatheid consistent. SGD-gebaseerde pruning leidt tot een sterke daling in prestaties, wat aantoont dat attributie-uitspraken niet overdraagbaar zijn tussen optimizers.

5. Betekenis en Conclusie

Dit paper legt een kritieke brug tussen data-attributie-theorie en de praktijk van modern deep learning. Het bewijst dat het toepassen van SGD-gebaseerde attributiemethoden op modellen die met Adam worden getraind, fundamenteel foutief is en tot misleidende conclusies leidt.

De voorgestelde Adam-Aware In-Run Data Shapley maakt het voor het eerst mogelijk om data-waarden nauwkeurig en efficiënt te berekenen tijdens het trainen van grote modellen met adaptieve optimizers. Dit opent de deur voor:

Betere data-curatie en pruning in real-time.
Het identificeren van schadelijke of vooroordeel-bevattende data in grote datasets.
Het begrijpen van hoe specifieke data-punten de trainingsdynamiek van moderne LLM's beïnvloeden.

De methode combineert theoretische rigoureusheid met praktische haalbaarheid, waardoor het een essentieel hulpmiddel wordt voor het bouwen van betrouwbaardere en efficiëntere AI-systemen.