Bayesian Influence Functions for Hessian-Free Data Attribution

Each language version is independently generated for its own context, not a direct translation.

De "Bayesische Invloedfunctie": Een Nieuwe Manier om te Begrijpen Welk Leerboek een Student het Meest Helpt

Stel je voor dat je een heel slimme, maar mysterieuze student hebt: een Kunstmatige Intelligentie (AI). Deze student heeft duizenden boeken gelezen om een examen te halen. Nu wil je weten: Welk specifiek boek heeft deze student het meest geholpen om dit ene moeilijke vraagstuk op te lossen? Of andersom: Welk boek heeft de student juist in de war gebracht?

Dit noemen we in de wereld van AI "Data Attribution" (het toewijzen van invloed aan data).

Het Oude Probleem: De Onmogelijke Rekening

Vroeger gebruikten wetenschappers een methode die ze "Invloedfuncties" noemden. Het idee was simpel: "Als we één boek uit de stapel halen, hoe verandert dan het antwoord van de student?"

Maar er was een groot probleem. Om dit precies te berekenen, moesten ze een enorme, ingewikkelde wiskunderekening maken (de zogenaamde "Hessiaan").

De Analogie: Stel je voor dat je probeert de precieze invloed van één woord in een boek te meten, maar het boek is zo groot dat het in duizenden kleine stukjes valt die allemaal met elkaar verbonden zijn. De oude wiskundige methode probeerde dit op te lossen door een "omgekeerde" berekening te doen.
Het probleem: Bij moderne AI's (die miljarden parameters hebben) is die "omgekeerde berekening" onmogelijk. Het is alsof je probeert een berg te verplaatsen door hem met je pink te duwen. Het werkt niet, of het kost zoveel tijd dat je er nooit klaar mee bent.

De Nieuwe Oplossing: De "Bayesische Invloedfunctie" (BIF)

De auteurs van dit paper hebben een slimme nieuwe manier bedacht, die ze de Bayesische Invloedfunctie (BIF) noemen. In plaats van te proberen de onmogelijke omgekeerde berekening te doen, kijken ze naar het gedrag van de AI op een andere manier.

De Creatieve Analogie: De "Worstelende Student"

Stel je voor dat je de student niet één keer laat studeren, maar dat je hem duizenden keren laat studeren, elke keer met een heel klein beetje variatie:

Soms laat je hem net iets meer op boek A letten.
Soms net iets minder.
Soms verandert je de volgorde van de zinnen.

Je doet dit met een speciale techniek (die ze SGLD noemen, klinkt als een soort dansstap, maar is eigenlijk een manier om willekeurig rond te lopen in de wereld van mogelijke antwoorden).

Hoe werkt het nu?
In plaats van te rekenen met een onmogelijke formule, kijken de onderzoekers naar de correlatie:

Als de student bij variatie 1 (waar boek A belangrijk was) een goed antwoord gaf, en bij variatie 2 (waar boek A minder belangrijk was) een slecht antwoord gaf, dan weten we: Boek A was cruciaal!
Ze meten niet de "kracht" van één specifieke berekening, maar kijken naar hoe de resultaten varieren als je de input een beetje schudt.

Dit is als het meten van de invloed van een speler in een voetbalteam. In plaats van te proberen de exacte wiskunde van elke beweging te berekenen, kijken ze naar het teamgedrag: "Als deze speler niet meedoet, valt het team uit elkaar. Dan weten we dat hij belangrijk is."

Waarom is dit zo geweldig?

Het werkt voor alles: De oude methode faalde bij complexe AI's. Deze nieuwe methode werkt voor elk type AI, of het nu een beeldherkenningsprogramma is of een grote taalmodel (zoals ChatGPT). Het maakt niet uit hoe groot de "berg" is; je kunt er gewoon omheen lopen in plaats van hem te verplaatsen.
Het is sneller voor grote taken: Als je wilt weten welke woorden in een tekst belangrijk zijn (bijvoorbeeld in een heel lang verhaal), moet je dit voor elk woord apart doen. De oude methode zou hier dagen voor nodig hebben. De nieuwe methode kan dit in één keer doen, alsof je een hele groep studenten tegelijk laat studeren in plaats van één voor één.
Het is eerlijker: Omdat de oude methode vaak "afkortingen" moest gebruiken (wat leidde tot fouten), gaf ze soms verkeerde antwoorden. De nieuwe methode kijkt naar de echte variatie in de resultaten, wat een nauwkeuriger beeld geeft van wat de AI echt heeft geleerd.

Samenvattend in één zin

De auteurs hebben een manier bedacht om te begrijpen welke stukjes data een AI het meest hebben beïnvloed, door niet te proberen een onmogelijke wiskunderekening te maken, maar door te kijken hoe de AI reageert als je de training een beetje "schudt" – net als het testen van een brug door er niet één zware vrachtwagen overheen te sturen, maar door te kijken hoe de brug trilt als er duizenden mensen eroverheen lopen.

Dit maakt het mogelijk om te begrijpen wat AI's echt "leren" en waar ze vandaan komen, zelfs bij de grootste en slimste modellen van vandaag.

Each language version is independently generated for its own context, not a direct translation.

Titel: Bayesiaanse Invloedsfuncties voor Hessiaan-vrije Data-attribution

Auteurs: Philipp Alexander Kreer, Wilson Wu, Maxwell Adam, Zach Furman, Jesse Hoogland.
Datum: 3 maart 2026 (Preprint).

1. Het Probleem

Training Data Attribution (TDA) is een fundamentele vraag in de interpretatie en veiligheid van AI: hoe beïnvloedt individuele trainingsdata het gedrag van diepe neurale netwerken (DNN's)?

Klassieke Invloedsfuncties (IF): De traditionele aanpak gebruikt invloedsfuncties (Cook, 1977) om te meten hoe een model reageert op infinitesimale verstoringen in de trainingsverdeling. De formule vereist echter de inverse van de Hessiaan-matrix ( $H^{-1}$ ).
Beperkingen bij DNN's:
1. Niet-inverteerbare Hessiaan: DNN's hebben vaak ontaarde (degenerate) verlieslandschappen met niet-inverteerbare Hessiaans, wat de theoretische voorwaarden voor klassieke IF's schendt.
2. Rekenkundige onhaalbaarheid: Voor modellen met miljarden parameters is het direct berekenen of inverteren van de Hessiaan onmogelijk.
3. Structuur-bias: Bestaande oplossingen (zoals EK-FAC) gebruiken specifieke benaderingen (bijv. Kronecker-factoren) die structurele aannames doen en beperkt zijn tot bepaalde layertypes (zoals Lineair en Conv2D), waardoor attention- en normalisatielagen worden genegeerd.

2. Methodologie: Local Bayesian Influence Functions (BIF)

De auteurs stellen een principieel alternatief voor: de Local Bayesian Influence Function (BIF). In plaats van een punt-schatting en Hessiaan-inversie te gebruiken, benaderen ze de invloed via statistieken van het verlieslandschap.

Van Punt naar Distributie:
- Klassieke IF's kijken naar de sensitiviteit van een observable $\phi(w^*)$ bij een enkel optimaal punt $w^*$ .
- BIF vervangt dit door de verwachtingswaarde over een temperatuur-gereguleerde Bayesiaanse posterior: $E[\phi(w)]$ .
- De invloed wordt gedefinieerd als de covariantie tussen het verlies van een trainingsvoorbeeld en de observable over deze posterior:
  $\text{BIF}(z_i, \phi) = -\text{Cov}(\ell_i(w), \phi(w))$
- Dit elimineert de noodzaak om de Hessiaan direct te berekenen of in te vullen.
Lokalisatie (Local BIF):
- Omdat het berekenen van een globale posterior voor DNN's onhaalbaar is, definiëren de auteurs een lokale posterior rondom een bestaand trainingscheckpoint $w^*$ .
- Dit wordt gedaan door de prior te vervangen door een isotrope Gaussische verdeling met precisie $\gamma$ gecentreerd rond $w^*$ :
  $p_\gamma(w | D_{train}, w^*) \propto \exp\left(-\sum \ell_i(w) - \frac{\gamma}{2}\|w - w^*\|^2\right)$
- Dit is equivalent aan het toevoegen van een $\ell_2$ -regularisatie, wat de Hessiaan regulariseert (vergelijkbaar met een gedempte Hessiaan in klassieke methoden), maar nu binnen een Bayesiaanse raamwerk dat hogere-orde interacties vastlegt.
Schattingsalgoritme (SGLD):
- De covariantie wordt geschat via Stochastic Gradient Langevin Dynamics (SGLD).
- Het algoritme start bij $w^*$ en voert updates uit met mini-batch gradients van de trainingsdata en een localiserende potentiaal, plus Gaussisch ruis.
- Door meerdere onafhankelijke SGLD-ketens te draaien, worden loss-waarden verzameld om de covariantie te schatten.
- Schaalbaarheid: Deze methode is architectuur-agnostisch en vereist geen "fit-fase" (zoals bij EK-FAC), maar vereist wel forward-passes over de dataset tijdens het sampling-proces.

3. Belangrijkste Bijdragen

Theoretische Uitbreiding: Een formele afleiding van lokale Bayesiaanse invloedsfuncties die toepasbaar zijn op individuele checkpoints van diepe neurale netwerken. Het paper toont aan dat BIF asymptotisch reduceert tot klassieke IF voor niet-singuliere modellen, waardoor het een natuurlijke generalisatie is.
Praktische Schatter: Een implementatie gebaseerd op SGMCMC (Stochastic Gradient Markov Chain Monte Carlo) die batch-verwerking ondersteunt, architectuur-agnostisch is en schaalt tot modellen met miljarden parameters.
Per-token Analyse: De methode maakt het mogelijk om per-token invloeden te berekenen in autoregressieve taalmodellen. In tegenstelling tot klassieke methoden die per-token analyse inefficiënt maken (door aparte backward-passes), kan BIF de volledige token-token invloedsmatrix in één keer berekenen via parallelle forward-passes.
Empirische Validatie: Uitgebreide experimenten die aantonen dat BIF state-of-the-art resultaten behaalt bij het voorspellen van hertrainingsresultaten, met superieure schaalbaarheid voor grote modellen.

4. Resultaten

Kwalitatieve Analyse:
- Beeldmodellen (Inception-v1): BIF identificeert trainingssamples die visueel en semantisch vergelijkbaar zijn met de query (bijv. terriërs voor een terriër-query), vergelijkbaar met EK-FAC.
- Taalmodellen (Pythia-2.8B): De per-token BIF onthult semantische relaties tussen tokens, zoals vertalingen ('She' ↔ 'elle'), spellingen ('3' ↔ 'three') en conceptuele verwantschappen.
Kwantitatieve Evaluatie (Retraining Experiments):
- Gebruikmakend van de Linear Datamodelling Score (LDS), wordt gemeten hoe goed TDA-methoden het effect van data-interventies voorspellen.
- Op kleine modellen (ResNet-9 op CIFAR-10) presteert BIF vergelijkbaar met EK-FAC (SOTA), en zelfs iets beter in regimes met weinig data.
- Bij taalmodellen (Pythia-14M) presteert BIF momenteel iets minder goed dan EK-FAC, wat de auteurs toeschrijven aan de uitdagingen bij het samplen van de posterior in taalmodellen en hyperparameter-sensitiviteit.
Schaalbaarheid (Pythia Suite):
- Tijd: Voor modellen met miljarden parameters (bijv. Pythia-2.8B) is BIF twee ordes van grootte sneller dan EK-FAC. EK-FAC heeft een hoge initiële "fit"-kost (eigendecompositie van Kronecker-factoren) die niet afhangt van het aantal queries, terwijl BIF geen fit-fase heeft.
- Geheugen: BIF heeft een lagere geheugenvraag voor grote modellen omdat het geen structurele componenten (zoals eigenbases) hoeft op te slaan, maar alleen de loss-traces.
- Per-token efficiëntie: BIF is uniek geschikt voor fijnmazige attributie (token-tot-token), terwijl klassieke methoden hiervoor onpraktisch zijn.

5. Betekenis en Conclusie

Dit paper introduceert een paradigmaverschuiving in data-attribution: van een punt-schatting (Hessiaan-inversie) naar een distributie-benadering (covariantie over een lokale posterior).

Hessiaan-vrij: Het lost het fundamentele probleem van niet-inverteerbare Hessiaans in DNN's op zonder structurele bias in te voeren.
Toekomstgericht: De methode is toepasbaar op elk differentieerbaar model, inclusief attention-mechanismen en normalisatielagen die door EK-FAC worden genegeerd.
Praktische impact: Het biedt een schaalbare oplossing voor het begrijpen van hoe specifieke data-punten (en zelfs tokens) het gedrag van enorme taalmodellen beïnvloeden, wat cruciaal is voor debugging, curriculaire ontwerp en AI-veiligheid.

De auteurs erkennen dat de nauwkeurigheid van BIF afhankelijk is van de kwaliteit van de SGLD-sampling en dat er nog onderzoek nodig is om de optimale hyperparameters (zoals inverse temperatuur $\beta$ en localisatie-strength $\gamma$ ) voor taalmodellen te bepalen. Desalniettemin biedt de lokale BIF een robuust, schaalbaar en theoretisch onderbouwd alternatief voor de huidige stand van de techniek.

Bayesian Influence Functions for Hessian-Free Data Attribution

Het Oude Probleem: De Onmogelijke Rekening

De Nieuwe Oplossing: De "Bayesische Invloedfunctie" (BIF)

Waarom is dit zo geweldig?

Samenvattend in één zin

Titel: Bayesiaanse Invloedsfuncties voor Hessiaan-vrije Data-attribution

1. Het Probleem

2. Methodologie: Local Bayesian Influence Functions (BIF)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models