Analyzing Error Sources in Global Feature Effect Estimation

Each language version is independently generated for its own context, not a direct translation.

De Kern: Waarom zijn onze "uitleggers" soms onbetrouwbaar?

Stel je voor dat je een zeer slimme, maar mysterieuze voorspeller hebt (een AI-model). Deze voorspeller kan zeggen of een patiënt ziek is, of een lening veilig is, of een huis goedkoop is. Maar niemand weet hoe hij precies tot zijn conclusie komt; hij is een "zwarte doos".

Om te begrijpen waarom hij zo voorspelt, gebruiken wetenschappers hulpmiddelen zoals PD-kaarten en ALE-kaarten.

De Analogie: Stel je voor dat je een chef-kok wilt uitleggen waarom zijn soep zo lekker is. Je maakt een kaartje: "Als je meer peper toevoegt, wordt de soep pittiger." Dit is een globaal effect. Het vertelt je hoe één ingrediënt (bijv. peper) de uitkomst beïnvloedt, gemiddeld over de hele pot soep.

Het probleem is: deze kaarten zijn niet perfect. Ze zijn schattingen. En zoals elke schatting, kunnen ze fouten bevatten. De auteurs van dit paper (Timo Heiß en collega's) hebben onderzocht waar deze fouten vandaan komen en hoe we ze kunnen minimaliseren.

De Drie Bronnen van "Onzin" (Fouten)

De onderzoekers hebben de fouten in deze kaarten opgesplitst in vier soorten, net als bij het bakken van een taart:

Het Model is Slecht (Model Bias):
- Vergelijking: De chef-kok zelf weet niet hoe te koken. Hij gebruikt de verkeerde recepten.
- Betekenis: Als het AI-model de werkelijkheid niet goed nabootst, zal de uitleg (de kaart) ook onjuist zijn. Dit is de grootste foutbron.
Het Model is Te Zelfverzekerd (Model Variance):
- Vergelijking: Je vraagt 10 verschillende koks om een soeprecept te bedenken met dezelfde ingrediënten. De één doet heel veel peper, de ander heel weinig. De "gemiddelde" kaart is dan onstabiel.
- Betekenis: Als je het model een paar keer opnieuw traint met een beetje andere data, verandert de uitleg soms enorm. Dit is "ruis".
Te Weinig Data (Estimation Bias & Variance):
- Vergelijking: Je vraagt aan slechts 3 mensen of de soep te zout is. Dat is niet representatief. Als je 1000 mensen vraagt, is het antwoord betrouwbaarder.
- Betekenis: De kaarten worden gemaakt op basis van een eindige dataset. Als je te weinig data hebt, is de kaart wazig of vertekend.

Het Grote Dilemma: Gebruik je de "Oefen" of de "Toets"?

Dit is het belangrijkste praktische vraagstuk dat dit paper beantwoordt.

Optie A: Trainingsdata (De Oefenpoging). Je gebruikt dezelfde data om het model te leren én om de uitleg te maken.
- Voordeel: Je hebt veel data (de hele dataset).
- Nadeel: Het model heeft de data al "geleerd" (misschien zelfs uit het hoofd geleerd, wat "overfitting" heet). Je vreest dat de uitleg dan alleen maar laat zien wat het model heeft uit het hoofd geleerd, niet wat het echt begrijpt.
Optie B: Houd-out data (De Toets). Je gebruikt een stukje data dat het model nooit heeft gezien om de uitleg te maken.
- Voordeel: Het model kan niet "cheaten". De uitleg zou eerlijker moeten zijn.
- Nadeel: Je hebt minder data (slechts 20% van de dataset).

Wat zeggen de onderzoekers?
Ze hebben duizenden simulaties gedaan (virtuele experimenten) en kwamen tot een verrassend resultaat:

Gebruik gewoon de hele dataset (de "Oefenpoging")!

Waarom?
De onderzoekers ontdekten dat de "gevaarlijke" fout die ontstaat door het model te gebruiken op data die het al kent (overfitting), in de praktijk verwaarloosbaar klein is.
De voordeel van de grote steekproef (meer data = een scherpere, rustigere kaart) weegt veel zwaarder dan het kleine risico dat het model een beetje "geleerd" heeft.

Analogie: Het is beter om een kaart te tekenen op basis van 10.000 metingen (ook al is de meetinstrument een beetje scheef), dan om een kaart te tekenen op basis van slechts 2.000 metingen (die wel perfect zijn, maar te weinig zijn om een betrouwbaar beeld te geven). De "ruis" door te weinig data is veel erger dan de "bias" door overfitting.

De "Cross-Validation" (De Super-Loss)

Er is nog een derde optie die de onderzoekers aanbevelen: Cross-Validation (CV).

Hoe werkt het? Je deelt de data in stukjes. Je leert het model op stukje A, test op B. Dan leer je op B, test op A. En zo verder. Uiteindelijk smelt je alle uitleggen samen.
Het Resultaat: Dit is vaak de beste methode, vooral als het model erg complex is en snel "overfit". Het combineert het voordeel van veel data met de eerlijkheid van het testen op onbekende data. Het werkt als een "gemiddelde" van alle mogelijke scenario's, waardoor de kaart superstabiel wordt.

Specifiek voor ALE (De Gevoelige Kaart)

Er zijn twee soorten kaarten: PD en ALE.

PD is robuust.
ALE is extreem gevoelig voor het aantal data-punten.
- Vergelijking: Stel je voor dat je een berg beklimt. PD kijkt naar de gemiddelde helling. ALE kijkt naar elke kleine steen op het pad. Als je te weinig stenen ziet (te weinig data), mis je de helling volledig.
- Advies: Voor ALE is het cruciaal om zoveel mogelijk data te gebruiken. Gebruik nooit een klein stukje "testdata" voor ALE, tenzij je zeker weet dat je genoeg data overhoudt.

Samenvatting in Eén Zin

Als je wilt begrijpen hoe een AI-model werkt, maak dan je uitlegkaarten op basis van alle beschikbare data (of gebruik een slimme "Cross-Validation" methode); het is veiliger en nauwkeuriger dan een klein stukje data apart te houden, omdat de winst aan data veel belangrijker is dan het kleine risico dat het model te goed heeft "geleerd".

Each language version is independently generated for its own context, not a direct translation.

Titel: Analyse van Foutbronnen bij de Schatting van Globale Feature-effecten

Auteurs: Timo Heiß, Coco Bögel, Bernd Bischl en Giuseppe Casalicchio (LMU München & MCML).

1. Probleemstelling

Globale feature-effectmethodes, zoals Partial Dependence (PD) en Accumulated Local Effects (ALE), zijn standaardtools voor het interpreteren van "black-box" machine learning-modellen. Ze visualiseren hoe een of meer kenmerken de voorspellingen van een model beïnvloeden.

Echter, deze methodes zijn slechts schattingen van de onderliggende waarheid. Hun betrouwbaarheid hangt af van meerdere foutbronnen die tot nu toe grotendeels onontgonnen terrein zijn. Een specifiek, praktisch relevant vraagstuk dat onbeantwoord blijft, is of men feature-effecten moet schatten op trainingsdata of op holdout-data (validatie/testset).

De dilemma's: Practici twijfelen tussen het gebruik van trainingsdata (grootere steekproefomvang, maar risico op overfitting-bias) en holdout-data (theoretisch schoner, maar kleinere steekproefomvang en hogere variantie).
Het gat in de literatuur: Bestaand werk focust vaak op extrapolatie bij afhankelijke features of aggregatiebias, maar er ontbreekt een systematische, schatting-niveau analyse die de bias en variantie van PD en ALE ontrafelt in termen van modelkarakteristieken, data-selectie en steekproefomvang.

2. Methodologie

De auteurs hanteren een combinatie van theoretische afleiding en uitgebreide empirische validatie.

Theoretisch Kader

De kern van de theoretische bijdrage is een volledige MSE-decompositie (Mean Squared Error) voor zowel PD als ALE-schattingen. De totale fout wordt opgesplitst in vier componenten:

Model Bias: De systematische afwijking van het gefitte model $\hat{f}$ ten opzichte van de ware functie $f$ .
Schatting Bias (Estimation Bias): De bias geïntroduceerd door het gebruik van eindige data voor de Monte Carlo-integratie (bij PD) of binning (bij ALE).
- Voor PD is deze bias nul bij holdout-data, maar kan hij optreden bij trainingsdata.
- Voor ALE bestaat er een "discretisatiebias" (door binning) en een bias als bins leeg zijn ( $n_S(k)=0$ ).
Model Variantie: De variabiliteit in de feature-effecten veroorzaakt door het trainen van het model op verschillende datasets.
Schatting Variantie (Estimation Variance): De variabiliteit veroorzaakt door het gebruik van een eindige steekproef voor de integratie/binning.
- Voor PD hangt dit af van de steekproefomvang ( $O(1/n)$ ) en de interacties in het model.
- Voor ALE is deze variantie sterker afhankelijk van de steekproefomvang en de verdeling van data over bins.

Experimenteel Ontwerp

Om de theorie te valideren, voeren de auteurs een uitgebreide simulatiestudie uit met:

Datasets: Drie verschillende data-genererende processen (Simple-Normal-Correlated, Friedman1, en Feynman I.29.16) met variërende complexiteit, correlaties en interacties.
Modellen: Generalized Additive Models (GAM) en XGBoost, ingesteld als "optimaal getuned" (OT) en "overfitted" (OF).
Strategieën: Vergelijking van drie schattingsstrategieën:
1. Training data (gebruik van volledige dataset).
2. Validatie data (80/20 split).
3. Cross-Validation (CV) (5-fold CV).
Metrieke: Berekening van MSE, bias en variantie over 30 herhalingen, met specifieke aandacht voor de decompositie van variantie.

3. Belangrijkste Bijdragen

Eerste Schatting-niveau Analyse: De eerste volledige MSE-decompositie voor empirische PD en ALE-schattingen die model- en schattingsfouten van elkaar scheidt.
Theoretische Afleiding: Formele bewijzen voor hoe steekproefomvang en interacties de bias en variantie beïnvloeden, inclusief bovenste grenzen voor de variantie.
Empirische Validatie: Een robuuste simulatiestudie die de theoretische inzichten bevestigt en praktische richtlijnen biedt voor practitioners.
Oplossing voor het Train/Validatie Dilemma: Een datagedreven antwoord op de vraag of men trainings- of holdout-data moet gebruiken.

4. Resultaten

De experimentele resultaten leveren enkele verrassende en belangrijke inzichten op:

Bias van Trainingsdata is Verwaarloosbaar: Hoewel theoretisch mogelijk, is de extra bias die ontstaat door het schatten van feature-effecten op trainingsdata (in plaats van holdout-data) in de praktijk verwaarloosbaar klein. Deze bias wordt overstemd door andere factoren.
Dominantie van Steekproefomvang: Het gebruik van de volledige trainingsdataset (die groter is dan een validatieset) leidt tot een aanzienlijke vermindering van de schatting variantie. Omdat de bias-toename verwaarloosbaar is, levert het gebruik van trainingsdata vaak een lagere totale MSE op dan het gebruik van een kleinere validatieset.
ALE is Gevoeliger voor Steekproefomvang: ALE is gevoeliger voor kleine steekproefomvang dan PD. Bij kleine datasets kan het gebruik van een validatieset leiden tot aanzienlijk hogere bias (door lege bins) en variantie.
Cross-Validation (CV) is de Beste Optie voor Overfitting: Voor modellen die overfitten (hoge modelvariantie), presteert CV het beste. CV reduceert de modelvariantie door het middelen van effecten over meerdere modelfits, en vermindert ook de schattingsvariantie door een effectief grotere steekproefomvang dan een enkele validatieset.
Interacties en Variantie: De schattingsvariantie is direct gerelateerd aan de aanwezigheid van interacties in het model. Voor gecentreerde PD en ALE is de variantie nul als er geen interacties zijn met het geanalyseerde kenmerk.

5. Betekenis en Praktische Implicaties

De studie biedt een principieel fundament voor het interpreteren van machine learning-modellen:

Gebruik Trainingsdata: Het is veilig en vaak aan te raden om feature-effecten op de trainingsdata te berekenen, vanwege het voordeel van de grotere steekproefomvang, mits men zich bewust is van de theoretische risico's die in de praktijk echter minimaal blijken.
CV als Robuust Alternatief: Voor modellen die mogelijk overfitten, of wanneer maximale nauwkeurigheid vereist is, is Cross-Validation de superieure strategie. Het balanceert bias en variantie optimaal door zowel model- als schattingsvariantie te reduceren.
ALE Voorzichtigheid: Bij het gebruik van ALE moet extra aandacht worden besteed aan de steekproefomvang, vooral in situaties met weinig data of sterke discretisatie, om bias door lege bins te voorkomen.

Conclusie: De auteurs sluiten de kloof tussen theoretische statistiek en praktische interpretatie door aan te tonen dat de keuze van de dataset (train vs. holdout) minder kritiek is voor de bias dan vaak wordt gedacht, maar dat de steekproefomvang en de strategie (zoals CV) cruciaal zijn voor het minimaliseren van variantie en het verbeteren van de algehele betrouwbaarheid van feature-effectvisualisaties.