Analyzing Error Sources in Global Feature Effect Estimation

Dit artikel biedt een systematische analyse van de foutbronnen bij globale schattingen van feature-effecten (zoals PD- en ALE-plots) en concludeert dat het gebruik van trainingsdata vaak empirisch superieur is aan holdout-data vanwege het grotere steekproefformaat, terwijl cross-validatie de modelvariatie effectief verlaagt.

Timo Heiß, Coco Bögel, Bernd Bischl, Giuseppe Casalicchio

Gepubliceerd 2026-03-17
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Kern: Waarom zijn onze "uitleggers" soms onbetrouwbaar?

Stel je voor dat je een zeer slimme, maar mysterieuze voorspeller hebt (een AI-model). Deze voorspeller kan zeggen of een patiënt ziek is, of een lening veilig is, of een huis goedkoop is. Maar niemand weet hoe hij precies tot zijn conclusie komt; hij is een "zwarte doos".

Om te begrijpen waarom hij zo voorspelt, gebruiken wetenschappers hulpmiddelen zoals PD-kaarten en ALE-kaarten.

  • De Analogie: Stel je voor dat je een chef-kok wilt uitleggen waarom zijn soep zo lekker is. Je maakt een kaartje: "Als je meer peper toevoegt, wordt de soep pittiger." Dit is een globaal effect. Het vertelt je hoe één ingrediënt (bijv. peper) de uitkomst beïnvloedt, gemiddeld over de hele pot soep.

Het probleem is: deze kaarten zijn niet perfect. Ze zijn schattingen. En zoals elke schatting, kunnen ze fouten bevatten. De auteurs van dit paper (Timo Heiß en collega's) hebben onderzocht waar deze fouten vandaan komen en hoe we ze kunnen minimaliseren.


De Drie Bronnen van "Onzin" (Fouten)

De onderzoekers hebben de fouten in deze kaarten opgesplitst in vier soorten, net als bij het bakken van een taart:

  1. Het Model is Slecht (Model Bias):

    • Vergelijking: De chef-kok zelf weet niet hoe te koken. Hij gebruikt de verkeerde recepten.
    • Betekenis: Als het AI-model de werkelijkheid niet goed nabootst, zal de uitleg (de kaart) ook onjuist zijn. Dit is de grootste foutbron.
  2. Het Model is Te Zelfverzekerd (Model Variance):

    • Vergelijking: Je vraagt 10 verschillende koks om een soeprecept te bedenken met dezelfde ingrediënten. De één doet heel veel peper, de ander heel weinig. De "gemiddelde" kaart is dan onstabiel.
    • Betekenis: Als je het model een paar keer opnieuw traint met een beetje andere data, verandert de uitleg soms enorm. Dit is "ruis".
  3. Te Weinig Data (Estimation Bias & Variance):

    • Vergelijking: Je vraagt aan slechts 3 mensen of de soep te zout is. Dat is niet representatief. Als je 1000 mensen vraagt, is het antwoord betrouwbaarder.
    • Betekenis: De kaarten worden gemaakt op basis van een eindige dataset. Als je te weinig data hebt, is de kaart wazig of vertekend.

Het Grote Dilemma: Gebruik je de "Oefen" of de "Toets"?

Dit is het belangrijkste praktische vraagstuk dat dit paper beantwoordt.

  • Optie A: Trainingsdata (De Oefenpoging). Je gebruikt dezelfde data om het model te leren én om de uitleg te maken.

    • Voordeel: Je hebt veel data (de hele dataset).
    • Nadeel: Het model heeft de data al "geleerd" (misschien zelfs uit het hoofd geleerd, wat "overfitting" heet). Je vreest dat de uitleg dan alleen maar laat zien wat het model heeft uit het hoofd geleerd, niet wat het echt begrijpt.
  • Optie B: Houd-out data (De Toets). Je gebruikt een stukje data dat het model nooit heeft gezien om de uitleg te maken.

    • Voordeel: Het model kan niet "cheaten". De uitleg zou eerlijker moeten zijn.
    • Nadeel: Je hebt minder data (slechts 20% van de dataset).

Wat zeggen de onderzoekers?
Ze hebben duizenden simulaties gedaan (virtuele experimenten) en kwamen tot een verrassend resultaat:

Gebruik gewoon de hele dataset (de "Oefenpoging")!

Waarom?
De onderzoekers ontdekten dat de "gevaarlijke" fout die ontstaat door het model te gebruiken op data die het al kent (overfitting), in de praktijk verwaarloosbaar klein is.
De voordeel van de grote steekproef (meer data = een scherpere, rustigere kaart) weegt veel zwaarder dan het kleine risico dat het model een beetje "geleerd" heeft.

  • Analogie: Het is beter om een kaart te tekenen op basis van 10.000 metingen (ook al is de meetinstrument een beetje scheef), dan om een kaart te tekenen op basis van slechts 2.000 metingen (die wel perfect zijn, maar te weinig zijn om een betrouwbaar beeld te geven). De "ruis" door te weinig data is veel erger dan de "bias" door overfitting.

De "Cross-Validation" (De Super-Loss)

Er is nog een derde optie die de onderzoekers aanbevelen: Cross-Validation (CV).

  • Hoe werkt het? Je deelt de data in stukjes. Je leert het model op stukje A, test op B. Dan leer je op B, test op A. En zo verder. Uiteindelijk smelt je alle uitleggen samen.
  • Het Resultaat: Dit is vaak de beste methode, vooral als het model erg complex is en snel "overfit". Het combineert het voordeel van veel data met de eerlijkheid van het testen op onbekende data. Het werkt als een "gemiddelde" van alle mogelijke scenario's, waardoor de kaart superstabiel wordt.

Specifiek voor ALE (De Gevoelige Kaart)

Er zijn twee soorten kaarten: PD en ALE.

  • PD is robuust.
  • ALE is extreem gevoelig voor het aantal data-punten.
    • Vergelijking: Stel je voor dat je een berg beklimt. PD kijkt naar de gemiddelde helling. ALE kijkt naar elke kleine steen op het pad. Als je te weinig stenen ziet (te weinig data), mis je de helling volledig.
    • Advies: Voor ALE is het cruciaal om zoveel mogelijk data te gebruiken. Gebruik nooit een klein stukje "testdata" voor ALE, tenzij je zeker weet dat je genoeg data overhoudt.

Samenvatting in Eén Zin

Als je wilt begrijpen hoe een AI-model werkt, maak dan je uitlegkaarten op basis van alle beschikbare data (of gebruik een slimme "Cross-Validation" methode); het is veiliger en nauwkeuriger dan een klein stukje data apart te houden, omdat de winst aan data veel belangrijker is dan het kleine risico dat het model te goed heeft "geleerd".

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →