Analyzing Error Sources in Global Feature Effect Estimation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen Schwarzen Kasten, der Entscheidungen trifft – zum Beispiel eine KI, die entscheidet, ob ein Kreditantrag genehmigt wird oder ob ein Patient eine bestimmte Behandlung bekommt. Wir wissen oft nicht, wie genau dieser Kasten im Inneren funktioniert. Das ist wie bei einem Kochrezept, bei dem wir nur den fertigen Kuchen sehen, aber nicht wissen, welche Zutaten oder Schritte genau zum Ergebnis geführt haben.

Um herauszufinden, was im Inneren passiert, nutzen Data Scientists Werkzeuge wie PD-Plots (Partial Dependence) und ALE-Plots (Accumulated Local Effects). Diese sind wie eine Lupe, die uns zeigt: „Wenn wir den Zuckergehalt im Rezept ändern, wird der Kuchen dann süßer?"

Aber hier liegt das Problem: Diese Lupe ist nicht perfekt. Sie ist ein Schätzwert. Und wie bei jeder Schätzung gibt es Fehlerquellen. Genau diese Fehlerquellen haben Timo Heiß und sein Team in ihrer Studie untersucht.

Hier ist die einfache Erklärung ihrer Entdeckungen:

1. Das große Rätsel: Trainieren oder Testen?

Stellen Sie sich vor, Sie wollen herausfinden, wie gut ein Schüler (das KI-Modell) Mathe kann.

Strategie A (Trainingsdaten): Sie lassen den Schüler die Aufgaben lösen, die er schon in der Schule gelernt hat.
Strategie B (Holdout-Daten): Sie lassen ihn eine völlig neue Prüfung machen, die er noch nie gesehen hat.

Die Frage war: Welche Strategie gibt uns ein besseres Bild davon, wie die KI wirklich funktioniert?

Die meisten Leute dachten: „Nimm die neuen Aufgaben (Holdout), denn der Schüler könnte die alten auswendig gelernt haben (Overfitting)."
Andere sagten: „Nimm die alten Aufgaben (Training), denn da hat er mehr davon gesehen, also ist das Bild klarer."

Das Ergebnis der Studie:
Es stellt sich heraus, dass die Angst vor dem „Auswendiglernen" bei diesen speziellen Lupe-Werkzeugen unbegründet ist.

Der Unterschied zwischen den beiden Methoden ist winzig.
Der wichtigste Faktor ist einfach die Menge an Daten. Wer mehr Aufgaben löst (ob alt oder neu), bekommt ein klareres Bild. Da die Trainingsdaten meist mehr Aufgaben enthalten, ist es oft sogar besser, diese zu nutzen. Die „Lupe" wird durch mehr Daten schärfer, egal ob der Schüler sie auswendig gelernt hat oder nicht.

2. Die zwei Arten von Fehlern (Bias und Varianz)

Die Forscher haben die Fehler in zwei Kategorien unterteilt, die man sich wie Zielgenauigkeit und Stabilität vorstellen kann:

Der „Ziel-Fehler" (Bias): Trifft die Lupe überhaupt den richtigen Punkt?
- Beispiel: Wenn die Lupe immer 2 cm zu weit links zeigt, ist sie verzerrt.
- Erkenntnis: Bei der Methode ALE (die komplexer ist) hängt diese Verzerrung stark davon ab, ob die Daten in kleine Kammern (Bins) unterteilt sind und ob in jeder Kammer genug Datenpunkte sitzen. Bei kleinen Datensätzen kann ALE hier leicht „verrutschen".
Der „Wackel-Faktor" (Varianz): Ist das Bild stabil oder zittert es?
- Beispiel: Wenn Sie die Lupe einmal halten, sehen Sie Punkt A, beim nächsten Mal Punkt B, obwohl es derselbe Punkt ist.
- Erkenntnis: Hier ist ALE sehr empfindlich. Wenn wenig Daten da sind, wackelt das Bild stark. PD ist etwas stabiler.

3. Die Lösung: Die „Kreuz-Validierung" (Cross-Validation)

Stellen Sie sich vor, Sie wollen herausfinden, wie gut ein Sportler läuft.

Statt ihn nur einmal laufen zu lassen (Trainingsdaten) oder nur einmal auf einer neuen Strecke (Holdout), lassen Sie ihn fünfmal laufen:
1. Er läuft eine Runde, wir messen.
2. Er läuft eine andere Runde, wir messen.
3. ... und so weiter.
4. Am Ende mitteln wir alle fünf Ergebnisse.

Das nennt man Cross-Validation (CV).

Das Ergebnis: Diese Methode ist der Goldstandard. Sie glättet sowohl den „Wackel-Faktor" als auch das „Auswendiglernen".
Besonders bei KI-Modellen, die dazu neigen, sich Dinge zu „merken" (Overfitting), liefert diese Methode das stabilste und zuverlässigste Bild davon, wie die KI wirklich funktioniert.

Zusammenfassung für den Alltag

Keine Panik wegen Trainingsdaten: Wenn Sie eine KI erklären wollen, müssen Sie nicht unbedingt eine separate Testgruppe suchen. Die Daten, mit denen die KI gelernt hat, reichen oft völlig aus und liefern sogar ein schärferes Bild, weil es mehr davon gibt.
Vorsicht bei kleinen Datenmengen: Wenn Sie nur wenige Daten haben, sind die Werkzeuge (besonders ALE) ungenau. Mehr Daten machen alles besser.
Die beste Methode: Wenn Sie wirklich sichergehen wollen und die Rechenleistung reicht, nutzen Sie die Cross-Validation. Das ist wie das Mitteln von fünf Messungen statt nur einer – es gibt das verlässlichste Ergebnis.

Fazit: Die Studie beruhigt uns: Die Werkzeuge, mit denen wir KI-Modelle verstehen, sind robuster, als man dachte. Man muss sie nicht überkomplizieren, aber ein bisschen mehr Daten und die richtige Methode (Cross-Validation) machen den Unterschied zwischen einem verschwommenen und einem scharfen Bild.

Each language version is independently generated for its own context, not a direct translation.

Titel: Analyse von Fehlerquellen bei der Schätzung globaler Feature-Effekte

Autoren: Timo Heiß, Coco Bögel, Bernd Bischl, Giuseppe Casalicchio (LMU München & MCML)

1. Problemstellung

Globale Feature-Effekt-Methoden wie Partial Dependence (PD) und Accumulated Local Effects (ALE) sind Standardwerkzeuge zur Interpretation von Black-Box-Machine-Learning-Modellen. Sie visualisieren, wie sich Eingabevariablen auf die Vorhersagen auswirken.
Trotz ihrer weiten Verbreitung gibt es zwei kritische, ungelöste Probleme:

Fehlerquellen: Diese Methoden liefern nur Schätzer der wahren zugrunde liegenden Effekte. Die Zuverlässigkeit dieser Schätzer hängt von mehreren Fehlerquellen ab (Bias und Varianz), die bisher nicht systematisch auf Ebene des Schätzers (Estimator-Level) analysiert wurden.
Datenstrategie: Es besteht eine praktische Debatte, ob Feature-Effekte auf Trainingsdaten (größere Stichprobengröße, aber Risiko von Overfitting-Bias) oder auf Holdout-/Validierungsdaten (kleinere Stichprobengröße, aber theoretisch sauberer) geschätzt werden sollten. Bisherige Arbeiten haben dies für andere Methoden (z. B. Permutation Feature Importance) untersucht, aber nicht für PD und ALE.

2. Methodik

Die Autoren führen eine umfassende Analyse durch, die theoretische Herleitungen mit einer extensiven Simulationsstudie verbindet.

A. Theoretische Herleitung (Fehlerzerlegung)

Das Kernstück der Arbeit ist eine Mittlere-Quadrat-Fehler (MSE)-Zerlegung für empirische PD- und ALE-Schätzer. Die Autoren zerlegen den Gesamtfehler in vier Komponenten:

Modell-Bias (Model Bias): Systematische Abweichung des gelernten Modells $\hat{f}$ von der wahren Funktion $f$ .
Schätz-Bias (Estimation Bias):
- Bei PD: Tritt auf, wenn die Daten für die Monte-Carlo-Integration nicht unabhängig vom trainierten Modell sind (z. B. Trainingsdaten).
- Bei ALE: Besteht aus Diskretisierungs-Bias (durch Binning) und Bias, wenn in bestimmten Bins keine Datenpunkte vorhanden sind ( $n_S(k)=0$ ).
Modell-Varianz (Model Variance): Variabilität der Effekt-Schätzung über verschiedene Trainingssets hinweg (abhängig von der Stabilität des Lernalgorithmus).
Schätz-Varianz (Estimation Variance): Variabilität, die durch die endliche Stichprobengröße bei der Monte-Carlo-Integration bzw. der Binning-Schätzung entsteht.

Die Autoren leiten theoretische Obergrenzen für diese Komponenten her und analysieren deren Abhängigkeit von der Stichprobengröße ( $n$ ), Feature-Interaktionen und der Datenstrategie.

B. Experimentelles Setup

Eine umfangreiche Simulationsstudie wurde durchgeführt, um die theoretischen Ergebnisse zu validieren:

Datensätze: Drei Szenarien mit unterschiedlicher Komplexität (korrelierte Features, nicht-lineare Interaktionen, reale physikalische Gleichung).
Lernalgorithmen: Generalized Additive Models (GAM) und XGBoost.
Konfigurationen: Modelle wurden sowohl „optimal abgestimmt" (OT) als auch absichtlich „überangepasst" (OF) trainiert.
Schätzstrategien: Vergleich von Effektschätzung auf (1) Trainingsdaten, (2) Validierungsdaten (Holdout) und (3) mittels Kreuzvalidierung (CV).
Metriken: MSE, Bias und Varianz wurden über 30 Wiederholungen und verschiedene Stichprobengrößen ( $n=1250$ bis $n=10000$ ) berechnet.

3. Wichtige Beiträge

Erste vollständige MSE-Zerlegung: Das Paper liefert die erste estimator-level Zerlegung von PD und ALE, die Modell- und Schätzfehler trennt.
Theoretische Analyse der Bias-Quellen: Es wird gezeigt, dass PD auf Holdout-Daten erwartungstreu ist, während PD auf Trainingsdaten zusätzlichen Bias einführen könnte. Für ALE wird der Einfluss der Diskretisierung und leerer Bins formalisiert.
Analyse der Varianz: Es wird bewiesen, dass die Schätz-Varianz von PD und ALE stark von der Stichprobengröße und der Existenz von Interaktionen abhängt. ALE ist dabei besonders empfindlich gegenüber kleinen Stichprobengrößen.
Praktische Leitlinien: Das Paper liefert evidenzbasierte Empfehlungen zur Wahl der Datenstrategie für die Interpretation von Modellen.

4. Ergebnisse

Bias-Analyse (RQ1)

Trainingsdaten vs. Holdout: Überraschenderweise ist der potenzielle Bias durch die Verwendung von Trainingsdaten empirisch vernachlässigbar. Selbst bei stark überangepassten Modellen (Overfitting) war der Bias auf Trainingsdaten nicht signifikant höher als auf Validierungsdaten.
Stichprobengröße dominiert: Der Hauptunterschied zwischen den Strategien liegt nicht im Bias, sondern in der Varianz, die durch die verfügbare Stichprobengröße bestimmt wird.

Varianz-Analyse (RQ2)

Cross-Validation (CV) ist überlegen: CV-basierte Schätzung führt zu der niedrigsten Gesamtvarianz. Dies liegt daran, dass CV sowohl die Modell-Varianz (durch Mittelung über mehrere Fits) als auch die Schätz-Varianz (durch effektiv größere Stichprobengröße) reduziert.
ALE ist empfindlicher: Die Schätz-Varianz von ALE ist deutlich höher als bei PD, insbesondere bei kleinen Stichprobengrößen und wenn Features Interaktionen aufweisen. Validierungsdaten (kleine $n$ ) führen hier zu stark erhöhten Fehlern.
Interaktionen: Die Varianz der geschätzten Effekte hängt direkt von der Varianz der ICE-Kurven (für PD) bzw. der lokalen Differenzen (für ALE) ab, was bei Vorhandensein von Interaktionen zunimmt.

Einfluss der Stichprobengröße (RQ3)

Der Fehler skaliert erwartungsgemäß mit $O(1/n)$ für PD.
Für ALE zeigt sich ein komplexeres Verhalten: Bei kleinen Stichprobengrößen dominiert der Bias durch leere Bins ( $K/n$ ), während bei großen $n$ die Varianz ( $1/n$ ) dominiert.

5. Bedeutung und Fazit

Die Studie liefert eine fundierte theoretische und empirische Basis für die Praxis des Explainable AI (XAI):

Empfehlung zur Datenwahl: Obwohl Holdout-Daten theoretisch „sauberer" erscheinen, ist die Verwendung von Trainingsdaten für Feature-Effekte empirisch sicher und oft vorzuziehen, da die größere Stichprobengröße die Varianz des Schätzers drastisch reduziert und der Overfitting-Bias vernachlässigbar ist.
Rolle der Kreuzvalidierung: CV-basierte Schätzung wird als robusteste Alternative identifiziert, insbesondere für Modelle, die zu Overfitting neigen. Sie bietet den besten Kompromiss aus Bias und Varianz.
ALE vs. PD: ALE ist aufgrund seiner Abhängigkeit von Binning und lokalen Differenzen anfälliger für kleine Stichprobengrößen als PD. Bei begrenzten Daten ist Vorsicht bei der Interpretation von ALE-Plots geboten.
Zukünftige Forschung: Die Autoren schlagen weitere Arbeiten vor, um die Bias-Analyse für Trainingsdaten zu verfeinern und die Auswirkungen von Distribution Shifts zu untersuchen.

Zusammenfassend entkräftet das Paper die Sorge, dass die Nutzung von Trainingsdaten für PD/ALE zu irreführenden Ergebnissen führt, und etabliert stattdessen die Stichprobengröße und die Verwendung von Kreuzvalidierung als die entscheidenden Faktoren für präzise Interpretationen.