From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Studie, als würde man sie einem Freund beim Kaffee erzählen – ohne Fachchinesisch, aber mit ein paar guten Bildern.

Das große Missverständnis: Der "Übersetzer", der die Wahrheit verdreht

Stell dir vor, du hast einen extrem klugen, aber sehr verschrobenen Koch (das ist dein KI-Modell). Dieser Koch kann Gerichte (Vorhersagen) perfekt zubereiten. Aber er kann nicht erklären, warum er genau diese Zutaten gewählt hat. Er ist eine "Blackbox".

Um zu verstehen, was im Kopf des Kochs vorgeht, holen wir uns einen Dolmetscher an Bord. Das sind Tools wie SHAP oder LIME. Diese Dolmetscher schauen sich an, wie der Koch arbeitet, und sagen dir: "Aha, der Koch hat viel Salz benutzt, weil er denkt, das macht das Essen besser."

Das Problem:
In der Wirtschaftsforschung passiert folgendes: Die Forscher nehmen die Aussagen des Dolmetschers und glauben, das sei die absolute Wahrheit über die Welt.

Dolmetscher sagt: "Salz ist wichtig für den Koch."
Forscher schließt daraus: "Also ist Salz im echten Leben der Hauptgrund, warum Menschen das Essen mögen."

Die Studie von Wang und Kollegen sagt: Stopp! Das ist gefährlich. Der Dolmetscher erklärt nur, wie der Koch denkt, nicht wie die Welt wirklich funktioniert.

Die zwei großen Fallen (Die Metaphern)

Die Forscher haben 181 Studien durchgeprüft und zwei Hauptfehler gefunden:

1. Die "Rashomon-Falle" (Der Film mit vielen Enden)

Stell dir vor, du hast einen Film gedreht, und am Ende gibt es 100 verschiedene Versionen, die alle gleich gut funktionieren (alle haben die gleiche Bewertung).

Version A sagt: "Der Held hat gewonnen, weil er stark war."
Version B sagt: "Der Held hat gewonnen, weil er klug war."
Version C sagt: "Der Held hat gewonnen, weil er Glück hatte."

Alle 100 Versionen sind "richtig" im Sinne des Ergebnisses (der Held gewinnt). Aber die Erklärung ist total unterschiedlich.
In der KI gibt es das Rashomon-Phänomen: Es gibt viele verschiedene Modelle, die alle fast perfekt vorhersagen, aber sie nutzen völlig unterschiedliche Regeln dafür. Wenn du nur ein Modell nimmst und fragst: "Warum hast du das getan?", bekommst du nur eine von vielen möglichen Geschichten. Der Dolmetscher erzählt dir eine Geschichte, aber es könnte eine Lüge sein, weil es 99 andere wahre Geschichten gibt.

2. Die "Verwickelten Freunde"-Falle (Korrelation)

Stell dir vor, du willst wissen, was das Wetter macht. Du hast zwei Freunde:

Freund A trägt immer einen Regenschirm.
Freund B trägt immer einen Regenmantel.

Wenn du einen KI-Modell trainierst, wird es vielleicht denken: "Der Regenschirm (Freund A) ist der Grund für den Regen!" Oder: "Nein, der Mantel (Freund B) ist es!"
In Wahrheit ist beides nur ein Zeichen für den Regen, aber nicht die Ursache. Wenn die Daten (die Freunde) sehr eng miteinander verknüpft sind (Korrelation), kann die KI durcheinanderkommen. Der Dolmetscher (SHAP/LIME) wird dann vielleicht dem Regenschirm die ganze Schuld geben, obwohl er gar nichts mit dem Regen zu tun hat.

Was haben die Forscher herausgefunden?

Sie haben im Computer tausende von Szenarien simuliert, bei denen sie genau wussten, wie die "Wahrheit" aussah (der Ground Truth). Dann haben sie die Dolmetscher (SHAP und LIME) getestet.

Im Durchschnitt sieht es gut aus: Wenn man auf alle Fälle schaut, stimmen die Erklärungen oft halbwegs.
Aber im Einzelfall ist es chaotisch: Es gibt viele Fälle, in denen der Dolmetscher völlig falsch liegt – selbst wenn der Koch (das KI-Modell) das Essen perfekt zubereitet.
Hohe Genauigkeit ist kein Garant: Ein KI-Modell kann zu 99% richtig liegen, aber trotzdem völlig falsche Erklärungen liefern. Das ist wie ein Glücksbringer, der immer gewinnt, aber zufällig.

Die Lösung: Der "Einigungs-Test"

Wenn du nicht weißt, ob der Dolmetscher die Wahrheit sagt, was machst du dann?
Die Forscher schlagen einen cleveren Trick vor: Vergleiche mehrere Dolmetscher!

Nimm nicht nur ein KI-Modell, sondern trainiere 10 verschiedene, die alle fast gleich gut sind.

Wenn alle 10 Dolmetscher sagen: "Salz ist wichtig!", dann ist das ein gutes Zeichen. Die Wahrheit ist wahrscheinlich stabil.
Wenn Dolmetscher A sagt "Salz", Dolmetscher B sagt "Pfeffer" und Dolmetscher C sagt "Zucker", dann hast du ein Problem. Das bedeutet, die Daten sind so verwirrend, dass es keine eindeutige Antwort gibt.

Die Botschaft: Wenn sich die Dolmetscher nicht einig sind, vertraue keinem von ihnen blind.

Fazit für die Praxis

Die Autoren sagen nicht: "Werft die KI-Tools weg!"
Sie sagen: Nutzt sie richtig.

Falsch: "Wir haben SHAP benutzt, also wissen wir jetzt, dass Feature X die Ursache für Y ist." (Das ist zu viel Vertrauen).
Richtig: "Wir haben SHAP benutzt, um eine Vermutung zu finden. Vielleicht ist X wichtig. Aber wir müssen das jetzt mit klassischen Methoden (wie Experimenten oder sorgfältigen Statistiken) überprüfen, um sicherzugehen."

Zusammengefasst:
Post-hoc-Erklärer (wie SHAP/LIME) sind wie Detektive, die Hinweise geben. Sie sind toll, um neue Ideen zu finden (Hypothesen zu generieren). Aber sie sind keine Richter, die ein Urteil fällen (Hypothesen validieren). Wenn du sie als Richter benutzt, riskierst du, die Daten falsch zu verstehen und falsche Entscheidungen zu treffen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research" von Tong Wang et al. auf Deutsch.

1. Problemstellung

In der betriebswirtschaftlichen Forschung werden zunehmend komplexe Machine-Learning-Modelle (z. B. XGBoost, Random Forests) für Vorhersageaufgaben eingesetzt. Da diese Modelle oft als „Black Boxes" agieren, greifen Forscher auf Post-Hoc-Erklärer (wie SHAP und LIME) zurück, um die Modellentscheidungen zu interpretieren.

Das zentrale Problem, das dieses Paper identifiziert, ist ein weit verbreiteter Missbrauch dieser Erklärer:

Intention: Post-Hoc-Erklärer wurden entwickelt, um die Beziehung zwischen Eingabevariablen ( $X$ ) und der Modellvorhersage ( $\hat{Y}$ ) zu erklären (d. h. wie das Modell $M$ funktioniert).
Missbrauch: In der Praxis werden die von SHAP und LIME generierten Erklärungen jedoch häufig fälschlicherweise als Evidenz für die Beziehung zwischen den Eingabevariablen ( $X$ ) und der wahren Zielvariable ( $Y$ ) im zugrunde liegenden Datengenerierungsprozess (Data Generating Process, DGP) interpretiert.
Folge: Forscher leiten daraus falsche Schlussfolgerungen über kausale Zusammenhänge oder die wahre Wichtigkeit von Merkmalen in den Daten ab, obwohl die Erklärer nur das gelernte Modell und nicht die wahre Datenstruktur abbilden.

2. Methodik

Die Autoren führen eine umfassende Analyse durch, die aus vier Hauptschritten besteht:

A. Literaturreview und Systematische Analyse

Stichprobe: Eine manuelle Überprüfung von 181 Studien (davon 56 in führenden Journals wie UTD 24, FT50, INFORMS), die SHAP oder LIME substantiell nutzen.
Ziel: Quantifizierung der Häufigkeit, mit der Erklärungen als Beweise für datenbasierte Beziehungen ( $X \to Y$ ) interpretiert werden.
Ergebnis der Review: Ca. 42,5 % der Studien interpretieren Post-Hoc-Erklärungen fälschlicherweise als Evidenz für Datenbeziehungen.

B. Definition von Metriken zur Validierung

Um die Glaubwürdigkeit der Erklärungen zu messen, definieren die Autoren zwei neue Metriken, die den Vergleich zwischen der Erklärung und dem wahren DGP ( $G$ ) ermöglichen:

Direction Alignment (Ausrichtung der Richtung): Misst, ob die Richtung der Änderung, die ein Erklärer für ein Merkmal impliziert (z. B. „höherer Wert führt zu höherer Vorhersage"), mit der tatsächlichen Richtung der Änderung im wahren DGP übereinstimmt.
Strength Alignment (Ausrichtung der Stärke): Misst, ob das von einem Erklärer abgeleitete Ranking der Merkmalswichtigkeit mit dem wahren Ranking der Wichtigkeit im DGP übereinstimmt (gemessen via Spearman-Rangkorrelation).

C. Experimentelles Design (Simulation)

Da bei realen Daten der wahre DGP unbekannt ist, generieren die Autoren simulierte Datensätze mit bekannter Ground Truth.

Daten: 81 verschiedene Datensätze mit 5.000 Instanzen.
Variablen: Systematische Variation von vier Faktoren: Anzahl der Merkmale, Korrelationsstärke, Nichtlinearität und Interaktionsterme.
Modelle: Training verschiedener ML-Modelle (XGBoost, CatBoost, etc.) mit optimierter Hyperparameter-Suche.
Erklärer: Anwendung von SHAP und LIME auf die trainierten Modelle.

D. Untersuchung von Ursachen (Rashomon-Effekt)

Die Autoren untersuchen, warum Fehlausrichtungen auftreten, indem sie den Rashomon-Effekt analysieren: Das Phänomen, dass viele unterschiedliche Modelle mit nahezu identischer Vorhersagegenauigkeit existieren, aber völlig unterschiedliche interne Repräsentationen (und damit Erklärungen) nutzen.

3. Wichtige Beiträge und Ergebnisse

A. Hauptergebnisse zur Zuverlässigkeit

Hohe Durchschnittswerte, aber lange „Left Tails": Obwohl SHAP und LIME im Durchschnitt eine hohe Ausrichtung mit dem DGP zeigen, gibt es eine signifikante Heterogenität. Ein nicht zu vernachlässigender Teil der Datensatz-Modell-Paare zeigt eine schlechte Ausrichtung (lange linke Schwanzverteilung).
Vorhersagegenauigkeit ist notwendig, aber nicht hinreichend: Selbst Modelle mit sehr hoher Vorhersagegenauigkeit (z. B. > 0,90) können Erklärungen liefern, die stark von der wahren Datenstruktur abweichen. Hohe Genauigkeit garantiert keine korrekte Erklärung.
Unterschiede zwischen SHAP und LIME: SHAP zeigt im Durchschnitt eine bessere Richtungs- und Stärkenausrichtung als LIME, ist jedoch ebenfalls anfällig für Fehlausrichtungen.

B. Treiber der Fehlausrichtung

Die Analyse identifiziert drei Hauptfaktoren:

Feature-Korrelation: Dies ist der dominierende Treiber. Hohe Korrelationen zwischen Merkmalen führen dazu, dass Modelle unterschiedliche Proxy-Variablen nutzen können, was zu inkonsistenten Erklärungen führt.
Rashomon-Effekt: Wenn viele Modelle ähnlich gut performen, aber unterschiedliche Merkmalsgewichte nutzen, ist die Erklärung eines einzelnen Modells nicht stabil.
Datenkomplexität: Nichtlinearitäten und Interaktionsterme erhöhen die Menge an plausiblen Modellen und verschärfen das Problem.

C. Diagnose-Tool: Rashomon Agreement

Die Autoren schlagen eine praktische Methode vor, um die Zuverlässigkeit einer Erklärung zu diagnostizieren:

Konzept: Man trainiert mehrere Modelle innerhalb eines „Rashomon-Sets" (Modelle mit ähnlicher Genauigkeit).
Metrik: Man misst die Erklärungsübereinstimmung (Explanation Agreement), d. h. wie stark die Merkmals-Rankings zwischen diesen Modellen übereinstimmen.
Ergebnis: Eine hohe Übereinstimmung der Erklärungen über verschiedene Modelle hinweg korreliert stark mit einer hohen Ausrichtung zum wahren DGP (Korrelation bis zu ~0,79 für SHAP). Eine niedrige Übereinstimmung ist ein starkes Warnsignal dafür, dass die Erklärung nicht verlässlich ist.
Wichtig: Die Übereinstimmung der Vorhersagen allein ist weniger aussagekräftig als die Übereinstimmung der Erklärungen.

4. Signifikanz und Implikationen

Das Paper liefert einen kritischen Warnhinweis für die betriebswirtschaftliche und empirische Forschung:

Neukategorisierung von Erklärern: Post-Hoc-Erklärer sollten nicht zur Hypothesenvalidierung oder als Beweis für datenbasierte Kausalitäten verwendet werden. Ihre Rolle muss sich von der Validierung zur Hypothesengenerierung (Exploration) verschieben.
Risiko der Fehlinterpretation: Die Nutzung von SHAP/LIME als Ersatz für ökonometrische Methoden (wie OLS oder kausale Inferenz) führt zu falschen Managemententscheidungen, da die Erklärungen oft Artefakte des gewählten Modells und nicht der Daten sind.
Praktische Empfehlung: Forscher sollten die Rashomon Agreement nutzen, um die Zuverlässigkeit von Erklärungen zu prüfen. Wenn Modelle mit ähnlicher Genauigkeit völlig unterschiedliche Erklärungen liefern, sollte keine der Erklärungen als wahr angenommen werden.
Workflow-Empfehlung: Post-Hoc-Erklärer können genutzt werden, um interessante Merkmale zu identifizieren, aber diese Hypothesen müssen zwingend durch rigorosere Methoden (kausale Inferenz, experimentelle Designs, ökonometrische Modelle) validiert werden.

Fazit: Die Studie zeigt, dass die direkte Übertragung von Modell-Erklärungen auf die wahre Datenstruktur ein fundamentales Validitätsproblem darstellt, das durch die Natur des maschinellen Lernens (Rashomon-Effekt) und Datenstrukturen (Korrelation) bedingt ist. Sie fordert einen Paradigmenwechsel weg von der Annahme, dass Erklärer „Wahrheit" enthüllen, hin zu einer vorsichtigen, explorativen Nutzung.