From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Die Studie warnt davor, Post-Hoc-Erklärungen wie SHAP und LIME in der Wirtschaftsforschung zur Hypothesenvalidierung zu verwenden, da sie trotz hoher Vorhersagegenauigkeit durch Feature-Korrelationen und den Rashomon-Effekt oft keine zuverlässigen Rückschlüsse auf die tatsächlichen Datenzusammenhänge zulassen und daher eher als explorative als als bestätigende Werkzeuge eingesetzt werden sollten.

Tong Wang (Jeffrey), Ronilo Ragodos (Jeffrey), Lu Feng (Jeffrey), Yu (Jeffrey), Hu

Veröffentlicht 2026-03-10
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Studie, als würde man sie einem Freund beim Kaffee erzählen – ohne Fachchinesisch, aber mit ein paar guten Bildern.

Das große Missverständnis: Der "Übersetzer", der die Wahrheit verdreht

Stell dir vor, du hast einen extrem klugen, aber sehr verschrobenen Koch (das ist dein KI-Modell). Dieser Koch kann Gerichte (Vorhersagen) perfekt zubereiten. Aber er kann nicht erklären, warum er genau diese Zutaten gewählt hat. Er ist eine "Blackbox".

Um zu verstehen, was im Kopf des Kochs vorgeht, holen wir uns einen Dolmetscher an Bord. Das sind Tools wie SHAP oder LIME. Diese Dolmetscher schauen sich an, wie der Koch arbeitet, und sagen dir: "Aha, der Koch hat viel Salz benutzt, weil er denkt, das macht das Essen besser."

Das Problem:
In der Wirtschaftsforschung passiert folgendes: Die Forscher nehmen die Aussagen des Dolmetschers und glauben, das sei die absolute Wahrheit über die Welt.

  • Dolmetscher sagt: "Salz ist wichtig für den Koch."
  • Forscher schließt daraus: "Also ist Salz im echten Leben der Hauptgrund, warum Menschen das Essen mögen."

Die Studie von Wang und Kollegen sagt: Stopp! Das ist gefährlich. Der Dolmetscher erklärt nur, wie der Koch denkt, nicht wie die Welt wirklich funktioniert.


Die zwei großen Fallen (Die Metaphern)

Die Forscher haben 181 Studien durchgeprüft und zwei Hauptfehler gefunden:

1. Die "Rashomon-Falle" (Der Film mit vielen Enden)

Stell dir vor, du hast einen Film gedreht, und am Ende gibt es 100 verschiedene Versionen, die alle gleich gut funktionieren (alle haben die gleiche Bewertung).

  • Version A sagt: "Der Held hat gewonnen, weil er stark war."
  • Version B sagt: "Der Held hat gewonnen, weil er klug war."
  • Version C sagt: "Der Held hat gewonnen, weil er Glück hatte."

Alle 100 Versionen sind "richtig" im Sinne des Ergebnisses (der Held gewinnt). Aber die Erklärung ist total unterschiedlich.
In der KI gibt es das Rashomon-Phänomen: Es gibt viele verschiedene Modelle, die alle fast perfekt vorhersagen, aber sie nutzen völlig unterschiedliche Regeln dafür. Wenn du nur ein Modell nimmst und fragst: "Warum hast du das getan?", bekommst du nur eine von vielen möglichen Geschichten. Der Dolmetscher erzählt dir eine Geschichte, aber es könnte eine Lüge sein, weil es 99 andere wahre Geschichten gibt.

2. Die "Verwickelten Freunde"-Falle (Korrelation)

Stell dir vor, du willst wissen, was das Wetter macht. Du hast zwei Freunde:

  • Freund A trägt immer einen Regenschirm.
  • Freund B trägt immer einen Regenmantel.

Wenn du einen KI-Modell trainierst, wird es vielleicht denken: "Der Regenschirm (Freund A) ist der Grund für den Regen!" Oder: "Nein, der Mantel (Freund B) ist es!"
In Wahrheit ist beides nur ein Zeichen für den Regen, aber nicht die Ursache. Wenn die Daten (die Freunde) sehr eng miteinander verknüpft sind (Korrelation), kann die KI durcheinanderkommen. Der Dolmetscher (SHAP/LIME) wird dann vielleicht dem Regenschirm die ganze Schuld geben, obwohl er gar nichts mit dem Regen zu tun hat.


Was haben die Forscher herausgefunden?

Sie haben im Computer tausende von Szenarien simuliert, bei denen sie genau wussten, wie die "Wahrheit" aussah (der Ground Truth). Dann haben sie die Dolmetscher (SHAP und LIME) getestet.

  1. Im Durchschnitt sieht es gut aus: Wenn man auf alle Fälle schaut, stimmen die Erklärungen oft halbwegs.
  2. Aber im Einzelfall ist es chaotisch: Es gibt viele Fälle, in denen der Dolmetscher völlig falsch liegt – selbst wenn der Koch (das KI-Modell) das Essen perfekt zubereitet.
  3. Hohe Genauigkeit ist kein Garant: Ein KI-Modell kann zu 99% richtig liegen, aber trotzdem völlig falsche Erklärungen liefern. Das ist wie ein Glücksbringer, der immer gewinnt, aber zufällig.

Die Lösung: Der "Einigungs-Test"

Wenn du nicht weißt, ob der Dolmetscher die Wahrheit sagt, was machst du dann?
Die Forscher schlagen einen cleveren Trick vor: Vergleiche mehrere Dolmetscher!

Nimm nicht nur ein KI-Modell, sondern trainiere 10 verschiedene, die alle fast gleich gut sind.

  • Wenn alle 10 Dolmetscher sagen: "Salz ist wichtig!", dann ist das ein gutes Zeichen. Die Wahrheit ist wahrscheinlich stabil.
  • Wenn Dolmetscher A sagt "Salz", Dolmetscher B sagt "Pfeffer" und Dolmetscher C sagt "Zucker", dann hast du ein Problem. Das bedeutet, die Daten sind so verwirrend, dass es keine eindeutige Antwort gibt.

Die Botschaft: Wenn sich die Dolmetscher nicht einig sind, vertraue keinem von ihnen blind.


Fazit für die Praxis

Die Autoren sagen nicht: "Werft die KI-Tools weg!"
Sie sagen: Nutzt sie richtig.

  • Falsch: "Wir haben SHAP benutzt, also wissen wir jetzt, dass Feature X die Ursache für Y ist." (Das ist zu viel Vertrauen).
  • Richtig: "Wir haben SHAP benutzt, um eine Vermutung zu finden. Vielleicht ist X wichtig. Aber wir müssen das jetzt mit klassischen Methoden (wie Experimenten oder sorgfältigen Statistiken) überprüfen, um sicherzugehen."

Zusammengefasst:
Post-hoc-Erklärer (wie SHAP/LIME) sind wie Detektive, die Hinweise geben. Sie sind toll, um neue Ideen zu finden (Hypothesen zu generieren). Aber sie sind keine Richter, die ein Urteil fällen (Hypothesen validieren). Wenn du sie als Richter benutzt, riskierst du, die Daten falsch zu verstehen und falsche Entscheidungen zu treffen.