From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Deze studie waarschuwt dat post-hoc uitlegmiddelen zoals SHAP en LIME, hoewel veel gebruikt in bedrijfsresearch, onbetrouwbaar zijn voor het valideren van hypothesen over onderliggende data-relaties vanwege hun gevoeligheid voor correlaties en het Rashomon-effect, en pleit ervoor ze uitsluitend te gebruiken als verkennende hulpmiddelen.

Tong Wang (Jeffrey), Ronilo Ragodos (Jeffrey), Lu Feng (Jeffrey), Yu (Jeffrey), Hu

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Kernboodschap: "De Uitleg is niet altijd de Waarheid"

Stel je voor dat je een superkrachtige, maar ondoorzichtige robot hebt die heel goed is in voorspellingen. Bijvoorbeeld: hij kan precies voorspellen welke mensen een nieuwe app zullen downloaden. Maar niemand weet hoe de robot tot die conclusie komt; hij is een "zwarte doos".

Om te begrijpen wat de robot doet, gebruiken onderzoekers hulpmiddelen (zoals SHAP en LIME). Deze hulpmiddelen proberen de robot een spiegel voor te houden en zeggen: "Kijk, de robot kijkt vooral naar 'Leeftijd' en 'Inkomen'."

Het probleem: Veel onderzoekers in het bedrijfsleven denken nu: "Ah, omdat de robot naar 'Leeftijd' kijkt, betekent dit dat leeftijd in het echte leven ook de belangrijkste reden is waarom mensen de app downloaden."

Deze studie zegt: Pas op! Dat is een valkuil. De uitleg van de robot vertelt je hoe de robot denkt, niet noodzakelijk hoe de werkelijkheid werkt.


De Analogie: De Drie Voorspellers

Om dit uit te leggen, gebruiken we een analogie met drie voorspellers die proberen te voorspellen wie de winnaar wordt van een voetbalwedstrijd.

  1. De Robot (Het ML-model): Deze robot heeft een enorme database en voorspelt de winnaar met 90% nauwkeurigheid. Hij is geweldig.
  2. De Uitlegger (SHAP/LIME): Dit is de vertaler die probeert te zeggen waarom de robot zo voorspelt. Hij zegt bijvoorbeeld: "De robot denkt dat de regen belangrijk is."
  3. De Waarheid (De Data): De echte reden waarom teams winnen (bijvoorbeeld: de kwaliteit van de spits).

Wat de studie ontdekt heeft:

1. De Uitlegger is vaak "in de war" (Misinterpretatie)
De studie kijkt naar 181 onderzoeken. Ze ontdekten dat bijna de helft van de onderzoekers de uitleg van de robot (de vertaler) gebruikt als bewijs voor de echte wereld.

  • Vergelijking: Het is alsof je een vertaler vraagt wat de chef-kok van een restaurant denkt over het eten, en je dat dan gebruikt om te bewijzen wat de klant echt lekker vindt. De vertaler vertelt je wat de chef denkt, niet wat de klant voelt.

2. De "Rashomon-effect": Verschillende verhalen, zelfde resultaat
Dit is het belangrijkste concept uit het papier. Stel je voor dat je een moord oplost. Er zijn drie verdachten die allemaal een perfecte alibi hebben en allemaal even waarschijnlijk de dader lijken.

  • Verdachte A zegt: "Ik deed het met een mes."
  • Verdachte B zegt: "Ik deed het met een vergif."
  • Verdachte C zegt: "Ik deed het met een kussen."

Alle drie hebben ze een "perfecte" alibi (hoge voorspellingsscore), maar ze vertellen totaal verschillende verhalen. In de wereld van AI noemen we dit het Rashomon-effect. Er zijn veel verschillende modellen die even goed voorspellen, maar die totaal andere redenen gebruiken.

  • Als je naar Verdachte A kijkt, denk je: "Het was een mes!"
  • Maar als je naar Verdachte B kijkt, denk je: "Het was vergif!"
  • Conclusie: Je kunt niet vertrouwen op het verhaal van één verdachte om de waarheid te vinden, zelfs als die verdachte heel slim is.

3. Hoge nauwkeurigheid is niet genoeg
Veel mensen denken: "Als de robot 99% goed voorspelt, moet zijn uitleg ook wel kloppen."
De studie zegt: Nee. Een robot kan 99% goed voorspellen door toevallige patronen te gebruiken die niets met de echte oorzaak te maken hebben.

  • Vergelijking: Een horloge dat stilstaat is twee keer per dag precies goed. Maar als je vraagt "waarom is het nu 12 uur?", en het horloge zegt "omdat de zon schijnt", dan is dat een goede voorspelling (het klopt), maar een slechte uitleg (de oorzaak is de batterij, niet de zon).

4. Wanneer kun je het wel vertrouwen?
De studie geeft een slimme tip: Kijk naar de meningsverschillen.
Als je tien verschillende robots hebt die allemaal even goed voorspellen, en ze vertellen allemaal hetzelfde verhaal ("Het is de leeftijd!"), dan is de kans groot dat het waar is.
Maar als de robots allemaal even goed voorspellen, maar ze hebben totaal verschillende redenen ("Sommigen zeggen leeftijd, anderen zeggen inkomen, anderen zeggen weer"), dan is de uitleg onbetrouwbaar. Je weet dan niet welke "waarheid" je moet geloven.


Wat betekent dit voor onderzoekers en bedrijven?

De auteurs geven een duidelijk advies:

  • Gebruik deze tools niet om conclusies te trekken. Gebruik SHAP of LIME niet om te zeggen: "Dit is de oorzaak van het probleem."
  • Gebruik ze als een kompas, niet als een kaart. Ze zijn goed om ideeën te genereren. "Misschien is inkomen wel belangrijk? Laten we dat eens met een traditionele, strenge wetenschappelijke methode testen."
  • Wees sceptisch. Als je ziet dat verschillende modellen totaal verschillende uitleg geven, stop dan met het trekken van conclusies. Het betekent dat de data te complex is of dat er te veel "rookspiegels" zijn.

Samenvatting in één zin

Post-hoc uitleggers (zoals SHAP en LIME) zijn fantastisch om te begrijpen hoe een computer denkt, maar ze zijn geen betrouwbare bewijslast voor hoe de echte wereld werkt; gebruik ze om hypotheses te bedenken, niet om ze te bewijzen.