From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Each language version is independently generated for its own context, not a direct translation.

De Kernboodschap: "De Uitleg is niet altijd de Waarheid"

Stel je voor dat je een superkrachtige, maar ondoorzichtige robot hebt die heel goed is in voorspellingen. Bijvoorbeeld: hij kan precies voorspellen welke mensen een nieuwe app zullen downloaden. Maar niemand weet hoe de robot tot die conclusie komt; hij is een "zwarte doos".

Om te begrijpen wat de robot doet, gebruiken onderzoekers hulpmiddelen (zoals SHAP en LIME). Deze hulpmiddelen proberen de robot een spiegel voor te houden en zeggen: "Kijk, de robot kijkt vooral naar 'Leeftijd' en 'Inkomen'."

Het probleem: Veel onderzoekers in het bedrijfsleven denken nu: "Ah, omdat de robot naar 'Leeftijd' kijkt, betekent dit dat leeftijd in het echte leven ook de belangrijkste reden is waarom mensen de app downloaden."

Deze studie zegt: Pas op! Dat is een valkuil. De uitleg van de robot vertelt je hoe de robot denkt, niet noodzakelijk hoe de werkelijkheid werkt.

De Analogie: De Drie Voorspellers

Om dit uit te leggen, gebruiken we een analogie met drie voorspellers die proberen te voorspellen wie de winnaar wordt van een voetbalwedstrijd.

De Robot (Het ML-model): Deze robot heeft een enorme database en voorspelt de winnaar met 90% nauwkeurigheid. Hij is geweldig.
De Uitlegger (SHAP/LIME): Dit is de vertaler die probeert te zeggen waarom de robot zo voorspelt. Hij zegt bijvoorbeeld: "De robot denkt dat de regen belangrijk is."
De Waarheid (De Data): De echte reden waarom teams winnen (bijvoorbeeld: de kwaliteit van de spits).

Wat de studie ontdekt heeft:

1. De Uitlegger is vaak "in de war" (Misinterpretatie)
De studie kijkt naar 181 onderzoeken. Ze ontdekten dat bijna de helft van de onderzoekers de uitleg van de robot (de vertaler) gebruikt als bewijs voor de echte wereld.

Vergelijking: Het is alsof je een vertaler vraagt wat de chef-kok van een restaurant denkt over het eten, en je dat dan gebruikt om te bewijzen wat de klant echt lekker vindt. De vertaler vertelt je wat de chef denkt, niet wat de klant voelt.

2. De "Rashomon-effect": Verschillende verhalen, zelfde resultaat
Dit is het belangrijkste concept uit het papier. Stel je voor dat je een moord oplost. Er zijn drie verdachten die allemaal een perfecte alibi hebben en allemaal even waarschijnlijk de dader lijken.

Verdachte A zegt: "Ik deed het met een mes."
Verdachte B zegt: "Ik deed het met een vergif."
Verdachte C zegt: "Ik deed het met een kussen."

Alle drie hebben ze een "perfecte" alibi (hoge voorspellingsscore), maar ze vertellen totaal verschillende verhalen. In de wereld van AI noemen we dit het Rashomon-effect. Er zijn veel verschillende modellen die even goed voorspellen, maar die totaal andere redenen gebruiken.

Als je naar Verdachte A kijkt, denk je: "Het was een mes!"
Maar als je naar Verdachte B kijkt, denk je: "Het was vergif!"
Conclusie: Je kunt niet vertrouwen op het verhaal van één verdachte om de waarheid te vinden, zelfs als die verdachte heel slim is.

3. Hoge nauwkeurigheid is niet genoeg
Veel mensen denken: "Als de robot 99% goed voorspelt, moet zijn uitleg ook wel kloppen."
De studie zegt: Nee. Een robot kan 99% goed voorspellen door toevallige patronen te gebruiken die niets met de echte oorzaak te maken hebben.

Vergelijking: Een horloge dat stilstaat is twee keer per dag precies goed. Maar als je vraagt "waarom is het nu 12 uur?", en het horloge zegt "omdat de zon schijnt", dan is dat een goede voorspelling (het klopt), maar een slechte uitleg (de oorzaak is de batterij, niet de zon).

4. Wanneer kun je het wel vertrouwen?
De studie geeft een slimme tip: Kijk naar de meningsverschillen.
Als je tien verschillende robots hebt die allemaal even goed voorspellen, en ze vertellen allemaal hetzelfde verhaal ("Het is de leeftijd!"), dan is de kans groot dat het waar is.
Maar als de robots allemaal even goed voorspellen, maar ze hebben totaal verschillende redenen ("Sommigen zeggen leeftijd, anderen zeggen inkomen, anderen zeggen weer"), dan is de uitleg onbetrouwbaar. Je weet dan niet welke "waarheid" je moet geloven.

Wat betekent dit voor onderzoekers en bedrijven?

De auteurs geven een duidelijk advies:

Gebruik deze tools niet om conclusies te trekken. Gebruik SHAP of LIME niet om te zeggen: "Dit is de oorzaak van het probleem."
Gebruik ze als een kompas, niet als een kaart. Ze zijn goed om ideeën te genereren. "Misschien is inkomen wel belangrijk? Laten we dat eens met een traditionele, strenge wetenschappelijke methode testen."
Wees sceptisch. Als je ziet dat verschillende modellen totaal verschillende uitleg geven, stop dan met het trekken van conclusies. Het betekent dat de data te complex is of dat er te veel "rookspiegels" zijn.

Samenvatting in één zin

Post-hoc uitleggers (zoals SHAP en LIME) zijn fantastisch om te begrijpen hoe een computer denkt, maar ze zijn geen betrouwbare bewijslast voor hoe de echte wereld werkt; gebruik ze om hypotheses te bedenken, niet om ze te bewijzen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

In de zakelijke research worden post-hoc uitleggers (zoals SHAP en LIME) steeds vaker gebruikt om complexe machine learning-modellen te interpreteren. Hoewel deze tools oorspronkelijk zijn ontworpen om het gedrag van een model te verklaren (de relatie $X \to \hat{Y}$ ), is er een alarmerende trend ontstaan waarbij onderzoekers deze uitleggen interpreteren als bewijs voor onderliggende data-relaties (de relatie $X \to Y$ ).

De auteurs identificeren een veelvoorkomende misinterpretatie: onderzoekers generaliseren modelafhankelijke attributies (bijv. "dit kenmerk heeft een hoge SHAP-waarde") naar causale of associatieve claims over de werkelijke data-genererende processen (bijv. "dit kenmerk veroorzaakt een verhoging van het resultaat"). Uit een systematische review van 181 studies blijkt dat ongeveer 42,5% van de artikelen in de zakelijke literatuur deze uitleggen gebruikt om hypothesen over de data te valideren, in plaats van ze als exploratieve tools te zien. De kernvraag is: in hoeverre kunnen post-hoc uitleggen de richting en relatieve sterkte van de ware data-relaties betrouwbaar herstellen?

Methodologie

De auteurs hanteren een vierfasige aanpak om de validiteit van deze interpretaties te testen:

Literatuurstudie en Conceptualisering:
- Analyse van 181 studies (inclusief 56 in toonaangevende tijdschriften) om de prevalentie van data-niveau inferentie te kwantificeren.
- Definiëren van twee formele metrieken voor validiteit:
  - Direction Alignment: Meet of de richting van verandering die door de uitlegger wordt gesuggereerd (bij het variëren van een kenmerk) overeenkomt met de ware richting in de data-genererende processen.
  - Strength Alignment: Meet of de rangschikking van kenmerkbelang (feature importance) door de uitlegger overeenkomt met de ware rangschikking in de data.
Simulatie-experimenten:
- Generatie van 81 gecontroleerde datasets met bekende "ground truth" ( $X \to Y$ ).
- Variatie in data-complexiteit: aantal kenmerken, correlatiestrength, niet-lineariteit en interactie-effecten.
- Training van diverse ML-modellen (o.a. XGBoost, Random Forest) en toepassing van SHAP en LIME.
- Evaluatie van de uitleggen tegen de bekende ground truth.
Analyse van Drijfveren (Drivers):
- Onderzoek naar factoren die misalignement veroorzaken:
  - Voorspellende prestaties van het model.
  - De Rashomon Effect: het fenomeen waarbij veel verschillende modellen vergelijkbare voorspellende nauwkeurigheid hebben, maar fundamenteel verschillende interne representaties en kenmerkattributies gebruiken.
  - Data-eigenschappen (correlatie, complexiteit).
Diagnostiek via Rashomon Sets:
- Definieren van Rashomon Agreement: de mate van overeenstemming tussen meerdere even nauwkeurige modellen, zowel in hun voorspellingen als in hun uitleggen.
- Testen of deze overeenstemming dient als signaal voor de betrouwbaarheid van de uitleg.

Belangrijkste Resultaten

Gemiddelde prestatie vs. Dataset-betrouwbaarheid: Hoewel SHAP en LIME gemiddeld hoge alignement-scores laten zien, vertonen de resultaten aanzienlijke heterogeniteit. Er is sprake van een lange linkse staart in de verdeling: voor een aanzienlijk deel van de dataset-modelcombinaties is de uitleg fundamenteel misleidend, zelfs als het model een hoge voorspellende nauwkeurigheid heeft.
Noodzakelijk maar onvoldoende: Hoge voorspellende nauwkeurigheid is een noodzakelijke voorwaarde voor betrouwbare uitleg, maar zeker niet voldoende. Modellen met bijna identieke nauwkeurigheid kunnen sterk uiteenlopende uitleggen genereren.
De Rashomon Effect als hoofdoorzaak: De aanwezigheid van een grote Rashomon-set (veel even goede modellen) is een fundamentele oorzaak van misalignement. Omdat meerdere modellen de data even goed voorspellen maar verschillende "verhalen" vertellen over welke kenmerken belangrijk zijn, kan de uitleg van één enkel model niet worden vertrouwd als de waarheid over de data.
Invloed van Data-eigenschappen:
- Kenmerkcorrelatie is de dominante drijver van misalignement. Hoge correlatie maakt het mogelijk dat modellen verschillende substituten gebruiken, wat leidt tot onstabiele uitleggen.
- Niet-lineariteit en interacties vergroten ook de onzekerheid, maar correlatie heeft het sterkste effect.
Diagnostische waarde van Overeenstemming:
- Er is een sterke correlatie tussen Explanation Agreement (overeenstemming in uitleggen tussen modellen in een Rashomon-set) en de werkelijke alignement met de ground truth (correlatie tot ~0.79 voor SHAP).
- Prediction Agreement (overeenstemming in voorspellingen) is veel minder informatief. Modellen kunnen dezelfde voorspellingen doen op basis van totaal verschillende interne logica's.
- Lage overeenstemming in uitleggen tussen even nauwkeurige modellen is een sterk waarschuwingssignaal dat de uitleg onbetrouwbaar is.

Bijdragen en Significantie

Waarschuwing tegen Hypotheseverificatie: Het artikel waarschuwt dringend tegen het gebruik van post-hoc uitleggen (SHAP/LIME) om hypothesen over data-relaties te valideren. Dit leidt vaak tot data-misinterpretatie.
Herpositionering als Exploratietool: Post-hoc uitleggen moeten worden gezien als tools voor hypothesegeneratie (exploratie), niet voor conclusie. Ze kunnen helpen bij het identificeren van interessante variabelen of patronen die vervolgens moeten worden getest met rigoureuze methoden (zoals causale inferentie, experimenten of econometrische modellen).
Nieuwe Diagnostiek: De auteurs introduceren "Rashomon Agreement" als een praktische, dataset-niveau diagnose. Onderzoekers kunnen de betrouwbaarheid van een uitleg inschatten door te kijken naar de variatie in uitleggen tussen meerdere even nauwkeurige modellen. Als deze variatie groot is, moet de uitleg met grote voorzichtigheid worden geïnterpreteerd.
Implicaties voor Zakelijk Onderzoek: De bevindingen hebben grote gevolgen voor de interpretatie van ML-resultaten in management, marketing en finance. Het benadrukt dat voorspellende kracht niet gelijkstaat aan causaal inzicht en dat de "black box" van ML niet zomaar kan worden omgezet in causale beweringen zonder extra validatiestappen.

Conclusie:
De paper concludeert dat post-hoc uitleggen inherent onbetrouwbaar zijn voor het afleiden van de ware data-genererende structuur ( $X \to Y$ ) wanneer er sprake is van een Rashomon-effect. De enige manier om de betrouwbaarheid te beoordelen, is door te kijken naar de consistentie van uitleggen binnen een set van even nauwkeurige modellen. Zonder deze consistentie moeten uitleggen worden beschouwd als voorlopige, exploratieve inzichten in plaats van harde bewijzen.

From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

De Kernboodschap: "De Uitleg is niet altijd de Waarheid"

De Analogie: De Drie Voorspellers

Wat de studie ontdekt heeft:

Wat betekent dit voor onderzoekers en bedrijven?

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

Exploring AI in Fashion: A Review of Aesthetics, Personalization, Virtual Try-On, and Forecasting

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Inverse classification with logistic and softmax classifiers: efficient optimization

BarcodeBERT: Transformers for Biodiversity Analysis

On Minimal Depth in Neural Networks