From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Cette étude met en garde contre l'utilisation des explicateurs post hoc comme SHAP et LIME pour valider des hypothèses en recherche commerciale, démontrant que leur interprétation comme preuves de relations sous-jacentes dans les données est souvent erronée en raison de l'alignement imparfait et de l'effet Rashomon, et propose plutôt de les utiliser comme outils exploratoires.

Tong Wang (Jeffrey), Ronilo Ragodos (Jeffrey), Lu Feng (Jeffrey), Yu (Jeffrey), Hu

Publié 2026-03-10
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Mythe du Détective Infaillible : Pourquoi les "Explications" des IA peuvent nous tromper

Imaginez que vous êtes un chef d'entreprise. Vous avez un robot super intelligent (un modèle d'Intelligence Artificielle) qui prédit avec une précision incroyable si un client va acheter un produit ou non. Le robot fonctionne comme une boîte noire : il vous donne le résultat, mais vous ne savez pas comment il a pris sa décision.

Pour comprendre le robot, vous engagez un détective (c'est ce qu'on appelle un "explicateur" comme SHAP ou LIME). Ce détective regarde le robot et vous dit : "Ah, c'est parce que le client a regardé la page 'Prix' que le robot a prédit un achat !"

C'est là que le problème commence.

1. Le Piège : Confondre le Robot avec la Réalité

Dans la recherche en affaires, beaucoup de gens font une erreur fatale. Ils pensent que ce que le détective dit sur le robot est une vérité absolue sur le monde réel.

  • La réalité : Le détective explique comment le robot a pensé.
  • L'erreur : Les chercheurs disent : "Puisque le robot a pensé que le 'Prix' était important, c'est que les humains aiment vraiment le 'Prix'."

C'est comme si un traducteur vous disait : "Dans cette phrase en chinois, le mot 'dragon' est important." Vous pourriez conclure à tort que le texte parle de dragons, alors que le traducteur a juste bien fait son travail de traduction, mais le texte original parlait peut-être de politique !

Les auteurs de cette étude ont analysé 181 articles scientifiques et ont découvert que 42 % d'entre eux font cette erreur : ils utilisent les explications du robot pour tirer des conclusions sur la réalité des données, comme si c'était une preuve irréfutable.

2. L'Expérience : Le Test de la Vérité

Pour vérifier si ces détectives sont fiables, les chercheurs ont créé un laboratoire virtuel.
Ils ont inventé une "vérité cachée" (par exemple : "Seulement l'âge et le revenu déterminent l'achat"). Ensuite, ils ont laissé des robots apprendre sur ces données et ont demandé aux détectives (SHAP et LIME) d'expliquer les robots.

Le résultat est surprenant :

  • Les robots sont excellents pour prédire (ils ont 90 % de réussite).
  • Mais les détectives sont souvent confus sur la cause réelle.
  • Parfois, le détective dit : "C'est la couleur du bouton qui compte !", alors que dans la réalité, c'est faux.

Même si le robot est très performant, le détective peut se tromper sur la direction (est-ce que ça augmente ou diminue le résultat ?) ou sur l'importance relative (est-ce que c'est le facteur n°1 ou n°10 ?).

3. La Cause du Problème : L'Effet Rashomon

Pourquoi cela arrive-t-il ? Les chercheurs utilisent une métaphore magnifique : L'Effet Rashomon.

Imaginez un crime. Vous avez 10 témoins (10 modèles d'IA différents).

  • Tous les 10 disent : "Le voleur a fui à 18h00" (ils sont tous d'accord sur le résultat final, ils sont tous "prédictifs").
  • Mais quand vous leur demandez comment le voleur est parti :
    • Le témoin 1 dit : "Il a pris un taxi."
    • Le témoin 2 dit : "Il a couru dans une ruelle."
    • Le témoin 3 dit : "Il a volé un vélo."

Tous les témoignages sont cohérents avec le fait que le voleur est parti à 18h00, mais ils racontent des histoires totalement différentes sur le moyen utilisé.

En intelligence artificielle, c'est pareil. Il existe souvent des milliers de modèles différents qui donnent tous le même résultat parfait, mais qui utilisent des logiques internes totalement opposées. Si vous ne regardez qu'un seul modèle (et son détective), vous ne voyez qu'une seule version de l'histoire, qui peut être fausse par rapport à la réalité.

4. Le Facteur Confusant : Les Liens Cachés

Un autre coupable est la corrélation.
Imaginez que vous vendez des parapluies.

  • Il pleut souvent.
  • Le sol est mouillé.
  • Les gens portent des imperméables.

Ces trois choses sont liées. Un modèle peut dire : "C'est le sol mouillé qui vend les parapluies !", tandis qu'un autre dira : "Non, c'est l'imperméable !". Les deux ont raison pour prédire la vente, mais aucun n'a raison sur la cause réelle (c'est la pluie). Plus les données sont complexes et liées entre elles, plus les détectives ont de mal à trouver la vraie cause.

5. La Solution : Comment faire confiance ?

Alors, faut-il jeter ces outils ? Non, mais il faut changer d'attitude.

Les auteurs proposent une règle d'or : La règle de l'accord.

Avant de croire un détective, demandez-vous : "Si je fais travailler 10 autres robots aussi intelligents que le premier, vont-ils tous dire la même chose ?"

  • Si tous les détectives disent la même chose (ex: "L'âge est le facteur n°1"), alors vous pouvez avoir confiance. C'est un signe que la vérité est claire.
  • Si les détectives se disputent (l'un dit "L'âge", l'autre "Le revenu"), c'est un signal d'alarme rouge ! Cela signifie que la réalité est floue et que vous ne devez pas utiliser ces explications pour prendre des décisions stratégiques ou valider une théorie.

🎯 Conclusion en une phrase

Les outils d'explication (SHAP, LIME) sont excellents pour générer des idées (hypotheses) sur ce qui pourrait être important, mais ils sont dangereux pour prouver ce qui est vrai.

Ne les utilisez pas comme un juge qui rend un verdict final, mais comme un explorateur qui vous dit : "Regardez, il y a quelque chose d'intéressant ici, vérifions-le avec des méthodes plus rigoureuses !".