Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, comme si on en discutait autour d'un café.

🕵️‍♂️ Le Grand Test de Détection des Mensonges (ou presque)

Imaginez que vous êtes un détective. On vous donne une règle simple : « Si une carte a un chiffre impair d'un côté, alors l'autre côté doit avoir une lettre majuscule. »
Devant vous, il y a quatre cartes :

Un 7 (impair)
Un 12 (pair)
Une lettre D (majuscule)
Une lettre d (minuscule)

La question : Quelles cartes devez-vous retourner pour vérifier si la règle est vraie ou fausse ?

La réponse logique est le 7 (pour voir s'il y a bien une majuscule) et le d (pour vérifier qu'il n'y a pas de chiffre impair caché derrière).
Problème : La plupart des humains (et des intelligences artificielles) se trompent. Ils retournent le 7 et le D. Pourquoi ? Parce que leur cerveau aime ce qui « correspond » à la règle (7 et D), au lieu de chercher ce qui pourrait la briser. C'est comme chercher des preuves qui vous donnent raison, plutôt que de chercher à prouver que vous avez tort.

🤖 L'IA est-elle un humain ou un robot ?

Les chercheurs de l'Université Keio au Japon se sont demandé : « Les grandes intelligences artificielles (comme celles qui écrivent des poèmes ou répondent à vos questions) raisonnent-elles comme des humains ? »

Ils ont créé un jeu spécial avec deux types de règles :

Les règles abstraites (Descriptives) : Comme l'exemple du 7 et de la lettre D. C'est ennuyeux, sans lien avec la vie réelle.
Les règles de « devoir » (Déontiques) : Des règles de la vie courante, comme : « Si vous avez du sang sur les mains, vous devez porter des gants. »

🧠 Le Résultat Surprenant : L'IA a un « Sens de la Morale »

Voici ce qu'ils ont découvert, avec une petite analogie :

Imaginez que l'IA est un étudiant très studieux mais un peu rigide.

Dans le cas abstrait (le 7 et la lettre D) : L'étudiant est perdu. Il ne comprend pas le lien entre un chiffre et une lettre. Il fait des erreurs, tout comme un humain moyen.
Dans le cas des règles de « devoir » (le sang et les gants) : Soudain, l'étudiant s'éveille ! Il obtient de bien meilleurs résultats.

Pourquoi ?
Tout comme les humains, les IA semblent avoir un « mode spécial » pour les règles sociales et morales (ce qu'on doit faire ou ne pas faire). Elles sont beaucoup plus douces pour comprendre les règles du type « Si tu fais ça, tu dois faire ça » que pour les règles abstraites sans sens. C'est comme si leur cerveau (ou leur code) était câblé pour comprendre les lois sociales plus facilement que les mathématiques pures.

🎯 Le Vrai Coupable : Le « Biais de Correspondance »

Les chercheurs ont aussi voulu savoir pourquoi l'IA se trompe. Deux suspects étaient en lice :

Le Biais de Confirmation : L'IA cherche à prouver qu'elle a raison (elle veut voir le 7 et le D pour confirmer la règle).
Le Biais de Correspondance (Matching Bias) : L'IA est paresseuse. Elle ne lit pas bien les négations (« ne pas », « pas »). Elle regarde juste les mots qui apparaissent dans la phrase et choisit les cartes qui ont les mêmes mots, peu importe la logique.

L'analyse a révélé :
L'IA ne cherche pas vraiment à se confirmer elle-même. Elle est simplement paresseuse avec les mots.

Si la règle dit : « Si le sang est là, ne porte pas de gants », l'IA a tendance à ignorer le « ne... pas » et à choisir la carte « Gants » simplement parce que le mot « Gants » est dans la phrase.
C'est comme si l'IA lisait un titre de journal et ne lisait que les mots gras, en ignorant tout le reste.

📝 En Résumé

L'IA n'est pas un robot parfait : Elle a des faiblesses très humaines. Elle est meilleure pour raisonner sur des règles morales (devoirs, interdits) que sur des règles abstraites.
Elle a le même défaut que nous : Quand elle se trompe, ce n'est pas parce qu'elle veut « avoir raison » (biais de confirmation), mais parce qu'elle se laisse piéger par les mots qui « collent » ensemble, en oubliant souvent les petits mots de négation comme « pas » ou « non ».
L'avenir : Cela nous aide à comprendre que pour rendre les IA plus intelligentes, il ne suffit pas de leur donner plus de données, il faut peut-être les entraîner à mieux comprendre la nuance et la négation, comme on apprend à un enfant à lire entre les lignes.

En gros, cette étude nous dit que nos robots deviennent de plus en plus humains, avec toutes nos petites erreurs de logique et nos préférences pour les histoires de « bien et mal » plutôt que pour les abstractions froides.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task" en français.

1. Problématique et Contexte

Les modèles de langage de grande taille (LLM) montrent des capacités de raisonnement croissantes, mais la nature de ces capacités reste à élucider. En psychologie cognitive, il est établi que le raisonnement humain présente une spécificité de domaine : les humains excellent dans le raisonnement conditionnel lorsqu'il s'agit de règles déontiques (normes, obligations, permissions) par rapport aux règles descriptives (faits abstraits). Ce phénomène est souvent attribué à des mécanismes cognitifs spécialisés dans l'évolution sociale.

Cependant, il est encore inconnu si les LLM, entraînés sur des corpus massifs, reproduisent cette spécificité de domaine. De plus, la source des erreurs de raisonnement chez les humains (et potentiellement chez les LLM) est débattue entre deux biais cognitifs :

Le biais de confirmation : La tendance à chercher des preuves qui confirment la règle (sélectionner $p$ et $q$ ).
Le biais d'appariement (Matching Bias) : La tendance à sélectionner les éléments qui correspondent lexicalement aux termes de la règle, en ignorant la négation (sélectionner $p$ et $q$ même si la règle est $p \to \neg q$ ).

L'objectif de cette étude est d'évaluer systématiquement les LLM sur la Tâche de Sélection de Wason pour déterminer s'ils exhibent une spécificité de domaine et quel biais (confirmation ou appariement) explique le mieux leurs erreurs.

2. Méthodologie

Les auteurs ont conçu une expérience rigoureuse basée sur la Tâche de Sélection de Wason, en introduisant des améliorations méthodologiques par rapport aux travaux précédents.

A. Construction du Dataset

Nouveau Dataset : Ils ont créé un ensemble de données de 160 problèmes, divisé en deux catégories principales :
- Règles Déontiques : Contenant des modaux d'obligation ou d'interdiction (ex: "Si le sang coule, l'infirmière doit porter des gants").
- Règles Descriptives : Énoncés factuels sans dimension normative (ex: "Si le nombre est impair, la lettre est majuscule").
Contrôle de la Polarité : Pour chaque catégorie, les règles varient selon quatre polarités logiques pour tester la sensibilité à la négation :
1. Pos-Pos ( $p \to q$ )
2. Pos-Nég ( $p \to \neg q$ )
3. Nég-Pos ( $\neg p \to q$ )
4. Nég-Nég ( $\neg p \to \neg q$ )
Exclusion des permissions : Les règles de permission (ex: "Si A, alors B est autorisé") ont été exclues car elles ne génèrent pas de cartes à retourner logiquement dans ce paradigme, afin de maintenir la cohérence des réponses correctes.

B. Modèles Évalués

L'étude a testé 5 familles de modèles (Open-weight), incluant des modèles de "raisonnement" (reasoning models) et des modèles standards :

Modèles de raisonnement : gpt-oss (20B, 120B), Qwen 3 (14B, 32B).
Modèles non-spécialisés (Instruction-tuned) : Gemma 3 (4B, 12B, 27B), Llama 3.3 (70B), OLMo 2 (32B).

C. Protocole Expérimental

Conditions de Prompting : Zero-Shot, Few-Shot (avec des exemples intentionnellement erronés pour éviter l'apprentissage par cœur), et Chain-of-Thought (CoT).
Métrique : La précision (Accuracy) est calculée selon un critère d'équivalence exacte : le modèle doit sélectionner exactement les deux cartes correctes (ni plus, ni moins) pour être compté comme juste.
Analyse des Biais : Les erreurs sont analysées pour voir si elles correspondent au biais de confirmation (sélection de $TA$ et $TC$ ) ou au biais d'appariement (sélection de $p$ et $q$ lexicaux, ignorant la négation).

3. Résultats Clés

A. Spécificité de Domaine

Les résultats montrent une différence de performance significative entre les deux types de règles :

Meilleure performance sur les règles déontiques : Tous les modèles, quelle que soit leur taille ou leur architecture, obtiennent une précision plus élevée sur les règles déontiques que sur les règles descriptives.
Amélioration : L'écart de précision varie de +5,0 % à +41,2 % en faveur des règles déontiques.
Corrélation avec la taille : Les modèles plus grands (ex: gpt-oss-120B, Qwen-32B) atteignent des performances quasi-parfaites (>98%) sur les règles déontiques, tandis que les modèles plus petits montrent des gains plus modestes mais toujours positifs.

B. Analyse des Biais (Confirmation vs Appariement)

L'analyse détaillée des erreurs révèle que le biais d'appariement est le meilleur explicateur des erreurs des LLM, plutôt que le biais de confirmation :

Rejet du biais de confirmation : Les modèles ne sélectionnent pas systématiquement les cas qui confirment la règle ( $TA$ et $TC$ ) indépendamment de la négation. Par exemple, dans les règles avec négation, la sélection de la conséquence vraie ( $TC$ ) n'est pas systématiquement élevée.
Preuve du biais d'appariement : Les modèles tendent à sélectionner les cartes qui correspondent lexicalement aux termes de la règle ( $p$ $p$ et $q$ $q$ ), même lorsque la logique exige de sélectionner leurs négations ( $\neg p$ $\neg p$ ou $\neg q$ $\neg q$ ).
- Exemple : Pour une règle "Si $p$ , alors $\neg q$ ", les modèles sélectiontent souvent $p$ et $q$ (appariement lexical) au lieu de $p$ et $\neg q$ (logique correcte).
- Ce comportement est particulièrement visible dans les conditions avec négation, suggérant que les LLM ont des difficultés à traiter la négation dans un contexte conditionnel, un défi connu pour les architectures Transformer.

4. Contributions Principales

Dataset Innovant : Introduction d'un nouveau dataset pour la Tâche de Wason avec un encodage explicite de la modalité déontique, permettant une distinction systématique entre règles déontiques et descriptives.
Évaluation Complète : Une évaluation à jour de modèles LLM modernes (y compris les modèles de raisonnement) sur ce paradigme, dépassant les études antérieures qui utilisaient des modèles plus petits ou moins spécialisés.
Parallèle Humain-LLM : Démonstration que les LLM reproduisent le phénomène de spécificité de domaine observé chez les humains (meilleure performance sur les normes sociales/déontiques).
Identification du Biais : Clarification que les erreurs des LLM dans ce paradigme sont mieux expliquées par le biais d'appariement (ignorer la négation) que par le biais de confirmation, alignant ainsi les mécanismes d'erreur des LLM sur certaines théories cognitives humaines.

5. Signification et Implications

Cette étude a plusieurs implications importantes pour la recherche sur l'IA et la cognition :

Nature du Raisonnement des LLM : Les résultats suggèrent que les LLM ne raisonnent pas de manière purement formelle et abstraite. Leur performance dépend fortement du contexte sémantique (déontique vs descriptif), indiquant une forme de "spécificité de domaine" émergente, probablement liée à la fréquence et à la structure des données d'entraînement.
Limites de la Négation : La prédominance du biais d'appariement confirme que la gestion de la négation dans le raisonnement conditionnel reste un point faible des modèles, même pour les plus avancés.
Convergence Cognitive : Le fait que les LLM partagent des biais d'erreur similaires à ceux des humains (biais d'appariement) et des avantages contextuels similaires (déontique > descriptif) suggère que les mécanismes d'inférence des LLM, bien que statistiques, capturent certaines régularités cognitives humaines.
Futur de la Recherche : L'article ouvre la voie à des analyses mécanistiques pour comprendre pourquoi ces biais apparaissent (biais inductifs architecturaux, données d'entraînement) et suggère d'étendre ce cadre à d'autres formes de raisonnement conditionnel et à des distinctions plus fines entre permission et obligation.

En conclusion, cette recherche établit que les LLM ne sont pas des moteurs de logique formelle universels, mais qu'ils exhibent des comportements de raisonnement conditionnel qui varient systématiquement selon le type de règle, imitant à la fois les succès et les erreurs biaisées des humains.