CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Ce papier présente le benchmark CEI, un ensemble de données validé par des humains contenant 300 scénarios conçus pour évaluer la capacité des modèles de langage à effectuer un raisonnement pragmatique en inférant le sens intentionnel au-delà de la sémantique littérale dans divers contextes sociaux et relations de pouvoir.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu

Publié 2026-03-12
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Défi du "Sous-Entendu" : Pourquoi les IA ont du mal à comprendre l'humain

Imaginez que vous êtes à un dîner de famille. Votre oncle, qui déteste cuisiner, vous dit avec un grand sourire : "Oh, c'est super, je vais encore faire la vaisselle ce soir !"

  • Ce que disent les mots (le littéral) : Il est content de faire la vaisselle.
  • Ce qu'il veut dire (le pragmatique) : Il est sarcastique, il est en colère, et il ne veut pas le faire.

Pour un humain, c'est facile. On regarde le ton, le contexte, et la relation entre les personnes. Mais pour une Intelligence Artificielle (IA), c'est un cauchemar. C'est exactement ce que les auteurs de cet article ont voulu tester avec leur nouveau jeu de données appelé CEI.

🎭 Le Jeu de l'Acteur : Ce qu'est le benchmark CEI

Les chercheurs ont créé 300 petites scènes (comme des extraits de pièces de théâtre) pour tester les IA. Chaque scène contient :

  1. Un contexte : Où sont-ils ? (Au travail, à la maison, chez le coiffeur ?).
  2. Des personnages : Qui parle à qui ? (Un patron à un employé, un frère à une sœur ?).
  3. Une phrase ambiguë : Quelque chose de poli mais qui cache une émotion négative, ou l'inverse.

L'objectif est de deviner ce que la personne ressent vraiment, pas ce qu'elle dit.

Ils ont classé ces scènes en 5 catégories de "jeux de mots" sociaux :

  • 🎭 Le Sarcasme : Dire le contraire de ce qu'on pense (ex: "Super, encore une réunion !").
  • 🚦 Les Signaux Mixtes : Des mots qui disent "ça va" mais un ton qui dit "non".
  • 🤝 La Politesse Stratégique : Être très poli pour cacher une critique (ex: "C'est certainly une approche..." pour dire "c'est une mauvaise idée").
  • 😠 L'Aggression Passive : Être d'accord en apparence, mais faire la tête ou saboter les choses (ex: "Non, non, je le ferai moi-même... encore.").
  • 🏃 La Distraction (Déflection) : Changer de sujet pour éviter une conversation inconfortable (ex: "Au fait, il fait beau aujourd'hui !" alors qu'on vous reproche quelque chose).

🎓 Le Test de Vérité : Les Humains vs Les Robots

Pour savoir si c'est difficile, les chercheurs ont demandé à 15 étudiants de jouer les détectives d'émotions.

  • Résultat pour les humains : Même les humains ne sont pas d'accord ! Sur certaines scènes, les étudiants se disputent : "Il est en colère !", "Non, il est triste !", "Il est juste surpris !".
  • Pourquoi ? Parce que la vie réelle est floue. Parfois, il n'y a pas une seule "bonne" réponse. C'est comme essayer de deviner ce que pense un ami qui vous sourit en pleurant.

C'est là que le benchmark est brillant : il ne cherche pas à avoir une réponse unique parfaite, mais à voir si l'IA peut naviguer dans cette zone de flou, tout comme un humain.

🤖 Le Résultat : Les IA sont encore des bébés en social

Les chercheurs ont fait passer le test à 7 IA différentes (les plus avancées du marché, comme GPT, Claude, Llama, etc.).

  • Le score des IA : Environ 25 % de bonnes réponses.
  • Le score des humains : Environ 54 % de bonnes réponses (en suivant l'avis majoritaire).

L'analogie du miroir :
Imaginez que les IA sont comme un enfant de 3 ans qui apprend à parler. Il comprend très bien les mots ("Je veux un bonbon"), mais il ne comprend pas encore les sous-entendus, l'ironie ou les jeux de pouvoir.

  • Les IA sont excellentes pour dire "C'est du sarcasme" si quelqu'un dit "Oh, super, j'ai perdu mon portefeuille !" (c'est trop évident).
  • Mais elles échouent lamentablement sur les distractions ou l'agression passive, là où l'humain doit lire entre les lignes.

💡 Pourquoi c'est important ?

Aujourd'hui, on utilise des IA pour trier des CV, modérer des commentaires sur les réseaux, ou même aider en santé mentale.

  • Si une IA ne comprend pas qu'un employé dit "Je suis d'accord" avec sarcasme, elle pourrait penser que tout va bien alors que l'employé est au bord de la dépression.
  • Si une IA ne détecte pas l'agression passive dans un chat de travail, elle pourrait laisser passer du harcèlement.

En résumé :
Ce papier nous dit : "Arrêtons de croire que les IA comprennent tout. Elles lisent les mots, mais elles ne comprennent pas encore les cœurs ni les relations de pouvoir." C'est un outil pour aider les chercheurs à construire des IA qui seront moins robotiques et plus empathiques, capables de comprendre que parfois, quand quelqu'un dit "Ça va", ça ne veut pas dire "Ça va".