CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models
Ce papier présente le benchmark CEI, un ensemble de données validé par des humains contenant 300 scénarios conçus pour évaluer la capacité des modèles de langage à effectuer un raisonnement pragmatique en inférant le sens intentionnel au-delà de la sémantique littérale dans divers contextes sociaux et relations de pouvoir.
Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL