CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models
Dit paper introduceert de CEI-benchmark, een dataset van 300 gevalideerde scenario's die wordt gebruikt om het vermogen van taalmodellen om pragmatisch redeneren en impliciete betekenissen te interpreteren in verschillende machtsdynamieken en sociale situaties te evalueren.
Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL