CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Each language version is independently generated for its own context, not a direct translation.

De "CEI": Een Test voor de Sociale Intelligentie van AI

Stel je voor dat je op een feestje bent. Iemand zegt tegen jou: "Oh, wat een geweldig idee, laten we nog een uur blijven."

Als je kijkt naar alleen de woorden, klinkt dit als enthousiasme. Maar als je kijkt naar de situatie (het is al laat, iedereen is moe) en de toon van de spreker (een zucht, een gefronste wenkbrauw), snap je dat deze persoon eigenlijk zegt: "Ik ben doodop en ik wil hier weg."

Dit noemen mensen pragmatisch redeneren: het begrijpen van wat iemand echt bedoelt, niet alleen wat ze letterlijk zeggen.

Dit is precies waar grote taalmodellen (zoals de AI's die we vandaag gebruiken) enorme moeite mee hebben. Ze zijn briljant in het samenvatten van nieuws of het schrijven van gedichten, maar ze zijn vaak slecht in het doorgronden van sociale nuances.

De auteurs van dit paper hebben daarom een nieuwe test ontwikkeld, genaamd CEI (Contextual Emotional Inference). Hier is hoe het werkt, vertaald naar begrijpelijke taal:

1. De Test: Een Spel van "Wat zit er achter de woorden?"

De onderzoekers hebben 300 korte scenario's bedacht. Elke situatie bevat:

Een context: Bijvoorbeeld een werkkamer, een familiefeest of een winkel.
Mensen met een verhouding: Een baas en een medewerker, of twee vrienden.
Een zin die dubbelzinnig is: Iemand zegt iets dat letterlijk beleefd klinkt, maar misschien boos, sarcastisch of passief-agressief bedoeld is.

Het doel: De AI moet raden: Wat voelt deze persoon echt? Is hij boos? Verdrietig? Of is hij gewoon sarcastisch?

2. De Vijf "Trucjes" van Mensen

De test focust op vijf manieren waarop mensen hun ware gevoelens verbergen:

Sarcastisch: "Ja, super dat je weer te laat bent." (Bedoeling: Ik ben boos).
Gemengde signalen: "Ik ben wel oké," terwijl er tranen in de ogen staan.
Strategische beleefdheid: "Dat is zeker een benadering." (Bedoeling: Dat is een stom idee).
Passieve agressie: "Nee, nee, ik doe het wel zelf. Opnieuw." (Bedoeling: Ik ben gefrustreerd dat jij het niet doet).
Afleiden: "Overigens, wat een mooi weer vandaag!" (Bedoeling: Ik wil niet over dit ongemakkelijke onderwerp praten).

3. De Menselijke "Gouden Standaard"

Om te weten of de AI het goed doet, hebben ze eerst 15 studenten laten meedoen. Ze moesten de gevoelens van de spreker raden.

Het verrassende resultaat: Zelfs mensen waren het niet altijd eens! Soms dacht de één: "Hij is boos", en de ander: "Hij is verdrietig".
Waarom is dat goed? Dit toont aan dat de test echt moeilijk is. Het is geen simpele quiz met één goed antwoord. Het laat zien dat sociale communicatie vaak vaag en dubbelzinnig is.

4. Hoe presteert de AI?

De onderzoekers lieten zeven verschillende AI-modellen de test doen. Het resultaat? Ze zakten erdoor.

Mensen hadden ongeveer 54% van de tijd gelijk (als ze met elkaar overeenkwamen).
De beste AI had slechts 25% van de tijd gelijk.

Dit is alsof je een kind vraagt om een volwassene te begrijpen, en het kind raadt het maar een kwart van de keren goed. De AI's konden de "toets" niet doorgronden. Ze zagen de woorden, maar misten de onderliggende emotie en de sociale dynamiek (wie heeft macht over wie?).

5. Waarom is dit belangrijk?

Stel je voor dat een AI gebruikt wordt in de gezondheidszorg of in het werk.

Goed gebruik: Een chatbot voor mentale gezondheid die merkt dat een patiënt zegt: "Ik ben wel oké," maar eigenlijk wanhopig is. Of een HR-tool die passieve agressie in e-mails herkent voordat er ruzie ontstaat.
Slecht gebruik: Een baas die een AI gebruikt om te controleren of werknemers "te negatief" klinken in hun berichten, of politieke manipulatie waarbij AI's precies weten hoe ze mensen moeten prikkelen zonder dat ze het merken.

Conclusie

De CEI-benchmark is als een "rijbewijstest" voor sociale intelligentie. Tot nu toe hebben de meeste AI's deze test nog niet gehaald. Ze zijn nog te letterlijk en missen het vermogen om de ongeschreven regels van menselijke interactie te begrijpen.

De auteurs zeggen eigenlijk: "We hebben een spiegel opgehangen. De AI's kijken erin en zien dat ze nog veel moeten leren over wat het betekent om menselijk te zijn."

Dit onderzoek helpt ons niet alleen om betere AI te bouwen, maar ook om te begrijpen waar de grenzen liggen van machines in onze sociale wereld.

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

1. De Test: Een Spel van "Wat zit er achter de woorden?"

2. De Vijf "Trucjes" van Mensen

3. De Menselijke "Gouden Standaard"

4. Hoe presteert de AI?

5. Waarom is dit belangrijk?

Conclusie

Titel: CEI: Een Benchmark voor het Evalueren van Pragmatisch Redeneren in Taalmodellen

1. Het Probleem

2. Methodologie: De CEI Benchmark

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

1. De Test: Een Spel van "Wat zit er achter de woorden?"

2. De Vijf "Trucjes" van Mensen

3. De Menselijke "Gouden Standaard"

4. Hoe presteert de AI?

5. Waarom is dit belangrijk?

Conclusie

Titel: CEI: Een Benchmark voor het Evalueren van Pragmatisch Redeneren in Taalmodellen

1. Het Probleem

2. Methodologie: De CEI Benchmark

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models