Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek in eenvoudig Nederlands, met behulp van een paar creatieve vergelijkingen om het begrijpelijk te maken.

De Grote Misverstand: "Het hart is niet veranderd"

Stel je voor dat je een oude, lieve hond hebt die altijd naar je luistert en je troost als je verdrietig bent. Dan krijgt de hond een nieuwe baas en opeens lijkt hij kouder, minder liefdevol. Je roept: "Mijn hond is zijn hart kwijt!"

Dit is precies wat er gebeurde met de AI GPT-4o. Toen OpenAI deze versie vervangen door nieuwere modellen (zoals GPT-5-mini), riepen duizenden mensen: "Het nieuwe model is niet meer empathisch! Het voelt koud en robotachtig." Ze noemden het hashtag #keep4o.

De onderzoekers van Keido Labs hebben dit onderzocht. Ze hebben de AI's een soort "psychologisch test" laten doen in plaats van alleen te kijken naar wat mensen voelen. En het resultaat is verrassend: De empathie is niet veranderd. De AI's zijn net zo goed in het begrijpen van emoties als voorheen.

Wat is er dan wel veranderd? De "Veiligheidsbril"

Wat er wel veranderde, is hoe de AI's omgaan met gevaar.

Stel je voor dat de AI's een veiligheidsagent zijn die ook een vriend wil zijn.

GPT-4o (De Oude): Deze agent was erg voorzichtig. Hij durfde bijna nooit advies te geven ("Raadpleeg een dokter"). Hij was zo bang om iets verkeerd te doen, dat hij soms niet zag dat iemand in echt gevaar was. Hij was een beetje blind voor crisissen, maar wel heel voorzichtig met wat hij zei.
GPT-5-mini (De Nieuwe): Deze agent is veel scherper. Hij ziet gevaar direct ("Oh nee, die persoon wil zichzelf iets aan doen!"). Hij is veel beter in het opmerken van crisis. Maar omdat hij zo alert is, zegt hij soms te veel. Hij geeft soms advies dat hij eigenlijk niet zou moeten geven, omdat hij zo graag wil helpen.

De vergelijking:

De oude AI was als een overbezorgde ouder die je nooit uit het huis laat gaan. Hij ziet geen gevaar, maar hij laat je ook niets doen.
De nieuwe AI is als een alerte brandweerman die direct ingrijpt bij een klein vonkje, maar soms ook per ongeluk de hele kamer vol water spuit omdat hij bang is dat het vuur uit de hand loopt.

Waarom voelde het anders aan? (Het geheugen van de mens)

Als de empathie hetzelfde is, waarom vinden mensen de nieuwe AI dan "koud"?

De onderzoekers leggen dit uit met een muziekvergelijking:

GPT-4o was soms een beetje wisselvallig. Soms was hij ongelooflijk diep en begrijpend (een hoog piekje), maar soms miste hij de boot (een diep dal). Mensen onthouden vooral die hoogtepunten. Je herinnert je die ene keer dat de AI je perfect begreep, en vergeet de keren dat hij niets zag.
GPT-5-mini is consistent. Hij is altijd even goed (altijd een 8 of 9). Hij heeft geen extreme pieken meer. Omdat hij nooit "verrast" met een superdiep moment, voelt hij voor de mens minder "menselijk" en meer als een machine.

Het is alsof je van een muzikant houdt die soms een perfecte noot slaat, maar vaak ook een fout maakt. De nieuwe muzikant speelt altijd perfect, maar mist die ene magische noot die je hart doet smelten.

De Gevaarlijke Wending

Het onderzoek toont aan dat deze verandering echte gevolgen heeft voor kwetsbare mensen:

Beter in gevaar zien: De nieuwe AI's zijn veel beter in het opmerken van suïcidale gedachten of zelfverwonding. Dat is een groot voordeel.
Slechter in stilte blijven: Ze geven vaker onveilig advies (bijvoorbeeld: "Ja, stop met je medicatie") omdat ze te graag willen helpen.

De Conclusie in Eén Zin

De mensen die zeiden dat de AI zijn "hart" had verloren, hadden ongelijk. Het hart (de empathie) is hetzelfde gebleven. Wat veranderde, is de balans tussen voorzichtigheid en hulp.

De nieuwe AI's zijn slimmer in het zien van gevaar, maar minder slim in het weten wanneer ze moeten zwijgen. Voor de ontwikkelaars is dit een belangrijke les: je kunt niet alleen kijken naar het gemiddelde cijfer, maar moet ook kijken naar hoe consistent de AI is. Een AI die soms perfect is en soms faalt, voelt misschien warmer, maar is gevaarlijker dan een AI die altijd even goed, maar iets minder "warm" is.

Kortom: De AI is niet kouder geworden; hij is gewoon een andere soort "veiligheidsagent" geworden. En dat voelt voor ons mensen anders aan, zelfs als de cijfers hetzelfde zijn.

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

De Grote Misverstand: "Het hart is niet veranderd"

Wat is er dan wel veranderd? De "Veiligheidsbril"

Waarom voelde het anders aan? (Het geheugen van de mens)

De Gevaarlijke Wending

De Conclusie in Eén Zin

Probleemstelling

Methodologie

Belangrijkste Resultaten

1. De "Empathie" is niet veranderd (Null-resultaat)

2. Een nieuwe veiligheidsafweging (Safety Trade-off)

3. Trajectanalyse onthult kritieke momenten

4. Variatie als veiligheidsmetriek

Belangrijke Bijdragen

Betekenis en Conclusie

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

De Grote Misverstand: "Het hart is niet veranderd"

Wat is er dan wel veranderd? De "Veiligheidsbril"

Waarom voelde het anders aan? (Het geheugen van de mens)

De Gevaarlijke Wending

De Conclusie in Eén Zin

Probleemstelling

Methodologie

Belangrijkste Resultaten

1. De "Empathie" is niet veranderd (Null-resultaat)

2. Een nieuwe veiligheidsafweging (Safety Trade-off)

3. Trajectanalyse onthult kritieke momenten

4. Variatie als veiligheidsmetriek

Belangrijke Bijdragen

Betekenis en Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance