AI Psychometrics: Evaluating the Psychological Reasoning of Large Language Models with Psychometric Validities

Dit artikel introduceert het veld AI-psychometrie en toont aan dat vier prominente grote taalmodellen, met name de nieuwere versies GPT-4 en LLaMA-3, psychometrisch valide zijn voor het evalueren van hun psychologische redeneervermogen aan de hand van het Technology Acceptance Model.

Yibai Li, Xiaolin Lin, Zhenghui Sha, Zhiye Jin, Xiaobing Li

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superintelligente robot hebt die alles kan lezen en schrijven wat een mens kan. Maar er is een probleem: niemand weet precies hoe die robot in zijn hoofd denkt. Het is een "zwarte doos". Je geeft een opdracht, en hij geeft een antwoord, maar het pad daar tussenin is zo complex dat zelfs de bouwers van de robot het niet kunnen verklaren.

Deze paper is als een nieuwe manier om die zwarte doos te openen, niet met een hamer, maar met een psychologische spiegel.

Hier is wat de onderzoekers hebben gedaan, vertaald naar simpele taal:

1. De Idee: AI met een Persoonlijkheidstest

Omdat deze robots (die "Large Language Models" of LLM's heten) zo slim zijn, denken de onderzoekers: "Laten we ze behandelen alsof ze mensen zijn." In de psychologie gebruiken we testen om te zien of iemand slim is, of een bepaald karakter heeft, of goed kan voorspellen hoe anderen zich voelen.

De onderzoekers hebben deze robots onderzocht met een bekende test: het TAM-model (Technology Acceptance Model).

  • De Analogie: Stel je voor dat je een nieuwe app op je telefoon downloadt. Vraag je jezelf af: "Is dit handig voor mij?" (Nuttig) en "Is dit makkelijk te gebruiken?" (Gemakkelijk). Als het antwoord op beide ja is, ga je de app waarschijnlijk gebruiken.
  • De onderzoekers hebben deze vragen aan vier verschillende AI's gesteld: GPT-3.5, GPT-4, LLaMA-2 en LLaMA-3. Ze wilden weten: Begrijpen deze robots echt wat mensen vinden van een app, of gooien ze alleen maar woorden door elkaar?

2. De Uitdaging: De "Gokker" vs. De "Denker"

Een groot probleem bij AI is dat ze vaak als een gokker werken. Als je ze iets vraagt, kiezen ze het meest waarschijnlijke antwoord, maar dat antwoord is vaak altijd hetzelfde. Dat is saai voor onderzoek.

Om dit op te lossen, gebruikten ze een slimme truc die ze de "Diffusie-methode" noemen.

  • De Analogie: Stel je voor dat je een druppel inkt in een glas water laat vallen. De inkt verspreidt zich (diffundeert) in alle richtingen. In plaats van één antwoord te vragen, lieten de onderzoekers de AI's een gesprek voeren waarbij ze stap voor stap nieuwe vragen kregen, gebaseerd op het vorige antwoord. Hierdoor ontstond een heel groot, gevarieerd gesprek, net als die verspreidende inkt. Dit gaf hen genoeg data om echt te kunnen meten.

3. De Testen: Wat hebben ze gemeten?

Ze keken naar vier soorten "validiteit" (geldigheid), wat in het Nederlands betekent: "Hoe goed is deze test eigenlijk?"

  1. Samenhang (Convergent Validity):
    • Vraag: Als de AI zegt dat iets "handig" is, klopt dat dan met andere vragen over "handig"?
    • Resultaat: De slimste robots (GPT-4 en LLaMA-3) waren hier heel goed in. Ze dachten consistent mee. De oudere, kleinere modellen (zoals LLaMA-2) waren hier soms wat slordig in.
  2. Onderscheid (Discriminant Validity):
    • Vraag: Kan de AI het verschil zien tussen "handig" en "gemakkelijk"?
    • Resultaat: Ja! Alle robots wisten goed te onderscheiden dat iets handig kan zijn, maar niet per se makkelijk. Ze verwarren deze concepten niet.
  3. Voorspelling (Predictive Validity):
    • Vraag: Als de AI zegt dat iets handig is, kan hij dan voorspellen of mensen het daadwerkelijk gaan kopen?
    • Resultaat: De slimste robots (GPT-4) voorspelden bijna net zo goed als echte mensen. De oudere modellen waren hier veel minder goed in.
  4. Wereldkennis (External Validity):
    • Vraag: Gedragen de robots zich in deze test net als echte mensen in de echte wereld?
    • Resultaat: Ja. De patronen die de robots lieten zien, kwamen overeen met hoe echte mensen reageren.

4. De Grote Conclusie: Groter is Beter (en Menselijker)

Het belangrijkste nieuws uit dit onderzoek is dat slimmere robots ook menselijker denken.

  • GPT-4 en LLaMA-3 (de nieuwste en grootste modellen) gedroegen zich in deze psychologische tests bijna als echte mensen. Ze hadden een sterke "psychologische logica".
  • GPT-3.5 en LLaMA-2 (de oudere versies) deden het ook goed, maar waren wat minder consistent en voorspelbaar.

Waarom is dit belangrijk?

Vroeger keken we alleen of een AI goed wiskunde kon doen of feiten kon onthouden (zoals een IQ-test). Dit onderzoek laat zien dat we nu ook kunnen meten of een AI sociaal en emotioneel slim is.

Het is alsof we niet meer alleen kijken of een robot goed kan rekenen, maar of hij ook begrijpt waarom een mens blij wordt van een cadeautje. Als we dit kunnen meten, kunnen we AI's veiliger en eerlijker maken, zodat ze beter begrijpen wat goed is voor ons mensen.

Kortom: De onderzoekers hebben bewezen dat we AI's niet alleen als rekenmachines hoeven te zien, maar dat we ze met psychologische testen kunnen begrijpen. En hoe slimmer de AI, hoe meer hij lijkt op een mens die echt nadenkt.