Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Dit onderzoek toont aan dat ChatGPT communicatiegegevens consistent en betrouwbaar codeert over verschillende demografische groepen heen, vergelijkbaar met menselijke beoordelaars, waardoor het geschikt is voor grootschalige evaluaties van samenwerking.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van dit wetenschappelijke artikel in gewoon, begrijpelijk Nederlands, met wat creatieve vergelijkingen om het duidelijk te maken.

De Kernvraag: Is de digitale "rechter" eerlijk voor iedereen?

Stel je voor dat je een grote groep mensen hebt die samenwerken aan een puzzel of een plan. Ze praten allemaal met elkaar via een chat. Om te zien hoe goed ze samenwerken, moeten we die chatberichten lezen en in hokjes verdelen: "Dit was een goed idee," "Dit was een conflict," of "Dit was een vraag."

Vroeger deden menselijke beoordelaars dit werk. Ze zaten urenlang te typen en te lezen. Dat is duur, tijdrovend en lastig om op grote schaal te doen.

Nu hebben we ChatGPT (een slimme computer). De onderzoekers hebben ontdekt dat je ChatGPT kunt zeggen: "Lees deze chats en vul de hokjes in." En dat doet de computer bijna net zo goed als een mens.

Maar hier zit de addertje onder het gras:
Is die computer voor iedereen even goed? Of is hij misschien slimmer in het begrijpen van wat mannen zeggen dan wat vrouwen zeggen? Of begrijpt hij de taal van mensen met een andere achtergrond beter dan die van anderen? Als de computer voor één groep minder goed werkt, is dat onrechtvaardig.

De onderzoekers van dit artikel (van het ETS Research Institute) wilden precies dat weten. Ze hebben gekeken of ChatGPT eerlijk is voor verschillende groepen mensen (man/vrouw en verschillende etnische achtergronden).

De Drie Tests (De "Eerlijkheids-Check")

Om dit te testen, hebben ze drie simpele checks bedacht, alsof je een nieuwe auto test voordat je hem koopt:

  1. De "Gelijkheids-Check" (RQ1):

    • De analogie: Stel je voor dat je twee mensen hebt die een wedstrijd houden: één mens en één computer. Ze moeten allebei hetzelfde chatbericht beoordelen.
    • De vraag: Als we kijken naar alle mannen en alle vrouwen, is het percentage keren dat de mens en de computer het met elkaar eens zijn, voor beide groepen hetzelfde?
    • Het resultaat: Ja. De computer is voor mannen en vrouwen even goed in het "meepraten" met de menselijke beoordelaar.
  2. De "Betrouwbaarheids-Check" (RQ2):

    • De analogie: Stel je voor dat je een weegschaal hebt. Als je er een appel op legt, moet hij elke keer hetzelfde gewicht tonen.
    • De vraag: Is de computer net zo betrouwbaar (stabiel) als de mens? En werkt die betrouwbaarheid voor alle groepen even goed?
    • Het resultaat: Ja. De computer is net zo betrouwbaar voor alle groepen. Er zijn geen groepen waar de computer "wankelt" of onzeker wordt.
  3. De "Tweede Menings-Check" (RQ3):

    • De analogie: Stel je voor dat je een tweede menselijke beoordelaar hebt die ook naar de chat kijkt.
    • De vraag: Als de computer en de eerste mens het eens zijn, is dat patroon hetzelfde als wanneer twee mensen het met elkaar eens zijn?
    • Het resultaat: Ja. Het patroon van overeenstemming is voor alle groepen hetzelfde.

Wat vonden ze precies?

De onderzoekers keken naar drie verschillende soorten taken:

  1. Onderhandelen: Een groep moet een plan maken voor een fundraiser (waarbij iedereen een eigen beloning wil).
  2. Beslissen: Een groep moet kiezen voor het beste appartement.
  3. Puzzelen: Een groep moet een geheim verband tussen letters en cijfers vinden.

De grote ontdekking:
Over het algemeen werkt ChatGPT voor iedereen even goed. Of je nu man of vrouw bent, of van een andere etnische achtergrond, de computer maakt geen systematische fouten die ten koste gaan van één specifieke groep.

Eén klein nuancepuntje:
Er was één situatie waarin het leek alsof er een verschil was: bij de "Onderhandeling"-taak voor zwarte deelnemers. De overeenstemming tussen mens en computer was hier iets lager dan bij witte deelnemers.

  • Maar wacht even! De onderzoekers ontdekten dat dit niet kwam omdat de computer zwarte mensen slechter begreep. Het kwam juist omdat de computer bij de witte deelnemers buitengewoon goed werkte (beter dan twee mensen die met elkaar praten). De witte groep had dus een "super hoge" basis, waardoor de andere groep er in vergelijking slechter uitzag. Het was dus een illusie van ongelijkheid, veroorzaakt door een te hoge prestatie bij de referentiegroep.

Waarom is dit belangrijk?

Vroeger dachten we misschien: "Computers zijn slim, maar ze zijn getraind op internetdata, dus ze hebben misschien vooroordelen."
Dit artikel zegt: "Niet noodzakelijk!" Als je de computer goed instrueert (de juiste "recept" of prompt geeft), kan hij communicatie data net zo eerlijk en consistent coderen als mensen.

Dit betekent dat we in de toekomst veel grootschalige tests kunnen doen over samenwerking en communicatie, zonder dat we duizenden mensen nodig hebben om alles handmatig te lezen. De computer kan de zware last dragen, zolang we maar blijven controleren of hij het eerlijk doet.

Conclusie in één zin

ChatGPT is als een nieuwe, super-snelle tolk die voor iedereen even goed werkt; hij maakt geen fouten die specifiek gericht zijn op één geslacht of achtergrond, waardoor hij een veilige en eerlijke hulp kan zijn voor het beoordelen van samenwerking in de toekomst.