Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Cette étude démontre que le codage des données de communication par ChatGPT est aussi cohérent que celui des évaluateurs humains à travers différents groupes démographiques, validant ainsi son utilisation pour des évaluations à grande échelle.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi

Publié 2026-03-09
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de cette recherche, imagée comme si nous racontions une histoire sur un nouveau type d'assistant très intelligent.

🤖 L'histoire du "Juge Robot" et de la Justice pour Tous

Imaginez que vous organisez un grand tournoi de débat entre des équipes. Pour savoir qui gagne, vous devez écouter chaque conversation et noter ce que les gens disent : est-ce qu'ils s'entraident ? Est-ce qu'ils se disputent ? Est-ce qu'ils partagent des idées ?

Traditionnellement, pour faire ce travail, vous engagez des humains (des juges) qui écoutent tout et notent chaque phrase. C'est précis, mais c'est lourd, lent et très cher. C'est comme essayer de compter chaque grain de sable d'une plage à la main.

Récemment, une nouvelle technologie, ChatGPT (une intelligence artificielle), est arrivée. On lui a dit : "Voici les règles, note les conversations à ma place." Et surprise ! L'IA le fait presque aussi bien que les humains, mais en une fraction de seconde. C'est comme si on avait remplacé le comptage manuel par un drone qui scanne la plage en quelques secondes.

Mais voici le gros problème :
On s'inquiète que ce drone (l'IA) soit "bâti" sur des données d'internet qui ne représentent pas tout le monde également. Est-ce que le drone compte les grains de sable aussi bien s'ils appartiennent à une personne noire, une personne blanche, un homme ou une femme ? Ou est-ce qu'il fait des erreurs plus souvent pour certains groupes que pour d'autres ? C'est ce que les chercheurs de l'ETS (l'Institut de Recherche Éducative) ont voulu vérifier.


🔍 Les trois tests de la "Justice du Robot"

Pour répondre à cette question, les chercheurs ont mis en place trois "tests de réalité" (comme des contrôles techniques pour une voiture) pour voir si l'IA est équitable.

1. Le test du "Miroir" (Est-ce qu'on est d'accord ?)

Imaginez que vous et votre ami regardez une vidéo. Vous notez ce qui se passe, et l'IA note aussi.

  • Le test : Est-ce que l'IA et l'humain tombent d'accord sur ce qu'ils voient, que ce soit un homme ou une femme, ou quelqu'un de différentes origines ?
  • Le résultat : Oui ! L'IA voit les choses de la même manière que les humains, peu importe qui parle. C'est comme si le miroir reflétait tout le monde avec la même netteté.

2. Le test de la "Fiabilité" (Est-ce que le robot est stable ?)

Parfois, même les humains ne sont pas d'accord entre eux. Est-ce que l'IA est aussi "instable" que les humains quand elle regarde différents groupes ?

  • Le test : On mesure la cohérence de l'IA (son "Kappa", un score de fiabilité) pour chaque groupe.
  • Le résultat : L'IA est aussi fiable pour les hommes que pour les femmes, et pour les différentes origines ethniques. Elle ne fait pas plus d'erreurs aléatoires pour un groupe que pour un autre.

3. Le test du "Second Juge" (Est-ce que l'IA prédit bien ?)

Si un premier juge humain et l'IA sont d'accord, est-ce qu'un deuxième juge humain sera aussi d'accord avec eux, quel que soit le groupe ?

  • Le résultat : Oui. Les modèles de désaccord sont les mêmes pour l'IA et pour les humains. Si l'IA et un humain se trompent, c'est souvent la même chose qui les trompe, et cela arrive de la même façon pour tout le monde.

⚠️ Une petite nuance (Le cas de la négociation)

Il y a eu un seul moment où les chercheurs ont vu une petite différence. Dans une tâche spécifique appelée "Négociation" (où les gens doivent trouver un compromis), l'IA semblait moins d'accord avec les humains pour les participants noirs que pour les participants blancs.

Mais attention, ce n'est pas ce que cela semble !
Les chercheurs ont découvert que ce n'était pas parce que l'IA était "raciste" ou moins bonne avec les participants noirs. En réalité, c'est parce que l'IA était trop parfaite avec les participants blancs dans cette tâche spécifique (elle était d'accord avec les humains à 99 % !). Comme la barre était si haute pour le groupe blanc, la différence avec le groupe noir semblait grande, alors qu'en réalité, les deux groupes étaient bien notés. C'est comme si un élève blanc avait eu 20/20 et un élève noir 18/20 : la différence semble grande, mais les deux sont excellents.


🎯 La conclusion en une phrase

Cette étude nous dit que ChatGPT est un outil prometteur et équitable pour évaluer les compétences de collaboration et de communication, peu importe le genre ou l'origine des personnes.

Cependant, les chercheurs ajoutent une mise en garde importante : l'IA est un excellent assistant, mais pas encore un chef. Elle ne doit pas remplacer totalement les humains pour l'instant, mais elle peut les aider à faire le travail beaucoup plus vite et à plus grande échelle, tant qu'on garde un œil vigilant pour s'assurer qu'elle reste juste.

En résumé : Le robot est prêt à aider, mais il faut encore que l'humain garde le volant.