Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Each language version is independently generated for its own context, not a direct translation.

Der digitale Schiedsrichter: Kann eine KI fair bewerten, was Menschen sagen?

Stellen Sie sich vor, Sie haben eine riesige Bibliothek voller Gespräche, die Menschen während gemeinsamer Aufgaben geführt haben – sei es beim Planen einer Party, beim Suchen einer neuen Wohnung oder beim Lösen eines Rätsels. Um zu verstehen, wie gut diese Teams zusammenarbeiten, müssen Experten diese Gespräche „lesen" und in Kategorien einteilen (z. B.: „Hier wurde eine Idee geteilt", „Hier wurde verhandelt", „Hier wurde das Team motiviert").

Früher mussten menschliche Experten jede einzelne Nachricht lesen und kategorisieren. Das ist wie das manuelle Sortieren von Millionen von Briefen: extrem zeitaufwendig, teuer und mühsam.

Jetzt kommt ChatGPT (eine künstliche Intelligenz) ins Spiel. Die Forscher haben herausgefunden, dass man der KI einfach sagen kann: „Sortiere diese Nachrichten nach diesen Regeln", und sie macht das fast so gut wie ein Mensch.

Aber hier kommt das große „Aber":
Wenn ein neuer Schiedsrichter (die KI) ins Spiel kommt, stellt sich die Frage: Ist er für alle Spieler fair?
Bewertet er die Gespräche von Männern genauso gut wie die von Frauen? Und bewertet er die Sprache von Schwarzen, Weißen, Hispanics oder Asiaten ohne Vorurteile? Oder lernt die KI aus ihren Trainingsdaten unbewusst Vorurteile, die dazu führen, dass sie manche Gruppen schlechter versteht als andere?

Diese Studie von ETS (Educational Testing Service) untersucht genau das. Sie nutzen drei einfache „Checks" (Prüfungen), um die Fairness der KI zu testen.

Die drei Prüfungen (mit Analogien)

Stellen Sie sich die KI und die menschlichen Experten als zwei verschiedene Schiedsrichter vor, die ein Spiel beobachten.

1. Der „Einigkeitstest" (Klingt die KI wie ein Mensch?)

Die Frage: Wenn ein Mensch und die KI denselben Chat lesen, entscheiden sie sich dann für dieselbe Kategorie? Und passiert das bei allen demografischen Gruppen gleich oft?
Die Analogie: Stellen Sie sich vor, zwei Richter sitzen nebeneinander. Richter A ist ein Mensch, Richter B ist die KI. Wenn Richter A sagt: „Das war eine nette Geste", sagt Richter B dann auch „Nette Geste"? Oder sagt er bei Männern „Nette Geste", aber bei Frauen „Zu viel Gerede"?
Das Ergebnis: Die Studie fand heraus: Ja, sie sind sich fast immer einig. Die KI urteilt bei Männern und Frauen sowie bei verschiedenen ethnischen Gruppen auf die gleiche Weise wie die menschlichen Experten. Es gibt keine systematischen Vorurteile.

2. Der „Zuverlässigkeits-Check" (Ist die KI immer gleich gut?)

Die Frage: Ist die Übereinstimmung zwischen KI und Mensch bei allen Gruppen gleich stark?
Die Analogie: Stellen Sie sich vor, die KI ist ein Messgerät. Wenn Sie es auf einen Apfel legen, zeigt es 100g an. Legen Sie es auf eine Birne, zeigt es 100g an. Aber ist das Messgerät bei jeder Person, die einen Apfel wiegt, gleich präzise? Oder wird es bei Schwarzen ungenauer als bei Weißen?
Das Ergebnis: Auch hier: Die Zuverlässigkeit ist überall gleich. Die KI ist bei allen Gruppen gleich stabil.

3. Der „Zweit-Richter-Vergleich" (Verhält sich die KI wie ein zweiter Mensch?)

Die Frage: Wenn wir zwei menschliche Richter haben, wie oft stimmen sie überein? Wenn wir einen Menschen und die KI nehmen, ist das Muster der Einigkeit ähnlich?
Die Analogie: Wenn zwei menschliche Richter streiten, ist das normal. Wenn die KI und ein Mensch streiten, ist das auch normal. Die Frage ist: Streiten sie anders mit bestimmten Gruppen?
Das Ergebnis: Das Muster ist identisch. Die KI verhält sich in Bezug auf Uneinigkeiten genau so wie ein zweiter menschlicher Richter.

Ein kleiner Haken (Die Nuance)

Es gab eine kleine Ausnahme bei einer Aufgabe namens „Verhandlung". Hier schien die Übereinstimmung zwischen KI und Mensch bei Schwarzen Teilnehmern etwas niedriger zu sein als bei Weißen.
Aber: Die Forscher haben genau hingeschaut und festgestellt, dass die KI die Schwarzen Teilnehmer nicht schlechter bewertet hat. Das Problem war, dass die Übereinstimmung bei den Weißen Teilnehmern unglaublich hoch war (fast perfekt). Da die Basis so hoch war, sah der Unterschied zu den anderen Gruppen größer aus, als er wirklich war. Es war also kein Vorurteil der KI gegen eine Gruppe, sondern ein „zu perfektes" Ergebnis bei der Referenzgruppe.

Was bedeutet das für uns?

Die gute Nachricht:
Die KI ist wie ein sehr talentierter, neutraler Praktikant. Sie kann riesige Mengen an Gesprächen analysieren, ohne dabei Menschen aufgrund ihres Geschlechts oder ihrer Herkunft zu benachteiligen. Das eröffnet die Tür, um in Zukunft große Tests (z. B. in Schulen oder bei Bewerbungen) durchzuführen, bei denen Teamfähigkeit bewertet wird – etwas, das bisher zu teuer und zu langsam war.

Die Vorsicht:
Die Forscher sagen aber auch: „Traue, aber prüfe."

Die KI ist noch nicht perfekt. Bei sehr schwierigen Aufgaben oder komplexeren Regeln könnte sie stolpern.
Sie sollte den Menschen nicht komplett ersetzen, sondern eher als Assistent dienen, der die schwere Arbeit macht, während der Mensch das letzte Wort hat.
Es ist wichtig, die KI immer zu überwachen, damit sie nicht lernt, neue Vorurteile zu entwickeln, wenn sie mit neuen Daten trainiert wird.

Fazit:
Die Studie zeigt, dass ChatGPT ein vielversprechendes Werkzeug ist, um menschliche Kommunikation fair und schnell zu bewerten. Es ist wie ein neuer, sehr genauer Kompass, der uns hilft, die Fähigkeiten von Teams in einer digitalen Welt besser zu verstehen – solange wir ihn sorgfältig nutzen und nicht blind vertrauen.

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Der digitale Schiedsrichter: Kann eine KI fair bewerten, was Menschen sagen?

Die drei Prüfungen (mit Analogien)

Ein kleiner Haken (Die Nuance)

Was bedeutet das für uns?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerung

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Der digitale Schiedsrichter: Kann eine KI fair bewerten, was Menschen sagen?

Die drei Prüfungen (mit Analogien)

Ein kleiner Haken (Die Nuance)

Was bedeutet das für uns?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerung

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA