Automated Coding of Communications in Collaborative Problem-solving Tasks Using ChatGPT

Die Studie zeigt, dass ChatGPT zur automatisierten Kodierung von Kommunikationsdaten in kollaborativen Problemlösungsaufgaben eingesetzt werden kann, wobei die Genauigkeit jedoch von der Modellversion, dem verwendeten Kodierungsrahmen und der Aufgabenart abhängt und nicht zwangsläufig durch neuere, auf Schlussfolgerungen spezialisierte Modelle verbessert wird.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi, Lei Liu, Michael Flor

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🤖 ChatGPT als neuer Team-Sport-Beobachter: Eine Reise in die Welt der Zusammenarbeit

Stellen Sie sich vor, Sie beobachten ein großes Sportturnier, bei dem Teams zusammenarbeiten müssen, um schwierige Rätsel zu lösen. Das Problem ist: Es gibt so viele Teams und so viele Gespräche, dass ein einziger menschlicher Beobachter (ein "Schiedsrichter") nie alle Gespräche live mitbekommen und bewerten könnte. Das ist teuer und dauert ewig.

Diese Studie fragt sich: Können wir einen KI-Roboter (ChatGPT) als Schiedsrichter einsetzen, der diese Gespräche liest und bewertet?

Hier ist die Geschichte der Forschung, einfach erklärt:

1. Das große Problem: Der "menschliche Flaschenhals" 🚧

Bisher mussten Menschen jede einzelne Nachricht in einem Chat lesen und in Schubladen stecken (z. B. "Hier wurde eine Idee geteilt" oder "Hier wurde gestritten"). Das ist wie das manuelle Sortieren von Millionen von Briefen. Es ist mühsam, teuer und bremst die Forschung aus.
Die Forscher wollten wissen: Kann ein KI-Modell diese Arbeit übernehmen, ohne dass wir erst Tausende von Beispielen von Menschen lernen lassen müssen?

2. Der Test: Fünf verschiedene Spiele 🎮

Die Forscher gaben dem KI-Beobachter fünf verschiedene Aufgaben, bei denen Teams zusammenarbeiten mussten:

  • Zwei naturwissenschaftliche Spiele: Teams mussten Rätsel über Wasserdampf (Kondensation) und Vulkanausbrüche lösen. Hier gab es viele Fachbegriffe wie "Magma" oder "Moleküle".
  • Drei allgemeine Spiele: Teams mussten verhandeln, Entscheidungen treffen oder Buchstaben in Zahlen umwandeln. Hier ging es mehr um Strategie und Kommunikation.

3. Die Ergebnisse: Nicht jeder Roboter ist gleich gut 🤖

Die Forscher probierten verschiedene Versionen von ChatGPT aus (von der Standard-Version bis zu den neuen, "denkenden" Modellen).

  • Der Gewinner: Die Version GPT-4o war der beste Schiedsrichter. Sie lag fast auf Augenhöhe mit menschlichen Experten.
  • Die Überraschung: Die neuen, teuren "Denk-Modelle" (o1-mini, o3-mini), die eigentlich für komplexe Logik gedacht sind, waren nicht besser. Manchmal waren sie sogar etwas schlechter.
    • Vergleich: Es ist wie beim Fußball: Ein Weltklasse-Torwart (GPT-4o) ist besser als ein Torwart, der extra einen teuren Helm mit "Super-Denk-Kraft" trägt, aber die einfachen Bälle verpasst. Für diese Aufgabe brauchte man keinen Super-Denker, sondern einen guten Beobachter.

4. Das große Hindernis: Fachchinesisch vs. Alltagssprache 🧪🗣️

Hier wurde es interessant.

  • Bei den allgemeinen Spielen (Verhandeln, Entscheidungen) war die KI fast so gut wie der Mensch.
  • Bei den Wissenschaftsspielen (Vulkan, Kondensation) hatte die KI größere Probleme.
    • Warum? Wenn im Chat Begriffe wie "seismische Aktivität" oder "Molekülbewegung" fielen, rutschte die KI öfter in die falsche Schublade.
    • Aber: Selbst ohne diese Fachbegriffe war die KI bei den Wissenschaftsthemen noch nicht perfekt. Das lag nicht nur am Wortschatz, sondern daran, wie die Aufgaben gestellt waren.

5. Der "Koch-Rezept"-Test: Verbessert man die KI durch Feedback? 📝🍳

Die Forscher dachten sich: "Wenn die KI einen Fehler macht, geben wir ihr ein Beispiel, wie es richtig geht, und bitten sie, es noch einmal zu versuchen."

  • Ergebnis: Das half nur bedingt.
    • Bei einem Spiel (Vulkan) wurde die KI dadurch etwas besser (wie ein Koch, der nach einem Feedback sein Rezept leicht anpasst).
    • Bei einem anderen Spiel (Kondensation) half es gar nichts. Die KI verstand zwar den einen Fehler, machte aber dafür neue Fehler bei anderen Dingen.
    • Lehre: Manchmal ist das ursprüngliche Rezept schon so gut, dass man es nicht einfach durch ein paar Beispiele verbessern kann.

6. Das Wichtigste: Das "Kochbuch" (Der Bewertungsrahmen) 📖

Der wichtigste Fund der Studie war: Es kommt darauf an, wie man die Regeln aufschreibt.

  • Ein Bewertungsrahmen, der nur auf trockener Theorie basiert (Framework 1), war für die KI schwer zu verstehen. Sie war verwirrt.
  • Ein Bewertungsrahmen, der auf echten Daten und Erfahrung basiert (Framework 2), war für die KI wie eine klare Landkarte. Hier konnte sie brillieren.
    • Vergleich: Wenn Sie einem Roboter sagen "Sei nett", ist das vage. Wenn Sie sagen "Lächle, wenn jemand 'Hallo' sagt und gib ihm die Hand", versteht der Roboter das viel besser.

Fazit: Was bedeutet das für uns? 🌟

Diese Studie sagt uns: Ja, wir können KI nutzen, um Teamarbeit zu bewerten, aber wir müssen klug sein.

  1. Kein "Teurer ist besser": Man muss nicht das allerneueste, teuerste KI-Modell kaufen. Ein bewährtes Modell wie GPT-4o reicht oft aus.
  2. Die Regeln müssen klar sein: Je einfacher und praxisnäher die Bewertungsregeln sind, desto besser arbeitet die KI.
  3. Ein Team aus Mensch und Maschine: Die KI ist ein fantastischer Assistent, der 80–90 % der Arbeit erledigen kann. Aber sie sollte den Menschen nicht komplett ersetzen, besonders bei sehr schwierigen oder fachspezifischen Themen. Sie ist wie ein sehr fleißiger Praktikant, der die grobe Arbeit macht, während der erfahrene Chef (der Mensch) die Feinheiten prüft.

Kurz gesagt: Die KI kann den "Schiedsrichter" spielen, aber wir müssen ihr die Spielregeln so einfach und klar wie möglich erklären, damit sie nicht den Ball verliert.