Exploring the potential of ChatGPT for feedback… — Allgemeinverständliche Erklärung

✨

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🤖 Der KI-Bewerter: Ein neuer Assistent für Physik-Prüfungen?

Stellen Sie sich vor, Sie sind ein Lehrer, der hunderte von Laborberichten in Physik korrigieren muss. Jeder Bericht enthält Texte, Formeln, Tabellen und Diagramme. Das ist wie ein riesiger Haufen Puzzleteile, den man in Rekordzeit zusammenfügen muss.

Die Forscher aus Uruguay haben sich gefragt: Kann uns eine Künstliche Intelligenz (KI), speziell ein Modell namens ChatGPT, dabei helfen? Sie wollten herausfinden, ob die KI so gut bewertet wie ein echter Lehrer.

🧪 Das Experiment: Der "Reaktionszeit-Test"

Die Forscher haben 57 Berichte von Studenten ausgewählt, die einen einfachen Versuch gemacht haben: Jemand lässt ein Lineal fallen, der andere fängt es. Daraus berechnet man die Reaktionszeit.

Die Aufgabe: Die Studenten mussten ihren Weg beschreiben, die Mathematik erklären, Fehler berechnen und Schlussfolgerungen ziehen.
Der Test: Die KI bekam diese Berichte (als PDF-Dateien) und sollte sie nach einem strengen Punkteschema bewerten – genau wie die echten Lehrer.

🔍 Was hat die KI gesehen? (Die Ergebnisse)

Die Studie vergleicht die KI mit einem Seher, der versucht, ein Bild zu zeichnen, aber nur durch einen dichten Nebel schauen kann.

1. Wo war die KI gut? (Der "Formal-Check")
Die KI war wie ein sehr ordentlicher Sekretär. Sie konnte super erkennen:

"Haben die Studenten einen Titel?"
"Gibt es eine Einleitung?"
"Ist der Text gut strukturiert?"
"Haben sie die richtigen Abschnitte?"
Hier war die KI sehr zuverlässig. Sie lobte die Struktur und die Klarheit fast so gut wie ein Mensch.

2. Wo stolperte die KI? (Der "Nebel im Kopf")
Hier wurde es knifflig. Die KI hatte große Probleme mit den Inhalten, besonders mit Mathematik und Bildern.

Das Bild-Problem: Viele Berichte enthielten Diagramme oder Fotos. Die KI las den Text, aber die Bilder waren für sie wie verschlüsselte Bilder. Sie sah oft nur "Hier ist ein Bild", konnte aber nicht lesen, was darauf stand.
Die Formel-Falle: Wenn Studenten komplexe Gleichungen schrieben, verstand die KI manchmal die Symbole falsch. Es war, als würde sie versuchen, ein Rezept zu lesen, aber die Zutatenliste wäre in einer fremden Sprache geschrieben.
Das Ergebnis: Die KI vergab oft Punkte für Dinge, die sie gar nicht richtig überprüfen konnte, oder sie gab Punkte ab, weil sie etwas nicht lesen konnte.

📊 Der große Vergleich: Lehrer vs. Maschine

Als die Forscher die Noten verglichen, sahen sie etwas Interessantes:

Die Lehrer gaben im Durchschnitt eine 8,6.
Die KI gab im Durchschnitt eine 7,9.
Aber das Wichtigste: Die Reihenfolge der besten und schlechtesten Berichte war bei beiden kaum ähnlich.

Die Metapher:
Stellen Sie sich vor, Sie und ein Freund bewerten zwei Gemälde.

Der Lehrer schaut sich die Farben, die Technik und die Emotion an.
Die KI schaut sich nur den Rahmen und die Größe des Bildes an.
Beide sagen: "Das ist ein Bild." Aber wenn es darum geht, wie gut das Bild ist, kommen sie zu völlig unterschiedlichen Ergebnissen. Die KI ist nicht "dumm", sie sieht nur nicht alles, was der Lehrer sieht.

💡 Die Erkenntnis: Ein Werkzeug, kein Ersatz

Die Studie kommt zu einem klaren Schluss:
Die KI ist wie ein Assistent mit einer Brille, die nur auf den Text fokussiert ist.

Gut für: Sie kann dem Lehrer viel Arbeit abnehmen, indem sie prüft, ob alle Abschnitte da sind, die Sprache stimmt und die Struktur passt. Sie kann Muster erkennen (z. B. "Alle Studenten haben hier denselben Fehler gemacht").
Schlecht für: Sie kann die tiefere physikalische Logik nicht wirklich verstehen, besonders wenn Zahlen und Grafiken im Spiel sind. Sie kann die "Seele" des Experiments nicht beurteilen.

🎓 Das Fazit für die Zukunft

Man kann die KI nicht einfach an die Stelle des Lehrers setzen. Das wäre, als würde man einen Roboter bitten, ein Kunstwerk zu bewerten, ohne dass er die Farben sehen kann.

Die beste Lösung? Ein Teamwork:
Die KI macht den ersten Durchgang (den "Rohschnitt") und prüft die Formalien. Der echte Lehrer schaut sich dann die schwierigen Teile an (die Formeln und Diagramme) und gibt das endgültige Urteil ab. So wird die KI zum nützlichen Werkzeug, das den Lehrer entlastet, aber nicht ersetzt.

Kurz gesagt: Die KI ist ein toller Lektor für die Form, aber noch kein Physiker für den Inhalt.

Each language version is independently generated for its own context, not a direct translation.

Titel: Erkundung des Potenzials von ChatGPT für Feedback und Bewertung in der experimentellen Physik

Autoren: Arturo C. Marti, Marcos Abreu, Alvaro Suárez, Cecilia Stari (Universidad de la República, Uruguay)

1. Problemstellung

Die Bewertung von Laborberichten in der experimentellen Physik ist ein komplexer, ressourcenintensiver Prozess, der schriftliche Erklärungen, mathematische Herleitungen, experimentelle Daten und grafische Darstellungen integriert. Traditionelle Bewertungsmethoden stoßen in großen Kursen oft an Grenzen hinsichtlich der Konsistenz der Benotung und der Zuverlässigkeit des Feedbacks.
Obwohl Generative Künstliche Intelligenz (KI), insbesondere Large Language Models (LLMs), vielversprechend für die Unterstützung von Bewertungsaufgaben erscheint, bestehen erhebliche Herausforderungen bei der automatisierten Auswertung wissenschaftlicher Argumentation. Spezifische Probleme sind:

Die Schwierigkeit, nicht-textuelle Elemente (Formeln, Diagramme, Tabellen) in PDF-Dokumenten zuverlässig zu extrahieren und zu interpretieren.
Die Gefahr von „Halluzinationen" oder oberflächlichen Bewertungen, wenn die KI keine traceable (nachvollziehbare) Evidenz im Text findet.
Die Notwendigkeit, wissenschaftliche Integrität und physikalische Korrektheit zu gewährleisten, was rein automatisierte Systeme bisher nur begrenzt leisten können.

2. Methodik

Die Studie wurde im Rahmen des Kurses „Experimental Physics I" an der Universidad de la República (Uruguay) durchgeführt.

Datensatz: Eine zufällige Stichprobe von 57 Laborberichten aus dem Jahr 2025 (insgesamt 150 Einreichungen) wurde analysiert. Die Berichte bezogen sich auf das Experiment „Reaktionszeit und Statistik".
KI-Modell: Es wurde ein auf GPT-5.4 basiertes Modell verwendet.
Bewertungsrahmen: Die KI wurde mit einem standardisierten, 10-Punkte-Rubrik (Bewertungsraster) konfiguriert, das exakt dem von den Dozenten verwendeten Raster entsprach.
Implementierungsmodalitäten:
1. Automatisierte Batch-Bewertung (API): Ein Skript sendete die Berichte (als Original-PDFs) über die API. Die KI extrahierte Text, Tabellen und Grafiken (via OCR) und bewertete sie basierend auf dem Prompt-Engineering.
2. Konversationelle Interaktion (Explorativ): Eine Teilmenge der Fälle wurde in einem dialogbasierten Modus nachbearbeitet, um zu testen, ob gezielte Nachfragen spezifische Evidenz (z. B. in Bildern versteckte Formeln) besser zugänglich machen.
Analyseverfahren:
- Quantitativ: Vergleich der KI-Scores mit den Dozenten-Scores mittels Spearman-Rangkorrelation ( $\rho$ ) und mittlerem absoluten Fehler (MAE).
- Qualitativ: Kategorisierung des KI-Feedbacks in drei Klassen:
  1. Korrekte Anwendung: Evidenzbasierte Begründung.
  2. Vernünftig, aber oberflächlich: Plausible, aber nicht evidenzbasierte Aussagen.
  3. Ungültige Bewertung: Fehlerhafte Bewertung aufgrund von nicht zugänglicher oder falsch interpretierter Evidenz (explizit oder inferiert).

3. Wichtige Beiträge

Strukturierte Evaluierung von GPT-5.4: Die Studie liefert eine der ersten detaillierten Analysen, wie ein spezifisches LLM (GPT-5.4) in einem strengen, rubrikbasierten Bewertungsprozess für physikalische Laborberichte abschneidet.
Differenzierung von Evidenzproblemen: Ein wesentlicher Beitrag ist die Unterscheidung zwischen expliziten Limitierungen (die KI meldet, dass sie etwas nicht lesen kann) und inferierten Limitierungen (die KI interpretiert verzerrte Daten selbstbewusst, aber falsch).
Vergleich von Interaktionsmodi: Die Studie zeigt, dass die Art der Interaktion (Batch vs. Konversation) einen signifikanten Einfluss auf die Qualität der Bewertung hat, insbesondere bei der Zugänglichkeit von mathematischen und grafischen Daten.

4. Ergebnisse

Korrelation der Scores: Die Übereinstimmung zwischen KI und Dozenten war schwach. Der Spearman-Korrelationskoeffizient betrug nur $\rho = 0,38$ .
Abweichungen: Die KI vergab im Durchschnitt niedrigere Noten als die Dozenten (7,91 vs. 8,63). Der mittlere absolute Fehler (MAE) lag bei 1,01 Punkten.
Qualität des Feedbacks nach Rubrik-Punkten:
- Bei formalen Aspekten (Ziele, theoretischer Hintergrund, Aufbau) erzielte die KI in ca. 84–89 % der Fälle eine „korrekte Anwendung".
- Bei komplexeren analytischen Aufgaben (Datenanalyse, Schlussfolgerungen) stieg der Anteil der „vernünftigen, aber oberflächlichen" und „ungültigen" Bewertungen an.
- Datenanalyse: Hier traten die meisten Probleme auf. Die KI scheiterte oft daran, Histogramme, Gauß-Verteilungen oder Unsicherheitsberechnungen korrekt zu interpretieren, wenn diese in Grafiken oder Formeln steckten, die durch OCR verzerrt wurden.
- Ursache der Diskrepanzen: Viele „ungültige" Bewertungen resultierten daraus, dass die KI mathematische Symbole (z. B. Brüche, Wurzeln) oder Beschriftungen in Diagrammen nicht korrekt extrahieren konnte, aber dennoch eine Bewertung abgab.
Konversationelle Nachbearbeitung: Im dialogbasierten Modus konnte die KI durch gezielte Nachfragen Evidenz berücksichtigen, die im Batch-Modus verloren gegangen war. Dies bestätigte, dass die Interaktionsform die Bewertungsqualität direkt beeinflusst.

5. Bedeutung und Schlussfolgerung

Die Studie kommt zu dem Schluss, dass KI derzeit kein Ersatz für die menschliche Bewertung von Laborberichten in der Physik sein kann, sondern als unterstützendes Werkzeug dient.

Stärken: KI kann konsistentes Feedback zu formalen Aspekten (Struktur, Klarheit, Einhaltung von Konventionen) liefern und Dozenten bei der Vorstrukturierung des Bewertungsprozesses entlasten.
Schwächen: Die Zuverlässigkeit bricht ein, wenn die Bewertung von der Interpretation komplexer mathematischer Herleitungen oder grafischer Daten abhängt, die nicht perfekt extrahiert werden können.
Empfehlung: Eine verantwortungsvolle Integration erfordert eine menschliche Aufsicht (Teacher Supervision), um die Validität physikalischer Schlussfolgerungen und die Interpretation experimenteller Ergebnisse zu gewährleisten. Die KI sollte als Werkzeug zur Identifizierung von Mustern und zur Bearbeitung formaler Aspekte genutzt werden, während die inhaltliche und konzeptionelle Bewertung beim Dozenten verbleibt.

Die Forschung unterstreicht, dass die Entwicklung strukturierter Prompts und standardisierter Interaktionsprotokolle entscheidend ist, um die Lücke zwischen automatisierter Textanalyse und dem Verständnis physikalischer Zusammenhänge zu überbrücken.

Exploring the potential of ChatGPT for feedback and evaluation in experimental physics