Criterion-referenceability determines LLM-as-a-judge validity across physics assessment formats

Die Studie zeigt, dass die Validität von LLMs als Bewertungsinstanz in der Physik nicht von der reinen Modellstärke abhängt, sondern maßgeblich vom Grad der Kriterienreferenzierbarkeit der Aufgaben abhängt, wobei strukturierte Fragen und Code-Plots gut bewertet werden können, während offene Essays aufgrund fehlender expliziter Bewertungsmerkmale kaum valide beurteilt werden können.

Ursprüngliche Autoren: Will Yeadon, Tom Hardy, Paul Mackay, Elise Agra

Veröffentlicht 2026-03-17
📖 5 Min. Lesezeit🧠 Tiefgang

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Der große KI-Prüfer-Test: Wann können wir Maschinen trauen?

Stellen Sie sich vor, Sie haben eine riesige Bibliothek voller Physik-Aufgaben. Früher mussten menschliche Lehrer jede einzelne Aufgabe korrigieren. Das ist mühsam, teuer und manchmal auch unfair, weil jeder Lehrer ein bisschen anders denkt. Jetzt kommen die großen Sprach-KIs (wie GPT-5, Claude, Gemini) ins Spiel. Die Idee: „Lass die KI die Hausaufgaben korrigieren!"

Aber die Forscher von der Durham University haben sich gefragt: Können wir den KI-Lehrern wirklich vertrauen? Oder machen sie nur so, als wären sie klug, während sie im Dunkeln tappen?

Um das herauszufinden, haben sie die KI an drei verschiedenen Arten von Aufgaben getestet. Man kann sich das wie drei verschiedene Sportarten vorstellen:

1. Der Mathe-Test (Strukturierte Fragen)

Die Aufgabe: „Berechne die Geschwindigkeit dieses Autos." Es gibt eine klare, richtige Antwort.
Das Ergebnis: Hier sind die KIs sehr gut.

  • Der Vergleich: Stellen Sie sich vor, ein Schüler löst eine Gleichung. Die KI schaut auf die Zahlen. Wenn die Lösung stimmt, gibt sie Punkte. Wenn nicht, zieht sie ab.
  • Der Clou: Wenn man der KI die „richtige Lösung" (den Lösungsschlüssel) zeigt, wird sie noch besser. Aber selbst wenn man ihr keine Lösung gibt („blind"), schafft sie es trotzdem, gute von schlechten Antworten zu unterscheiden.
  • Die Gefahr: Wenn man der KI aber eine falsche Lösung als Muster gibt, wird sie verrückt. Sie korrigiert dann alles nach dem falschen Muster. Sie verlässt sich blindlings auf das, was ihr gegeben wurde, statt selbst nachzudenken.

2. Der Aufsatz-Test (Essay)

Die Aufgabe: „Schreiben Sie einen Text über die Bedeutung der Quantenphysik für die Gesellschaft." Hier gibt es keine einzelne richtige Antwort. Es geht um Stil, Argumentation und Tiefe.
Das Ergebnis: Hier versagen die KIs komplett.

  • Der Vergleich: Das ist wie wenn man einen KI-Modellbauer bittet, einen Roman zu bewerten. Die KI versucht, den Text zu lesen, aber sie versteht die Seele der Geschichte nicht.
  • Das Problem: Die KI ist oft strenger als Menschen und gibt willkürlich Punkte. Wenn man ihr Beispiele zeigt („Schauen Sie, so sieht ein 10-Punkte-Aufsatz aus"), dann passt sie ihre Noten an, damit sie im Durchschnitt so aussieht wie die menschlichen Lehrer.
  • Der Haken: Die KI sieht dann zwar „normal" aus, aber sie kann immer noch nicht sagen, welcher Aufsatz wirklich besser ist als der andere. Sie ist wie ein Schiedsrichter, der die Punkte so verteilt, dass das Endergebnis stimmt, aber im Spiel selbst nichts versteht. Die Fähigkeit, echte Qualität zu erkennen, bleibt bei Null.

3. Der Grafik-Test (Wissenschaftliche Plots)

Die Aufgabe: Der Schüler hat ein Diagramm programmiert, das eine physikalische Kurve zeigt. Ist die Achse richtig beschriftet? Ist die Skala logisch?
Das Ergebnis: Hier sind die KIs überraschend stark.

  • Der Vergleich: Das ist wie ein Bauinspektor, der einen Plan prüft. Er muss nicht die ganze Geschichte dahinter verstehen, sondern nur schauen: „Sind die Zahlen an der richtigen Stelle? Ist das Bild sauber?"
  • Das Ergebnis: Die KIs können hier fast so gut wie Menschen unterscheiden, ob ein Diagramm gut oder schlecht ist. Sie erkennen Fehler in der Darstellung sehr zuverlässig.

Die große Erkenntnis: Es kommt auf die „Regeln" an

Die Forscher haben einen neuen Begriff erfunden, um das zu erklären: „Kriterien-Referenzierbarkeit".

Das klingt kompliziert, ist aber einfach:

  • Gute Aufgaben (wie Mathe oder Diagramme): Hier gibt es klare Regeln. Man kann genau sagen: „Wenn die Einheit fehlt, gibt es Minuspunkte." Die KI kann diese Regeln befolgen. Sie ist hier ein guter Assistent.
  • Schlechte Aufgaben (wie Essays): Hier gibt es keine klaren Regeln. Man muss ein Gefühl für den Text haben. Die KI kann keine Gefühle haben. Wenn die menschlichen Lehrer sich hier ohnehin schon streiten (wer bekommt 80 Punkte, wer 85?), dann wird die KI nur noch verwirrt. Sie kann hier kein guter Richter sein.

Was bedeutet das für die Schule?

  1. Kein blindes Vertrauen: Man darf nicht einfach sagen „Die KI macht das". Man muss zuerst fragen: „Ist diese Aufgabe so klar definiert, dass auch ein menschlicher Lehrer sie objektiv bewerten kann?"
  2. Die KI als Assistent, nicht als Chef: Bei Mathe oder Diagrammen kann die KI die erste Korrektur machen. Sie spart Zeit. Aber bei Essays oder komplexen Diskussionen sollte ein Mensch das letzte Wort haben.
  3. Vorsicht bei „Beispielen": Wenn man der KI Beispiele zeigt, wie man eine Aufgabe lösen soll, lernt sie nicht unbedingt besser zu bewerten. Manchmal lernt sie nur, wie man die Punkte so verteilt, dass sie wie die menschlichen Lehrer aussieht – auch wenn sie eigentlich gar nicht versteht, warum eine Antwort gut ist.

Zusammenfassend:
Die KI ist wie ein sehr fleißiger, aber etwas starrer Schüler. Bei Aufgaben mit klaren Regeln (Mathe, Diagramme) ist sie ein super Helfer. Bei Aufgaben, die viel Gefühl und Interpretation brauchen (Aufsätze), ist sie wie ein Roboter, der versucht, menschliche Gefühle zu verstehen – und dabei scheitert. Wir müssen also wissen, wann wir sie einsetzen dürfen und wann wir sie besser in Ruhe lassen.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →