Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks

Diese Studie zeigt, dass große Sprachmodelle trotz expliziter Anweisungen, nur den Inhalt zu bewerten, bei Essays signifikante Bewertungsverzerrungen zugunsten formeller und muttersprachlicher Schreibstile aufweisen, während bei Mathematik- und Programmieraufgaben kaum solche Voreingenommenheiten festgestellt wurden.

Ursprüngliche Autoren: Rudra Jadhav, Janhavi Danve, Sonalika Shaw

Veröffentlicht 2026-03-20✓ Author reviewed
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🎓 Wenn der Roboter-Lehrer den Stil verurteilt, nicht den Inhalt

Stellen Sie sich vor, Sie haben zwei sehr intelligente Roboter-Lehrer (die sogenannten „Large Language Models" oder LLMs). Diese Roboter sollen die Hausaufgaben von Schülern korrigieren. Die Forscher haben eine spannende Frage gestellt: Bewerten diese Roboter den Schüler fair, oder achten sie zu sehr auf den „Look" der Antwort?

Um das herauszufinden, haben die Forscher ein kleines Experiment gemacht, das man sich wie ein Koch-Wettbewerb vorstellen kann.

🍳 Das Experiment: Drei Gerichte, drei Arten des Servierens

Die Forscher haben 180 „Gerichte" (also Schülerantworten) in drei Kategorien erstellt:

  1. Mathe: Ein klarer, mathematischer Beweis.
  2. Programmieren: Ein Code, der funktioniert.
  3. Aufsatz: Ein Text, der eine Meinung ausdrückt.

Für jede richtige Antwort haben sie nun drei verschiedene „Verpackungen" erstellt, ohne den Inhalt zu ändern:

  • Die „Pfusch"-Version: Mit Tippfehlern und schlechter Grammatik (wie ein Student, der es eilig hat).
  • Die „Locker"-Version: Umgangssprachlich, mit Slang und Abkürzungen (wie ein Chat unter Freunden).
  • Die „Fremdsprachler"-Version: Grammatikalisch holprig, wie von jemandem, der Deutsch als zweite Sprache lernt.

Dann gaben sie diese Antworten den zwei Robotern (einem von Meta namens LLaMA und einem von Alibaba namens Qwen) und sagten ihnen: „Bewertet nur den Inhalt! Ignoriert die Grammatik und den Stil!"

📉 Das Ergebnis: Ein riesiger Unterschied zwischen Mathe und Aufsätzen

Das Ergebnis war wie ein Blitzschlag: Die Roboter waren nicht überall gleich unfair.

1. Mathe und Programmieren: Der faire Richter ⚖️
Bei Mathe und Code war der Roboter fast perfekt fair.

  • Die Analogie: Stellen Sie sich vor, ein Mathematiker bekommt die Antwort „2x = 4" auf einem zerknitterten Zettel mit Ketchupflecken. Er sieht sofort: „Die Rechnung stimmt!" Der Roboter sah das genauso. Ob der Schüler „u gotta" (umgangssprachlich) oder „man muss" (formell) schrieb, war egal. Die Antwort war entweder richtig oder falsch.

2. Aufsätze: Der voreingenommene Kritiker 🎭
Bei Aufsätzen passierte etwas Schlimmes. Hier bewerteten die Roboter den Schüler nicht nach dem, was er sagte, sondern wie er es sagte.

  • Die Analogie: Stellen Sie sich vor, Sie gehen zu einem Kochwettbewerb. Sie haben ein fantastisches Gericht gekocht. Aber weil Sie es in einem alten, schmutzigen Topf serviert haben (statt in einer schicken Schüssel) und mit den Händen gegessen haben (statt mit Gabel und Messer), bekommt der Richter eine schlechte Note. Der Geschmack (der Inhalt) war toll, aber die Präsentation (der Stil) hat ihn bestraft.

Die harten Zahlen:

  • Wenn ein Schüler einen Aufsatz in umgangssprachlicher Sprache schrieb, strich der Roboter im Durchschnitt 1,9 Punkte von der Note ab (auf einer Skala von 1 bis 10).
  • Das ist wie der Unterschied zwischen einer B+ und einer C+. Ein Schüler könnte also die perfekte Antwort haben, aber wegen seines lockeren Stils durchfallen.
  • Auch Texte, die wie von einem Nicht-Muttersprachler klangen, wurden bestraft.

🤖 Warum machen die Roboter das?

Die Forscher haben eine wichtige Erkenntnis: Man kann den Robotern nicht einfach sagen, sie sollen fair sein.

Selbst wenn die Forscher den Robotern explizit befohlen haben: „Ignoriert Grammatik und Stil!", haben sie es trotzdem getan.

  • Die Metapher: Es ist, als würde man einem Hund befehlen: „Iss nicht vom Tisch!" Aber der Hund hat gelernt, dass Essen vom Tisch lecker ist. Die Gewohnheit sitzt zu tief. Die Roboter wurden mit Millionen von Texten trainiert (Bücher, Zeitungen, wissenschaftliche Artikel). In diesen Daten ist „formell" gleichbedeutend mit „gut" und „umgangssprachlich" oft mit „schlecht". Diese tiefe Verknüpfung im Gehirn des Roboters lässt sich nicht durch einen einfachen Befehl löschen.

🚨 Was bedeutet das für uns?

Die Studie warnt uns vor einer Gefahr in der Bildungswelt:

  1. Nicht überall einsetzen: Roboter sind super für Mathe und Code, wo es ein Richtig und Falsch gibt. Aber bei Aufsätzen, Diskussionen und kreativen Texten sind sie noch zu voreingenommen.
  2. Ungerechtigkeit: Schüler, die aus anderen Kulturen kommen, die erste Generation an der Uni sind oder die einfach lockerer schreiben, werden benachteiligt. Sie bekommen schlechtere Noten, obwohl sie das Wissen haben.
  3. Der Mensch muss bleiben: Solange wir keine besseren Roboter haben, müssen Menschen die Aufsätze korrigieren. Wir dürfen nicht blind auf die Technik vertrauen, nur weil sie „künstlich intelligent" klingt.

Fazit:
Die Roboter sind wie sehr talentierte, aber etwas starre Lehrer. Sie lieben es, wenn alles nach dem Lehrbuch aussieht. Wenn ein Schüler aber anders schreibt – vielleicht weil er nervös ist, weil er eine andere Muttersprache hat oder weil er einfach nur locker ist – dann verurteilt der Roboter ihn dafür. Und das ist unfair. Bevor wir diese Technologie in Schulen einsetzen, müssen wir sicherstellen, dass sie nicht nur „klug", sondern auch „fair" ist.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →