From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Lehrer, der jeden Tag Dutzende von Aufsätzen von Schülern korrigieren muss, die Englisch als zweite Sprache lernen. Das ist mühsam, zeitaufwendig und manchmal sogar subjektiv – zwei Lehrer könnten denselben Aufsatz unterschiedlich bewerten.

Dieser Forschungsbericht ist wie eine große Vergleichsstudie, die herausfinden will: Welche Art von „KI-Lehrer" ist der beste, um diese Aufsätze automatisch zu bewerten?

Die Forscher haben vier verschiedene Methoden getestet, die alle auf modernen „Großen Sprachmodellen" (LLMs) basieren – also super-intelligenten KI-Systemen wie ChatGPT oder Llama. Hier ist eine einfache Erklärung der vier Ansätze, gemischt mit ein paar bildhaften Vergleichen:

1. Der „Klassische Prüfer" (Diskriminatives Fein-Tuning)

Wie es funktioniert: Man nimmt eine KI und trainiert sie wie einen strengen Prüfer, der nur Zahlen sieht. Man zeigt ihr tausende Beispiele: „Dieser Aufsatz ist eine 5, dieser eine 6." Die KI lernt Muster, um direkt eine Note zu raten.
Die Analogie: Das ist wie ein Schüler, der nur die Lösungen auswendig gelernt hat, ohne den Stoff wirklich zu verstehen. Er kann die Antwort schnell hinschreiben, aber wenn die Frage etwas anders formuliert ist, gerät er ins Wanken.
Ergebnis: Schnell und günstig, aber oft nicht sehr genau oder fair bei komplexen Texten.

2. Der „Fragender Gast" (Prompting / In-Context Learning)

Wie es funktioniert: Man nutzt eine sehr starke KI (wie GPT-4), die man nicht neu trainiert. Man gibt ihr einfach eine Anweisung: „Du bist jetzt ein IELTS-Prüfer. Lies diesen Text und gib eine Note." Manchmal zeigt man ihr auch ein paar Beispiele, wie man es macht (Few-Shot).
Die Analogie: Das ist wie ein berühmter Gastdozent, den man in den Klassenraum holt. Man muss ihn nicht einstellen oder ausbilden. Man sagt ihm einfach: „Mach mal!" Er ist sehr klug und kann gut argumentieren, aber er ist teuer (kostet viel Geld pro Frage) und manchmal ist er launisch – je nachdem, wie man ihn fragt, gibt er unterschiedliche Noten.
Ergebnis: Flexibel, aber teuer und manchmal unzuverlässig.

3. Der „Spezialisierte Coach mit Nachschlagewerk" (Instruction Tuning + RAG)

Wie es funktioniert: Hier wird die KI speziell für die Aufgabe „trainiert" (Instruction Tuning). Noch wichtiger: Sie darf während der Prüfung in ein digitales Nachschlagewerk schauen (RAG = Retrieval-Augmented Generation). Wenn sie einen Aufsatz bewertet, sucht sie zuerst nach ähnlichen Beispielen und den genauen Bewertungskriterien (z. B. „Wie sieht eine perfekte Grammatik aus?").
Die Analogie: Das ist wie ein junger Lehrer, der nicht nur auswendig gelernt hat, sondern während der Korrektur ein perfektes Lehrbuch und eine Mappe mit Musterarbeiten zur Hand hat. Er vergleicht den Schüleraufsatz direkt mit den Regeln und den besten Beispielen.
Ergebnis: Das war der Gewinner der Studie! Diese Methode war am genauesten (93% Trefferquote). Sie ist wie ein Prüfer, der nie vergisst, was die Regeln sind, und sich immer an die besten Beispiele hält.

4. Der „Menschliche Mentor" (SFT + DPO + RAG)

Wie es funktioniert: Diese Methode geht noch einen Schritt weiter. Die KI lernt nicht nur die Regeln, sondern auch, was Menschen bevorzugen. Sie wird so trainiert, dass ihre Rückmeldungen (Feedback) menschlicher, konstruktiver und natürlicher klingen.
Die Analogie: Das ist wie ein erfahrener Mentor, der nicht nur die Note vergibt, sondern dem Schüler sagt: „Hey, deine Ideen sind gut, aber hier hast du den Übergang etwas holprig gemacht. So könnte es besser klingen." Er gibt ein Feedback, das sich anfühlt, als käme es von einem echten, empathischen Lehrer.
Ergebnis: Die Note ist fast so gut wie beim Gewinner (Methode 3), aber das Feedback ist viel besser und menschlicher. Es ist perfekt, wenn man dem Schüler helfen will, sich zu verbessern, nicht nur wenn man eine Note braucht.

Das große Fazit (Die Abwägung)

Die Forscher haben eine wichtige Entdeckung gemacht, die man sich wie eine Waage vorstellen kann:

Genauigkeit vs. Kosten: Je genauer die KI werden soll, desto mehr Rechenleistung (und Geld) kostet es.
Die beste Wahl:
- Wenn Sie schnell und präzise Noten für eine große Prüfung brauchen (wie bei einem offiziellen Test), ist Methode 3 (der Coach mit dem Nachschlagewerk) die beste Wahl. Sie ist wie ein präziser Roboter-Prüfer.
- Wenn Sie dem Schüler helfen wollen, besser zu schreiben, ist Methode 4 (der menschliche Mentor) besser. Sie gibt etwas weniger starre Noten, aber viel wertvollere Ratschläge.

Zusammenfassend: Die Studie zeigt, dass man KI nicht einfach „einfach so" benutzen sollte. Um wirklich gute Ergebnisse zu erzielen, muss man sie entweder mit einem digitalen Nachschlagewerk ausrüsten (für Genauigkeit) oder sie so trainieren, dass sie menschliche Vorlieben versteht (für gutes Feedback). Der „einfache Weg" (nur Fragen stellen) reicht für faire Bewertungen nicht aus.

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

1. Der „Klassische Prüfer" (Diskriminatives Fein-Tuning)

2. Der „Fragender Gast" (Prompting / In-Context Learning)

3. Der „Spezialisierte Coach mit Nachschlagewerk" (Instruction Tuning + RAG)

4. Der „Menschliche Mentor" (SFT + DPO + RAG)

Das große Fazit (Die Abwägung)

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

1. Der „Klassische Prüfer" (Diskriminatives Fein-Tuning)

2. Der „Fragender Gast" (Prompting / In-Context Learning)

3. Der „Spezialisierte Coach mit Nachschlagewerk" (Instruction Tuning + RAG)

4. Der „Menschliche Mentor" (SFT + DPO + RAG)

Das große Fazit (Die Abwägung)

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models