Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

Die Arbeit stellt Sketch2Feedback vor, ein Grammar-in-the-Loop-Framework für STEM-Diagramme, das durch die Kombination von symbolischer Regelprüfung und multimodalen Modellen hallucinationsarmes, rubrikkonformes Feedback liefert, wobei die Evaluation auf synthetischen Daten zeigt, dass dieser Ansatz zwar die Halluzinationsraten senkt und die Handlungsfähigkeit des Feedbacks verbessert, jedoch eine komplexe Abwägung zwischen Genauigkeit und Robustheit bei verschiedenen Diagrammtypen erfordert.

Aayam Bansal

Veröffentlicht 2026-02-24
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Sketch2Feedback: Wie man Schülern bei Physik-Zeichnungen hilft, ohne zu halluzinieren

Stellen Sie sich vor, ein Schüler hat eine physikalische Aufgabe gelöst und ein Bild gezeichnet – etwa wie Kräfte auf einen schiefen Plan wirken oder wie ein Stromkreis aufgebaut ist. Die Aufgabe für den Lehrer (oder eine KI) ist es, dieses Bild zu prüfen und konstruktives Feedback zu geben: „Hier fehlt eine Kraft" oder „Dieser Widerstand ist falsch herum".

Das Problem ist: Wenn wir moderne KI-Modelle (die sogenannten „Multimodalen Modelle") einfach bitten, diese Bilder anzuschauen und zu bewerten, neigen sie dazu, Dinge zu erfinden. Man nennt das Halluzinieren. Die KI sagt vielleicht: „Ah, ich sehe hier einen Widerstand!", obwohl gar keiner da ist. Das ist für den Unterricht fatal, denn wenn die KI Dinge erfindet, verlieren Schüler und Lehrer das Vertrauen.

Die Autoren des Papers haben eine neue Lösung namens Sketch2Feedback entwickelt. Hier ist die Idee, einfach erklärt mit ein paar Analogien:

1. Das Problem: Der „Kreativ-Künstler" vs. der „Strenge Prüfer"

Stellen Sie sich einen sehr kreativen, aber etwas chaotischen Künstler vor (das ist die normale KI). Er schaut auf eine Zeichnung und sagt sofort: „Ich sehe hier einen Fehler!" – aber oft erfindet er den Fehler nur, weil er so viel Phantasie hat.

Die Autoren sagen: „Nein, wir brauchen einen anderen Ansatz." Sie bauen eine Fabrik mit vier Stationen, in der die KI erst am Ende das Wort bekommt.

2. Die Lösung: Die „Grammatik-in-der-Schleife"-Fabrik

Statt der KI zu erlauben, alles frei zu beschreiben, zwingen sie sie durch einen strengen Prozess. Man kann sich das wie eine Sicherheitskontrolle am Flughafen vorstellen, bei der nur das durchkommt, was wirklich da ist.

Hier sind die vier Stationen:

  • Station 1: Die Detektive (Das Sehen)
    Zuerst schauen klassische Computerprogramme (keine KI, sondern einfache Mathematik) auf das Bild. Sie suchen nach Pfeilen, Linien und Symbolen. Sie sagen: „Ich sehe einen Pfeil hier und eine Linie dort." Das ist wie ein Roboter, der nur zählt, was er sieht, ohne zu interpretieren.
  • Station 2: Der Architekt (Der Bauplan)
    Die gefundenen Teile werden zu einem digitalen Bauplan zusammengebaut. „Der Pfeil ist mit der Linie verbunden." Das ist wie ein Bauleiter, der die einzelnen Ziegelsteine zu einem Haus zusammenfügt.
  • Station 3: Der strenge Prüfer (Die Regeln)
    Jetzt kommt der wichtigste Teil. Ein Computerprogramm vergleicht den Bauplan mit den Regeln der Aufgabe.
    • Beispiel: „Die Aufgabe verlangt, dass der Boden geerdet ist. Ist er geerdet? Nein. Also ist das ein Fehler."
    • Beispiel: „Die Aufgabe verlangt, dass keine Kraft nach links zeigt. Zeigt eine Kraft nach links? Nein. Alles okay."
      Dieser Prüfer ist extrem streng. Er ignoriert alles, was nicht explizit als Fehler in den Regeln steht. Er ist wie ein Lehrer, der nur auf die Checkliste schaut.
  • Station 4: Der Dolmetscher (Die KI)
    Erst jetzt darf die eigentliche KI (der „Dolmetscher") sprechen. Aber sie bekommt keine freie Aufgabe wie „Beschreibe das Bild!". Stattdessen bekommt sie nur eine Liste vom strengen Prüfer: „Hey, hier ist ein Fehler: Der Boden ist nicht geerdet."
    Die KI muss nun nur noch diesen Fehler in nette, verständliche Sätze verpacken. Da sie den Fehler vom Prüfer bestätigt bekommen hat, kann sie nicht mehr halluzinieren. Sie kann keinen Fehler erfinden, der nicht auf der Liste steht.

3. Was haben sie herausgefunden? (Die Ergebnisse)

Die Forscher haben das System an zwei Arten von Zeichnungen getestet:

  1. Kraftdiagramme (FBD): Bilder mit Pfeilen, die Kräfte zeigen.
  2. Stromkreise: Schaltpläne mit Batterien und Widerständen.

Das Ergebnis war überraschend und lehrreich:

  • Bei Kraftdiagrammen (Pfeile): Die „kreative" KI (die ohne Regeln arbeitet) war besser. Sie konnte die räumlichen Beziehungen zwischen Pfeilen besser verstehen als das strengen Prüfersystem. Das System mit den Regeln verpasste hier viele Fehler.
  • Bei Stromkreisen (Schaltpläne): Hier war das Strengen-Prüfer-System unschlagbar. Die normale KI war hier katastrophal schlecht und fand fast keine Fehler. Das Regel-System hingegen war sehr präzise.

Der wichtigste Durchbruch:
Das System mit den Regeln hat zwar bei Stromkreisen manchmal Fehler gemeldet, die gar nicht da waren (eine hohe „Halluzinationsrate"). Aber weil das System so modular aufgebaut ist, konnten die Forscher sofort sagen: „Aha! Der Fehler liegt nicht bei der KI, die spricht, sondern bei den Detektiven in Station 1, die zu viele Pfeile gesehen haben."

Bei einer normalen KI wüsste man nie, ob sie dumm ist, ob sie halluziniert oder ob sie das Bild falsch verstanden hat. Bei Sketch2Feedback weiß man genau, wo das Problem sitzt. Man kann einfach den „Detektiv" in Station 1 austauschen, ohne das ganze System neu zu erfinden.

4. Fazit für den Alltag

Stellen Sie sich vor, Sie wollen ein Haus bauen.

  • Die normale KI ist wie ein Architekt, der sofort losredet und vielleicht eine Tür erfindet, die gar nicht existiert.
  • Sketch2Feedback ist wie ein Bauplan-System: Zuerst messen wir alles nach (Regeln), dann erst darf der Architekt den Bericht schreiben.

Das System ist nicht in jeder Situation perfekt, aber es ist ehrlich und überprüfbar. Es gibt den Lehrern das Werkzeug an die Hand, um sicherzustellen, dass das Feedback auf echten Fakten basiert und nicht auf KI-Träumen. Das ist ein riesiger Schritt, um KI im Unterricht vertrauenswürdig zu machen.

Kurz gesagt: Sie haben eine KI gebaut, die erst nachdenkt (Regeln prüfen), bevor sie spricht. Das verhindert, dass sie Unsinn erfindet, und hilft Lehrern genau zu sehen, wo die KI Hilfe braucht.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →