Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

Each language version is independently generated for its own context, not a direct translation.

Sketch2Feedback: Wie man Schülern bei Physik-Zeichnungen hilft, ohne zu halluzinieren

Stellen Sie sich vor, ein Schüler hat eine physikalische Aufgabe gelöst und ein Bild gezeichnet – etwa wie Kräfte auf einen schiefen Plan wirken oder wie ein Stromkreis aufgebaut ist. Die Aufgabe für den Lehrer (oder eine KI) ist es, dieses Bild zu prüfen und konstruktives Feedback zu geben: „Hier fehlt eine Kraft" oder „Dieser Widerstand ist falsch herum".

Das Problem ist: Wenn wir moderne KI-Modelle (die sogenannten „Multimodalen Modelle") einfach bitten, diese Bilder anzuschauen und zu bewerten, neigen sie dazu, Dinge zu erfinden. Man nennt das Halluzinieren. Die KI sagt vielleicht: „Ah, ich sehe hier einen Widerstand!", obwohl gar keiner da ist. Das ist für den Unterricht fatal, denn wenn die KI Dinge erfindet, verlieren Schüler und Lehrer das Vertrauen.

Die Autoren des Papers haben eine neue Lösung namens Sketch2Feedback entwickelt. Hier ist die Idee, einfach erklärt mit ein paar Analogien:

1. Das Problem: Der „Kreativ-Künstler" vs. der „Strenge Prüfer"

Stellen Sie sich einen sehr kreativen, aber etwas chaotischen Künstler vor (das ist die normale KI). Er schaut auf eine Zeichnung und sagt sofort: „Ich sehe hier einen Fehler!" – aber oft erfindet er den Fehler nur, weil er so viel Phantasie hat.

Die Autoren sagen: „Nein, wir brauchen einen anderen Ansatz." Sie bauen eine Fabrik mit vier Stationen, in der die KI erst am Ende das Wort bekommt.

2. Die Lösung: Die „Grammatik-in-der-Schleife"-Fabrik

Statt der KI zu erlauben, alles frei zu beschreiben, zwingen sie sie durch einen strengen Prozess. Man kann sich das wie eine Sicherheitskontrolle am Flughafen vorstellen, bei der nur das durchkommt, was wirklich da ist.

Hier sind die vier Stationen:

Station 1: Die Detektive (Das Sehen)
Zuerst schauen klassische Computerprogramme (keine KI, sondern einfache Mathematik) auf das Bild. Sie suchen nach Pfeilen, Linien und Symbolen. Sie sagen: „Ich sehe einen Pfeil hier und eine Linie dort." Das ist wie ein Roboter, der nur zählt, was er sieht, ohne zu interpretieren.
Station 2: Der Architekt (Der Bauplan)
Die gefundenen Teile werden zu einem digitalen Bauplan zusammengebaut. „Der Pfeil ist mit der Linie verbunden." Das ist wie ein Bauleiter, der die einzelnen Ziegelsteine zu einem Haus zusammenfügt.
Station 3: Der strenge Prüfer (Die Regeln)
Jetzt kommt der wichtigste Teil. Ein Computerprogramm vergleicht den Bauplan mit den Regeln der Aufgabe.
- Beispiel: „Die Aufgabe verlangt, dass der Boden geerdet ist. Ist er geerdet? Nein. Also ist das ein Fehler."
- Beispiel: „Die Aufgabe verlangt, dass keine Kraft nach links zeigt. Zeigt eine Kraft nach links? Nein. Alles okay."
  Dieser Prüfer ist extrem streng. Er ignoriert alles, was nicht explizit als Fehler in den Regeln steht. Er ist wie ein Lehrer, der nur auf die Checkliste schaut.
Station 4: Der Dolmetscher (Die KI)
Erst jetzt darf die eigentliche KI (der „Dolmetscher") sprechen. Aber sie bekommt keine freie Aufgabe wie „Beschreibe das Bild!". Stattdessen bekommt sie nur eine Liste vom strengen Prüfer: „Hey, hier ist ein Fehler: Der Boden ist nicht geerdet."
Die KI muss nun nur noch diesen Fehler in nette, verständliche Sätze verpacken. Da sie den Fehler vom Prüfer bestätigt bekommen hat, kann sie nicht mehr halluzinieren. Sie kann keinen Fehler erfinden, der nicht auf der Liste steht.

3. Was haben sie herausgefunden? (Die Ergebnisse)

Die Forscher haben das System an zwei Arten von Zeichnungen getestet:

Kraftdiagramme (FBD): Bilder mit Pfeilen, die Kräfte zeigen.
Stromkreise: Schaltpläne mit Batterien und Widerständen.

Das Ergebnis war überraschend und lehrreich:

Bei Kraftdiagrammen (Pfeile): Die „kreative" KI (die ohne Regeln arbeitet) war besser. Sie konnte die räumlichen Beziehungen zwischen Pfeilen besser verstehen als das strengen Prüfersystem. Das System mit den Regeln verpasste hier viele Fehler.
Bei Stromkreisen (Schaltpläne): Hier war das Strengen-Prüfer-System unschlagbar. Die normale KI war hier katastrophal schlecht und fand fast keine Fehler. Das Regel-System hingegen war sehr präzise.

Der wichtigste Durchbruch:
Das System mit den Regeln hat zwar bei Stromkreisen manchmal Fehler gemeldet, die gar nicht da waren (eine hohe „Halluzinationsrate"). Aber weil das System so modular aufgebaut ist, konnten die Forscher sofort sagen: „Aha! Der Fehler liegt nicht bei der KI, die spricht, sondern bei den Detektiven in Station 1, die zu viele Pfeile gesehen haben."

Bei einer normalen KI wüsste man nie, ob sie dumm ist, ob sie halluziniert oder ob sie das Bild falsch verstanden hat. Bei Sketch2Feedback weiß man genau, wo das Problem sitzt. Man kann einfach den „Detektiv" in Station 1 austauschen, ohne das ganze System neu zu erfinden.

4. Fazit für den Alltag

Stellen Sie sich vor, Sie wollen ein Haus bauen.

Die normale KI ist wie ein Architekt, der sofort losredet und vielleicht eine Tür erfindet, die gar nicht existiert.
Sketch2Feedback ist wie ein Bauplan-System: Zuerst messen wir alles nach (Regeln), dann erst darf der Architekt den Bericht schreiben.

Das System ist nicht in jeder Situation perfekt, aber es ist ehrlich und überprüfbar. Es gibt den Lehrern das Werkzeug an die Hand, um sicherzustellen, dass das Feedback auf echten Fakten basiert und nicht auf KI-Träumen. Das ist ein riesiger Schritt, um KI im Unterricht vertrauenswürdig zu machen.

Kurz gesagt: Sie haben eine KI gebaut, die erst nachdenkt (Regeln prüfen), bevor sie spricht. Das verhindert, dass sie Unsinn erfindet, und hilft Lehrern genau zu sehen, wo die KI Hilfe braucht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Bereitstellung von zeitnahem, rubrik-konformem Feedback für handgezeichnete STEM-Diagramme (z. B. Freikörperbilder in der Physik oder Schaltskizzen in der Elektrotechnik) stellt eine große Herausforderung dar.

Herausforderung: Große multimodale Modelle (LMMs) wie LLaVA oder GPT-4V können Bilder zwar interpretieren und Erklärungen generieren, neigen jedoch zu Halluzinationen (das Erfinden von Elementen, die nicht existieren). Dies untergräbt das Vertrauen in den Klassenzimmer-Einsatz.
Kernbottleneck: Das Hauptproblem liegt nicht in der Generierungsqualität, sondern in der Zuverlässigkeit der Wahrnehmung (Perception). Modelle beschreiben oft selbstbewusst Elemente, die im Diagramm gar nicht vorhanden sind.

2. Methodik: Sketch2Feedback Framework

Die Autoren stellen Sketch2Feedback vor, einen „Grammar-in-the-Loop"-Ansatz (Grammatik im Regelkreis). Dieser trennt die Bildwahrnehmung, das symbolische Schließen und die Sprachgenerierung strikt voneinander. Das Ziel ist es, dass das Sprachmodell (VLM) nur Fehler verbalisiert, die zuvor von einer upstream-Regel-Engine verifiziert wurden.

Der Pipeline-Prozess besteht aus vier Stufen:

Hybride Wahrnehmung (Hybrid Perception):
- Kombination klassischer Computer-Vision-Techniken (CV) für Robustheit.
- Techniken umfassen: CLAHE-Kontrastnormalisierung, adaptive Schwellenwertbildung, Konturanalyse (für Pfeile/Kräfte), HoughLinesP (für Drähte) und formbasierte Klassifizierung (für Komponenten).
- Ausgabe: Eine Liste detektierter primitiver Elemente (Pfeile, Drähte, Komponenten, Knoten).
Symbolischer Graphenaufbau (Symbolic Graph Construction):
- Die detektierten Primitiven werden in einen getypten Graphen $G = (V, E)$ umgewandelt.
- Knoten enthalten Typ, Konfidenz und Bounding-Box; Kanten repräsentieren räumliche Nähe.
Einschränkungsprüfung (Constraint Checking):
- Domänenspezifische Prädikate werden gegen den Szenario-Schlüssel (Rubrik) geprüft.
- Lokale Constraints: Vorhandensein erforderlicher Kräfte, korrekte Richtung, verbundene Komponenten, korrekte Polarität, Erdung.
- Nicht-lokale Constraints: Näherungsweise Kraftbalance (für statische FBDs) und Semantik von Knoten bei undeutlichen Drahtkreuzungen.
- Ergebnis: Eine Liste verifizierter Verstöße.
Eingeschränkte Feedback-Generierung (Constrained Feedback):
- Ein kompaktes Vision-Language-Modell (Qwen2-VL-2B) erhält nur die Liste der verifizierten Verstöße und das Bild.
- Das VLM kann keine Fehler erfinden, die nicht vom Constraint-Checker gemeldet wurden.
- Fallback: Bei Nichtverfügbarkeit des VLM werden strukturierte Domänen-Templates verwendet.

3. Wichtige Beiträge

Neue Benchmarks: Zwei Mikro-Benchmarks mit je 200 annotierten synthetischen Diagrammen:
- FBD-10: Freikörperbilder (10 Szenarien, z. B. schiefe Ebene, Pendel).
- Circuit-10: Schaltskizzen (10 Topologien, z. B. Reihen-/Parallelschaltung, Dioden).
- Beide enthalten kontrollierte Fehler-Taxonomien, Pixel-genaue Bounding-Boxes und Rubrik-Schlüssel.
Pipeline-Architektur: Ein vierstufiger Ansatz, der CV-Detektion, symbolische Graphen, Domänen-Constraints und eingeschränkte VLM-Feedback-Generierung kombiniert.
Umfassende Evaluierung: Ein Multi-Objective-Set, das Detektions-F1, Feedback-Qualität (Likert-Skala), Halluzinationsrate, Kalibrierung (ECE) und Latenz misst (alle mit 95%-Bootstrap-Konfidenzintervallen).
Transparente Analyse: Eine ehrliche Darstellung gemischter Ergebnisse, die zeigt, dass keine einzelne Architektur in allen Domänen dominiert, und komplementäre Stärken aufdeckt.

4. Ergebnisse

Die Evaluation erfolgte auf Testsets mit je 40 Proben pro Benchmark.

Freikörperbilder (FBD-10):
- Das End-to-End-LMM (LLaVA-1.5-7B) übertrifft die Grammar-Pipeline deutlich.
- Micro-F1: 0,471 (LMM) vs. 0,263 (Grammar).
- Das LMM erkennt Fehler besser (höhere Precision und Recall) und liefert qualitativ hochwertigeres Feedback.
Schaltskizzen (Circuit-10):
- Hier kehrt sich das Ergebnis um. Die Grammar-Pipeline ist dem LMM weit überlegen.
- Micro-F1: 0,329 (Grammar) vs. 0,038 (LMM).
- Die Grammar-Pipeline erreicht eine perfekte Handlungsfähigkeit (Actionability) von 5,0/5, da das Feedback auf Templates basiert.
Halluzinationen und Fehlerquellen:
- Die Grammar-Pipeline hatte eine hohe Halluzinationsrate bei Schaltkreisen (0,925). Die Analyse zeigte jedoch, dass dies nicht durch das VLM verursacht wurde, sondern durch False Positives im CV-Perzeptionsmodul (Stufe 1), die dann vom Constraint-Checker fälschlich als Verstöße gemeldet wurden.
- Dies demonstriert die Diagnosefähigkeit der Architektur: Der Fehlerort ist exakt lokalisierbar (Stufe 1), was in End-to-End-Systemen unmöglich ist.
Komplementarität:
- Die Grammar-Pipeline ist stark bei strukturellen Verletzungen (z. B. falsche Richtung, fehlende Erdung).
- Das LMM ist stark bei Auslassungsfehlern (z. B. fehlende Kraft), die die klassische CV übersehen.
- Beide Modelle scheiterten bei bestimmten Fehlertypen (z. B. fehlende Komponenten, falsche Polarität), was auf ein gemeinsames Wahrnehmungsproblem hinweist.

5. Bedeutung und Fazit

Architektonischer Wert: Der größte Vorteil von Sketch2Feedback ist die Modularität. Fehler können präzise einer bestimmten Stufe zugeordnet werden (z. B. CV-Perzeption vs. VLM-Generierung). Dies ermöglicht gezielte Verbesserungen (z. B. Austausch des CV-Detektors durch einen gelernten Detektor wie YOLO/DETR), ohne das gesamte System neu trainieren zu müssen.
Perzeption ist der Flaschenhals: Die Hauptleistungsgrenze liegt in der Bilderkennung, nicht in der Sprachgenerierung.
Kein „One-Size-Fits-All": Es gibt keine universell beste Architektur. Für räumlich komplexe Diagramme (FBD) sind End-to-End-LMMs besser; für diskrete, logische Strukturen (Schaltkreise) überwiegt der regelbasierte Ansatz.
Zukunftsausblick: Die Autoren schlagen Ensemble-Ansätze vor, die die komplementären Stärken beider Modelle nutzen, sowie den Einsatz von gelernten Detektoren für Diagrammelemente, um die Wahrnehmungsgenauigkeit zu erhöhen.

Das Paper liefert somit einen wichtigen Beitrag zum Verständnis der Grenzen und Möglichkeiten von KI im Bildungsbereich, indem es die Notwendigkeit von hybriden, überprüfbaren Systemen gegenüber reinen End-to-End-Modellen aufzeigt.

Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

1. Das Problem: Der „Kreativ-Künstler" vs. der „Strenge Prüfer"

2. Die Lösung: Die „Grammatik-in-der-Schleife"-Fabrik

3. Was haben sie herausgefunden? (Die Ergebnisse)

4. Fazit für den Alltag

1. Problemstellung

2. Methodik: Sketch2Feedback Framework

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems