Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

Each language version is independently generated for its own context, not a direct translation.

🎨 De Tekening-Feedbackmachine: Hoe computers leren tekeningen te corrigeren

Stel je voor dat je een natuurkunde- of elektrotechniekles hebt. Je krijgt de opdracht om een krachtenplaatje (bijvoorbeeld een blokje dat over een helling glijdt) of een elektrisch schema te tekenen. De leraar moet dan kijken of je het goed hebt gedaan en je feedback geven.

Het probleem? Leerlingen zijn er duizenden, en leraren hebben niet de tijd om elk potloodje na te kijken. Computers zouden dit kunnen doen, maar de slimste AI's (zoals die in ChatGPT) hebben een groot gebrek: ze hallucineren. Ze vertellen je met volle overtuiging dat er een fout in je tekening zit, terwijl er helemaal niets mis is. Dat is als een leraar die zegt: "Je hebt een fout gemaakt bij de zon," terwijl je een tekening van een auto hebt gemaakt.

De auteurs van dit paper hebben een oplossing bedacht: Sketch2Feedback.

🏗️ De Bouwstijl: Een Ketting van Vakmensen

In plaats van één super-slimme robot die alles zelf doet (een "end-to-end" model), hebben ze een fabriekslijn gebouwd met vier verschillende stations. Ze noemen dit een "Grammar-in-the-Loop" systeem.

Stel je voor dat het een postorderbedrijf is dat pakketten (fouten) moet sorteren:

De Oogjes (Perceptie): Eerst kijkt een simpele, snelle camera (gebaseerd op klassieke computerprogramma's) naar de tekening. Hij telt de pijlen, herkent de weerstanden en de batterijen. Hij zegt: "Ik zie hier een pijl die naar links wijst."
De Bouwmeester (Grafiek): Deze informatie wordt omgezet in een strakke lijst of een bouwtekening. "Hier is een batterij, hier is een draad."
De Regelaars (Controle): Dit is het belangrijkste station. Een strenge regelaar (een computerprogramma met een strenge lijst met regels) kijkt naar de bouwtekening en zegt: "Volgens de regels van de opdracht mag deze batterij niet zo staan."
- Cruciaal punt: Als de regelaar niets ziet, dan is er geen fout. De AI mag niet verzinnen dat er wel iets mis is.
De Verteller (De AI): Pas als de regelaar zegt: "Ja, hier is een fout!", mag de slimme AI (de verteller) aan het woord. Zij krijgt alleen de bevestigde fouten en zegt: "Hé, je hebt de batterij verkeerd om gezet, draai hem om."

De grote winst: De AI kan niet meer liegen. Als de regelaar niets ziet, vertelt de AI: "Je tekening ziet er goed uit."

🥊 De Wedstrijd: Wie wint het?

De auteurs hebben dit systeem getest tegen een "super-AI" (die alles zelf doet) op twee soorten taken:

1. De Krachtenplaatjes (FBD-10)

Wat is het? Tekeningen van objecten met pijlen die krachten voorstellen.
Wie wint? De super-AI wint hier.
Waarom? Krachtenplaatjes zijn vaag en visueel. De super-AI kan het "gevoel" van de tekening snappen. De fabriekslijn (Sketch2Feedback) is hier wat stijver en mist soms kleine fouten, omdat de simpele camera niet altijd ziet wat er mist.

2. De Elektrische Schema's (Circuit-10)

Wat is het? Strakke lijnen en symbolen voor stroomkringen.
Wie wint? De fabriekslijn (Sketch2Feedback) wint hier met overmacht!
Waarom? Elektrische schema's zijn als wiskunde: of een draad zit er, of hij zit er niet. De strenge regelaar is hier perfect. De super-AI raakt hier volledig de weg kwijt en maakt enorme fouten (hallucinaties).

🔍 Het Grootste Geheim: Waar zit de fout?

Dit is het meest interessante deel van het paper.

Bij de elektrische schema's had de fabriekslijn een heel hoog percentage "foute meldingen" (92,5%). Je zou denken: "Oh, de AI liegt weer!"
Maar door de fabriekslijn te analyseren, ontdekten ze dat niet de AI liegt. De eerste camera (stap 1) ziet soms iets dat er niet is (een valse melding). Omdat de regelaar daarop reageert, denkt de AI dat er een fout is en vertelt hij het.

De analogie:
Stel je voor dat je een detective bent.

De super-AI is een detective die alles uit zijn duim zuigt. Hij zegt: "Ik weet zeker dat de dief links zat!" (Zelfs als hij er niet was).
De fabriekslijn is een detective met een team. De agent (camera) ziet iets, de rechercheur (regelaar) checkt het, en de verteller (AI) spreekt pas als het bewezen is.
Als de fabriekslijn een fout maakt, weten we precies waar: "Oh, de agent heeft een schaduw aangezien voor een dief." Dat is makkelijk op te lossen (verander de agent). Bij de super-AI weten we niet waarom hij dacht dat de dief links zat; hij is gewoon een raadsel.

💡 Conclusie voor de Gemiddelde Mens

Dit paper leert ons drie dingen:

Geen één oplossing voor alles: Soms is een slimme, creatieve AI beter (voor vaag visueel werk), en soms is een strenge, regelmatige machine beter (voor strakke schema's).
Vertrouwen door transparantie: Het is beter om een systeem te bouwen dat fouten niet verzint, zelfs als hij soms minder fouten vindt. Als hij wel een fout meldt, kun je er 100% op vertrouwen dat het echt een fout is.
De zwakke schakel: De grootste beperking zit niet in de slimme AI, maar in de simpele camera die de tekening moet lezen. Als we die camera slimmer maken, wordt het hele systeem veel beter.

Kortom: Sketch2Feedback is een slimme manier om AI te temmen, zodat hij in de klas niet gaat verzinnen, maar echt helpt bij het leren van wiskunde en natuurkunde.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het bieden van tijdige, rubric-georiënteerde feedback op handgetekende diagrammen van studenten (zoals vrije-lichaamsdiagrammen en circuitschema's) is een aanhoudende uitdaging in STEM-educatie. Hoewel grote multimodale modellen (LMM's) beelden kunnen parseren en uitleggen, lijden ze vaak aan hallucinaties (het beschrijven van elementen die niet bestaan). Dit ondermijnt het vertrouwen in klaslokaaltoepassingen. De kern van het probleem ligt niet in de generatiekwaliteit, maar in de betrouwbaarheid van de perceptie: modellen geven met vertrouwen aan dat er fouten zijn die er niet zijn.

Methodologie: Sketch2Feedback

De auteurs introduceren Sketch2Feedback, een lichtgewicht, "grammar-in-the-loop" framework dat het probleem decomposeert in vier distincte fasen. Het doel is om de taalmodel (VLM) te beperken tot het verbaal maken van alleen die fouten die door een upstream regelengine zijn geverifieerd.

Hybride Perceptie (Hybrid Perception):
- Combinatie van klassieke computer vision (CV) technieken voor robuustheid.
- Gebruik van CLAHE-contrastnormalisatie, adaptieve drempelwaarden, contouranalyse (voor pijlen/krachten), HoughLinesP (voor draden) en vormgebaseerde classificatie.
- Non-maximum suppression (IoU ≥ 0,5) om overlappingen te verwijderen.
Symbolische Grafiekconstructie:
- De gedetecteerde primitieven worden omgezet in een getypeerde graaf $G = (V, E)$ .
- Knopen bevatten type, betrouwbaarheid en bounding box; randen vertegenwoordigen ruimtelijke nabijheid.
Constraint Checking (Beperkingen Controleren):
- Domeinspecifieke predicaten worden gecontroleerd tegen een scenario-sleutel (bijv. ontbrekende krachten, verkeerde richting, ontbrekende aarding, verkeerde polariteit).
- Dit omvat zowel lokale constraints als niet-lokale checks (bijv. krachtenbalans bij statische diagrammen).
Gecombineerde Feedbackgeneratie:
- Een compact Vision-Language Model (VLM), specifiek Qwen2-VL-2B, ontvangt alleen de geverifieerde lijst van schendingen en de afbeelding.
- Het VLM kan geen fouten "uitvinden" die niet door de constraint-checker zijn gedetecteerd. Als het VLM niet beschikbaar is, worden gestructureerde sjablonen gebruikt.

Belangrijkste Bijdragen

Micro-benchmarks: Twee nieuwe datasets met elk 200 geannoteerde synthetische diagrammen:
- FBD-10: Vrije-lichaamsdiagrammen (10 scenario's).
- Circuit-10: Circuitschema's (10 topologieën).
- Bevat controleerbare foutentaxonomieën, pixel-accurate bounding boxes en rubric-sleutels.
Het Framework: Een vier-staps pipeline die perceptie, symbolisch redeneren en taalgeneratie scheidt.
Uitgebreide Evaluatie: Een suite die detectie-F1, feedbackkwaliteit (Correctheid en Actieerbaarheid), hallucinatiepercentages, kalibratie (ECE) en latentie meet, allemaal met 95% bootstrap betrouwbaarheidsintervallen.
Eerlijke Analyse: Een analyse die laat zien dat geen enkele architectuur alle domeinen domineert, wat leidt tot inzichten voor toekomstige ensemble-methoden.

Resultaten

De evaluatie op testsets (n=40 per benchmark) toont gemengde maar leerzame resultaten:

Vrije-Lichaamsdiagrammen (FBD-10):
- De End-to-End LMM (LLaVA-1.5-7B) presteert aanzienlijk beter dan de grammar-pipeline.
- Micro-F1: 0,471 (E2E) vs. 0,263 (Grammar).
- De E2E-modellen detecteren beter "ontbrekende" elementen, terwijl de grammar-pipeline faalt bij het detecteren van ontbrekende krachten (F1=0,000).
Circuitschema's (Circuit-10):
- De Grammar-pipeline presteert sterk beter.
- Micro-F1: 0,329 (Grammar) vs. 0,038 (E2E).
- De E2E-modellen lijken moeite te hebben met de symbolische logica van schema's.
- Actieerbaarheid: De grammar-pipeline behaalt een perfecte score van 5,0/5 voor circuits, omdat de feedback gebaseerd is op specifieke sjablonen voor gedetecteerde schendingen.
Hallucinaties en Diagnose:
- De grammar-pipeline had een hoog hallucinatiepercentage voor circuits (0,925). Cruciaal is dat de auteurs dit kunnen localiseren: het komt door valse positieven in de klassieke CV-perceptie (Stage 1), niet door hallucinaties van het VLM. Het VLM vertaalde alleen wat de regelengine vond.
- Bij FBD's hadden beide modellen een gelijk hallucinatiepercentage (0,375), maar door verschillende oorzaken (CV-fouten vs. plausibele maar verkeerde beschrijvingen door E2E).

Betekenis en Conclusie

Het paper concludeert dat er geen "one-size-fits-all" oplossing is:

Voor diagrammen die afhankelijk zijn van holistische ruimtelijke relaties (zoals FBD's) presteren end-to-end LMM's beter.
Voor diagrammen met strikte symbolische logica (zoals circuits) is de gestructureerde, grammar-in-the-loop benadering superieur.

De belangrijkste waarde van de architectuur ligt in modulariteit en diagnoseerbaarheid. Omdat het systeem gefaseerd is, kunnen fouten precies worden toegeschreven aan een specifieke stap (bijv. "de CV-detectie faalt, niet het taalmodel"). Dit maakt het systeem veel makkelijker te debuggen en te verbeteren voor educatieve toepassingen dan een "black box" end-to-end model. De grootste bottleneck blijft echter de perceptie; toekomstig werk moet zich richten op het vervangen van klassieke CV door getrainde detectors (zoals YOLO/DETR) om de detectie van ontbrekende elementen te verbeteren.

Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

🎨 De Tekening-Feedbackmachine: Hoe computers leren tekeningen te corrigeren

🏗️ De Bouwstijl: Een Ketting van Vakmensen

🥊 De Wedstrijd: Wie wint het?

🔍 Het Grootste Geheim: Waar zit de fout?

💡 Conclusie voor de Gemiddelde Mens

Probleemstelling

Methodologie: Sketch2Feedback

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems