Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le Dessin de l'Élève et le Professeur Fatigué

Imaginez que vous êtes professeur de physique ou d'électricité. Vos élèves doivent dessiner des schémas : soit des diagrammes de forces (comme un objet qui tombe ou une voiture qui freine), soit des circuits électriques (des piles, des fils et des ampoules).

Le défi ? Corriger ces dessins à la main prend une éternité. Les ordinateurs essaient de le faire, mais les "super-intelligences" artificielles actuelles (les grands modèles multimodaux) ont un gros défaut : elles hallucinent.

C'est comme un élève qui invente des réponses pour impressionner le prof. L'ordinateur peut dire : "Ah, je vois une résistance ici qui n'existe pas !" alors qu'il n'y a rien. En classe, si le prof dit "Regarde, il y a une erreur" alors qu'il n'y en a pas, l'élève perd confiance. On ne peut pas faire confiance à un correcteur qui ment.

🛠️ La Solution : Sketch2Feedback (Le Système "Grammaire")

Les auteurs ont créé un nouveau système appelé Sketch2Feedback. Au lieu de laisser l'IA deviner tout le dessin d'un coup, ils ont construit une chaîne de montage en 4 étapes, comme une équipe de détectives spécialisés.

Voici comment cela fonctionne, avec une analogie simple :

1. Les Yeux (Détection Hybride)

C'est la première étape. Le système ne regarde pas le dessin comme un humain (qui voit le sens global), mais comme un chasseur de formes. Il utilise des règles mathématiques strictes pour repérer : "Tiens, c'est une flèche", "C'est un fil", "C'est un rond".

Analogie : C'est comme un robot qui scanne un puzzle pièce par pièce pour voir si les pièces sont là, sans encore comprendre l'image finale.

2. Le Cartographe (Construction du Graphique)

Une fois les pièces repérées, le système les assemble sur une carte mentale. Il crée un lien entre les pièces : "La pile est connectée à l'ampoule".

Analogie : C'est comme un architecte qui dessine le plan de la maison en se basant uniquement sur les briques qu'il a trouvées.

3. Le Gardien des Règles (Vérification)

C'est le cœur du système. Le gardien a un manuel de règles (le "grammaire"). Il compare ce qu'il a vu sur la carte avec ce qui devrait être là selon l'exercice.

Exemple : Si l'exercice demande un circuit fermé et que le gardien voit un fil coupé, il note : "Erreur ! Circuit ouvert".
La règle d'or : Si le gardien ne voit pas d'erreur, le système ne peut jamais en inventer. Il est bloqué par les règles.

4. Le Traducteur (Feedback de l'IA)

Enfin, une petite intelligence artificielle (le "traducteur") reçoit la liste des erreurs vérifiées par le gardien. Son seul travail est d'expliquer l'erreur à l'élève avec des mots gentils et clairs.

Différence clé : Contrairement aux autres IA qui regardent le dessin et inventent des erreurs, celle-ci ne parle que de ce que le gardien a confirmé. C'est comme un avocat qui ne peut citer que les preuves solides apportées par l'enquêteur.

🏆 Les Résultats : Qui gagne ?

Les chercheurs ont testé ce système sur deux types de dessins. Les résultats sont surprenants et montrent qu'il n'y a pas de "méthode unique" parfaite.

Pour les Diagrammes de Forces (FBD) :
- Le vainqueur : L'IA classique (End-to-End).
- Pourquoi ? Ces dessins demandent de comprendre des relations spatiales complexes (ex: "la force de frottement va dans le sens opposé"). L'IA classique, qui "voit" l'image comme un humain, est meilleure pour ça. Le système à règles a raté beaucoup d'erreurs car il était trop rigide.
Pour les Circuits Électriques :
- Le vainqueur : Le système Sketch2Feedback (à règles).
- Pourquoi ? Les circuits sont très logiques (tout ou rien). Soit le fil est connecté, soit il ne l'est pas. Ici, le système à règles a été parfait pour donner des conseils actionnables (ex: "Relie ce fil à la terre"). L'IA classique, elle, a eu beaucoup de mal et a halluciné des erreurs.

💡 La Leçon Principale : La Confiance et la Transparence

Le plus grand atout de Sketch2Feedback n'est pas d'être toujours le plus fort, mais d'être honnête.

L'IA classique : Elle peut se tromper en disant "Il y a une erreur" alors qu'il n'y en a pas. On ne sait pas pourquoi elle s'est trompée. C'est une "boîte noire".
Sketch2Feedback : Si elle se trompe, on sait exactement où. Dans le cas des circuits, le système a parfois signalé de fausses erreurs, mais les chercheurs ont pu dire : "Ce n'est pas l'IA qui a menti, c'est l'étape 1 (les yeux) qui a mal vu un fil".
- Analogie : C'est comme si un détective disait : "J'ai vu un suspect". Si c'est faux, on sait que le détective a mal vu, et on peut changer ses jumelles sans avoir à rééduquer tout le détective.

🚀 En Résumé

Ce papier nous dit que pour corriger les dessins scientifiques :

Parfois, il vaut mieux laisser l'IA "deviner" (pour les dessins artistiques ou complexes).
Parfois, il vaut mieux utiliser des règles strictes (pour la logique pure comme l'électricité).
Le plus important est de pouvoir vérifier pourquoi l'IA a fait une erreur, pour que les élèves et les profs puissent lui faire confiance.

C'est une approche qui privilégie la sécurité et la précision plutôt que la vitesse ou la créativité, ce qui est crucial dans l'éducation.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La fourniture d'un retour d'information (feedback) rapide, aligné sur des critères d'évaluation (rubriques) et spécifique aux diagrammes dessinés par les étudiants dans les domaines STEM (Sciences, Technologie, Ingénierie, Mathématiques) représente un défi majeur.

Limites des modèles existants : Bien que les grands modèles multimodaux (LMM) comme LLaVA ou GPT-4V puissent analyser des images, ils souffrent souvent d'hallucinations (description d'éléments qui n'existent pas). Cela érode la confiance nécessaire pour un déploiement en classe.
Goulot d'étranglement : Le problème fondamental n'est pas la qualité de la génération de texte, mais la fiabilité de la perception. Les modèles tendent à décrire avec confiance des éléments absents du diagramme.
Objectif : Développer un système capable de fournir un feedback pédagogique précis, actionnable et exempt d'hallucinations sur des schémas manuscrits (diagrammes de corps libres et schémas de circuits).

2. Méthodologie : Sketch2Feedback

Les auteurs proposent Sketch2Feedback, une architecture « grammaire dans la boucle » (grammar-in-the-loop) qui sépare la perception, le raisonnement symbolique et la génération de langage. Cette approche sacrifie partiellement le rappel (recall) pour gagner en précision, garantissant que le modèle de langage ne verbalise que des erreurs vérifiées par un moteur de règles en amont.

Le pipeline se décompose en quatre étapes :

Détection hybride des primitives (Perception) :
- Utilisation de techniques de vision par ordinateur (CV) classiques et robustes : normalisation du contraste (CLAHE), seuillage adaptatif, analyse de contours, transformée de Hough pour les lignes, et classification basée sur la forme.
- Suppression des non-maxima pour éviter les doublons.
Construction d'un graphe symbolique :
- Les primitives détectées forment un graphe typé $G = (V, E)$ où les nœuds contiennent le type, la confiance et la boîte englobante, et les arêtes représentent la proximité spatiale.
Vérification des contraintes (Contrôle) :
- Un moteur de règles vérifie des prédicats spécifiques au domaine par rapport à une clé de scénario (ex: présence de forces requises, polarité correcte, existence d'une mise à la terre).
- Cela inclut des contraintes locales (connexions) et non locales (équilibre des forces, sémantique des jonctions).
Generation de feedback contraint :
- Un modèle VLM compact (Qwen2-VL-2B) reçoit uniquement la liste des violations vérifiées et l'image.
- Contrôle des hallucinations : Le VLM ne peut inventer d'erreurs car il est contraint par la sortie du vérificateur. En cas d'indisponibilité du VLM, des templates structurés sont utilisés.

3. Contributions Clés

Deux micro-benchmarks :
- FBD-10 : 200 diagrammes de corps libres (Free-Body Diagrams) avec 10 scénarios.
- Circuit-10 : 200 schémas de circuits avec 10 topologies.
- Les données incluent des taxonomies d'erreurs contrôlées, des boîtes englobantes au niveau du pixel et des clés de rubriques.
Pipeline à quatre étapes : Combinaison de détection CV hybride, de graphes symboliques, de vérification de contraintes et de feedback VLM contraint.
Suite d'évaluation multi-objectifs : Mesure de la détection (F1), de la qualité du feedback (Citation/Actionnabilité), du taux d'hallucination, de l'étalonnage (ECE) et de la latence, le tout avec des intervalles de confiance bootstrap (95%).
Analyse honnête des résultats : Démonstration qu'aucune architecture ne domine universellement, mettant en évidence des forces complémentaires.

4. Résultats

L'évaluation compare le pipeline Grammar (Qwen2-VL-2B) contre un LMM end-to-end (LLaVA-1.5-7B) et une détection purement visuelle.

Performance par domaine (Résultats mitigés) :
- Diagrammes de corps libres (FBD) : Le modèle End-to-End (LLaVA) surpasse le pipeline Grammar.
  - Micro-F1 : 0,471 (LLaVA) vs 0,263 (Grammar).
  - Feedback de meilleure qualité (Actionnabilité : 4,35 vs 3,65).
  - Explication : La compréhension visuelle holistique est supérieure pour les relations spatiales complexes.
- Schémas de circuits (Circuits) : Le pipeline Grammar domine largement.
  - Micro-F1 : 0,329 (Grammar) vs 0,038 (LLaVA).
  - Actionnabilité parfaite : 5,0/5 (contre 4,03 pour LLaVA).
  - Explication : Les erreurs de circuits sont souvent des violations de règles discrètes (polarité, mise à la terre) mieux gérées par des règles symboliques.
Analyse des Hallucinations :
- Le pipeline Grammar présente un taux d'hallucination élevé sur les circuits (0,925), mais l'analyse des logs révèle que cela provient de faux positifs du module de perception CV (étape 1), et non de la génération du VLM.
- Le VLM rapporte fidèlement les erreurs détectées, même si elles sont fausses. Cela permet une attribution précise de l'échec (le problème est à l'étape 1, pas au modèle de langage), ce qui est impossible dans les systèmes end-to-end.
Complémentarité :
- Le pipeline Grammar excelle sur les erreurs structurelles (direction incorrecte, mise à la terre manquante).
- Le LLM End-to-End excelle sur les erreurs d'omission (force manquante).
- Aucun des deux ne détecte bien les composants manquants ou les polarités inversées, indiquant un goulot d'étranglement commun au niveau de la perception.

5. Signification et Perspectives

Valeur Architecturale : La principale contribution n'est pas une performance supérieure universelle, mais la modularité et la diagnosticabilité. Le système permet d'identifier exactement où l'erreur se produit (perception vs génération), facilitant les améliorations ciblées (ex: remplacer le détecteur CV par un modèle appris).
Goulot d'étranglement : La perception reste le facteur limitant. L'amélioration la plus impactante serait le remplacement des détecteurs CV classiques par des détecteurs appris (fine-tuning de YOLO/DETR sur des diagrammes).
Limites :
- Données synthétiques : Le passage au réel (variabilité du dessin étudiant) pourrait réduire les performances.
- Taille des jeux de données : Les intervalles de confiance sont larges en raison de la petite taille des ensembles de test (n=40 par benchmark).
- Asymétrie des modèles : Comparaison entre un modèle de 2B et un de 7B (bien que le pipeline Grammar compense par le raisonnement structuré).
Conclusion : Sketch2Feedback démontre que pour les tâches éducatives exigeant une haute fiabilité et une traçabilité des erreurs, une approche hybride (règles + VLM) est préférable aux modèles end-to-end, à condition d'améliorer la couche de perception. Des travaux futurs sont nécessaires pour valider l'impact pédagogique en classe et développer des approches d'ensemble exploitant la complémentarité des modèles.