Exploring the potential of ChatGPT for feedback and… — Begrijpelijke uitleg

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een leraar bent die honderden verslagen moet nakijken van studenten die een natuurkunde-experiment hebben gedaan. Het is een zware klus: je moet lezen, formules controleren, grafieken bekijken en beslissen of de conclusies kloppen.

In dit onderzoek hebben de auteurs geprobeerd om ChatGPT (een slimme AI) te gebruiken als een "assistent" om deze verslagen te beoordelen. Ze wilden weten: Kan deze AI net zo goed oordelen als een menselijke leraar, of maakt hij rare fouten?

Hier is wat ze hebben ontdekt, vertaald in een simpel verhaal met een paar creatieve vergelijkingen:

1. De Opdracht: De "Robot-Assistent"

De onderzoekers gaven de AI een specifieke opdracht (een "rubriek" of puntenschema), net als een leraar die een antwoordblad heeft. Ze lieten de AI 57 verslagen nakijken over een experiment met reactietijd (waarbij je een liniaal laat vallen en probeert hem te vangen).

De AI moest op basis van de tekst, formules en grafieken punten geven voor onderdelen zoals:

Wat was het doel?
Klopt de theorie?
Is de opzet goed beschreven?
Klopt de data-analyse?
Zijn de conclusies logisch?

2. Het Resultaat: Een "Blind" Beoordelaar

Het resultaat was een mix van goed en minder goed. Je kunt de AI vergelijken met een zeer snelle, maar soms blinde beoordelaar.

Wat ging goed (De "Structuur-Check"):
De AI was heel goed in het controleren van de opmaak en structuur. Het kon makkelijk zien of een verslag een inleiding had, of de zinnen logisch liepen en of de studenten de juiste hoofdstukken hadden gebruikt.
- Vergelijking: Het is alsof de AI een architect is die perfect kan zien of een huis de juiste muren en deuren heeft, maar niet weet of de muren stevig genoeg zijn.
Wat ging minder goed (De "Inhouds-Check"):
Hier kregen ze de problemen. De AI had moeite met de echte natuurkunde.
- De "Blindheid" voor plaatjes: Veel verslagen bevatten grafieken en formules. De AI probeerde deze te lezen, maar vaak zag het de tekst erachter niet goed (net als iemand die door een modderig raam probeert te kijken). Soms dacht de AI dat een grafiek er was, terwijl hij die niet kon zien, en gaf hij een punt op basis van een veronderstelling.
- De "Oppervlakkige" reactie: Soms gaf de AI een punt omdat het dacht: "Ja, er staat hier een theorie." Maar het keek niet echt na of die theorie klopte of wel of niet op de juiste manier was toegepast.
- Vergelijking: Stel je voor dat de AI een kookrecept nakijkt. Hij ziet wel dat er een kopje "Ingrediënten" is en dat er een stukje "Bereiding" staat. Maar als je kijkt of de chef de suiker in de zout heeft gedaan (een fout in de formule), ziet de AI dat niet altijd. Hij zegt dan: "Het recept ziet er netjes uit," terwijl het eten misschien niet eetbaar is.

3. De Vergelijking met de Mens

Toen de onderzoekers de punten van de AI vergeleken met die van de echte leraren, was er een groot verschil:

De AI gaf gemiddeld lagere punten dan de leraren.
De volgorde van de verslagen (wie scoorde het hoogst) liep vaak niet overeen.
De correlatie (de overeenkomst) was zwak.

Het was alsof twee verschillende mensen een schilderij beoordelen: de ene kijkt naar de lijnen en de compositie (de AI), en de andere kijkt naar de emotie en de techniek (de leraar). Ze komen tot heel verschillende oordelen.

4. De Oplossing: De "Gespreks-Room"

In een extra experiment probeerden ze de AI niet als een robot die alles in één keer nakijkt, maar als een gesprekspartner. Ze stelden de AI specifieke vragen over een bepaald plaatje of een specifieke formule.

Resultaat: Toen de AI werd gedwongen om zich te focussen op één ding en kon "kijken" naar dat specifieke stukje, gaf hij veel betere feedback.
Les: De AI is niet dom, maar hij heeft hulp nodig om de juiste vragen te stellen. Als je hem alleen maar een stapel papier geeft, raakt hij de draad kwijt. Als je hem leidt, werkt hij beter.

Conclusie: Een Hulpje, geen Vervanger

De belangrijkste boodschap van dit onderzoek is: Gebruik de AI niet om je werk over te nemen, maar als een hulpmiddel.

Wat de AI wel kan: Hij kan helpen bij het controleren van de vorm, de spelling en de structuur. Hij kan de leraar helpen om te zien welke studenten vaak dezelfde fouten maken in de opmaak.
Wat de AI nog niet kan: Hij kan nog niet volledig vertrouwen op de interpretatie van complexe grafieken of diepe natuurkundige redeneringen zonder dat een mens erbij kijkt.

In het kort: De AI is als een junior-assistent die heel snel de muren van het huis controleert, maar nog niet de ervaring heeft om te zeggen of het dak niet gaat lekken. De leraar moet altijd de eindverantwoordelijkheid blijven houden om te zorgen dat het huis (de beoordeling) veilig en correct is.

Each language version is independently generated for its own context, not a direct translation.

Titel: Het verkennen van het potentieel van ChatGPT voor feedback en evaluatie in experimentele fysica

Auteurs: Arturo C. Marti, Marcos Abreu, Alvaro Suárez, Cecilia Stari en Arturo C. Marti.
Context: Studie uitgevoerd aan de Universiteit van de Republiek (Uruguay) in een Experimental Physics I-cursus.

1. Het Probleem

Laboratoriumverslagen in de natuurkunde zijn multidimensionale beoordelingsinstrumenten die tekst, wiskundige redenering, tabellen en grafieken integreren. Het beoordelen van deze verslagen is tijdrovend en vatbaar voor inconsistenties, vooral in grote cursussen. Hoewel Generatieve Kunstmatige Intelligentie (AI), zoals Large Language Models (LLM's), veelbelovend is voor het genereren van feedback, blijft de betrouwbare integratie in de natuurkunde-educatie een uitdaging.
De kernvraag is of AI systemen in staat zijn om wetenschappelijk redeneren en de interpretatie van experimentele data (vaak verwerkt in complexe PDF's met formules en figuren) betrouwbaar te evalueren, en hoe dit zich verhoudt tot menselijke beoordeling.

2. Methodologie

De studie hanteerde een exploratieve aanpak met een kwalitatieve analyse van AI-gegenereerde feedback, aangevuld met kwantitatieve vergelijkingen met docentbeoordelingen.

Data: Een willekeurige steekproef van 57 laboratoriumverslagen uit het academiejaar 2025, afkomstig van een experiment over "Reactietijd en Statistiek". De verslagen werden als PDF-bestanden ingediend.
AI-configuratie: Er werd gebruikgemaakt van het model GPT-5.4 (zoals vermeld in de paper, een hypothetische of toekomstige versie in de context van de paper-datum 2026).
Proces:
1. Automatisering: Een API-script stuurde elk PDF-verslag samen met een gestructureerde prompt naar het model. De prompt was gebaseerd op een bestaand, gestandaardiseerd beoordelingsrubric (10-puntsschaal) dat door de docenten werd gebruikt.
2. Rubric-items: De beoordeling omvatte zes categorieën: Doelen, Theoretische achtergrond, Experimentele opstelling, Data-analyse, Conclusies en Algemene beoordeling.
3. Analyse: De AI moest voor elk item een score geven, een rechtvaardiging, sterke en zwakke punten, en een samenvatting.
Evaluatiemethoden:
- Kwantitatief: Vergelijking van scores tussen AI en docenten via de Spearman-rangcorrelatiecoëfficiënt ( $\rho$ ) en de Mean Absolute Error (MAE).
- Kwalitatief: Classificatie van de AI-feedback in drie categorieën:
  1. Correcte toepassing: Feedback is onderbouwd met bewijs uit het rapport.
  2. Redelijk maar oppervlakkig: Plausibel, maar zonder specifiek bewijs of traceerbare rechtvaardiging.
  3. Ongeldige evaluatie: De score of opmerking kan niet worden onderbouwd door het rapport (vaak door onleesbaarheid of ontbrekende data).
- Technische beperkingen: Er werd onderscheid gemaakt tussen expliciete beperkingen (het model geeft aan iets niet te kunnen lezen) en afgeleide beperkingen (het model interpreteert vervormde wiskundige notatie of ontbrekende labels foutief).
- Conversational Test: Een subset van gevallen werd nader onderzocht via een interactieve dialoog om te zien of gerichte prompts de toegang tot bewijs (zoals ingesloten formules) konden verbeteren.

3. Belangrijkste Resultaten

Scores en Correlatie:
- Er is een zwakke associatie tussen de AI-scores en de docentbeoordelingen ( $\rho = 0,38$ ).
- De AI gaf gemiddeld lagere scores dan de docenten (7,91 vs. 8,63).
- De gemiddelde absolute fout (MAE) bedroeg 1,01, wat aanzienlijke afwijkingen op individueel niveau aangeeft.
Kwaliteit van Feedback per Rubric-item:
- Doelen & Theoretische achtergrond: De AI presteerde goed in het controleren van de aanwezigheid van elementen (87-89% correct), maar vaak was de feedback "redelijk maar oppervlakkig" (geen specifieke verwijzingen naar tekst).
- Data-analyse: Dit was het meest kritieke punt. Hoewel 84% als correct werd geclassificeerd, waren er significante problemen bij het interpreteren van grafieken, histogrammen en wiskundige afleidingen.
- Conclusies & Algemene beoordeling: Hier was het percentage "ongeldige evaluaties" het hoogst (tot 11-12%), voornamelijk omdat de AI de coherentie tussen tekst en onleesbare figuren/formules niet kon verifiëren.
Technische Beperkingen (OCR en Extractie):
- De belangrijkste beperking was de toegankelijkheid van bewijs. De AI kon vaak geen toegang krijgen tot informatie in grafieken, tabellen of ingesloten wiskundige formules binnen de PDF.
- Dit leidde tot "afgeleide beperkingen": het model probeerde antwoorden te geven op basis van vervormde of onvolledige tekstextracties (bijv. het niet herkennen van een wortelteken of een breuk), wat leidde tot onterechte kritiek.
Conversational Analyse:
- Bij interactieve vragen over specifieke onderdelen (in plaats van batch-verwerking) kon de AI vaak wel toegang krijgen tot het ontbrekende bewijs en correctere feedback geven. Dit suggereert dat de vorm van interactie cruciaal is.

4. Kernbijdragen

Empirisch Bewijs: De studie levert gedetailleerd bewijs dat AI-scores in experimentele fysica niet direct uitwisselbaar zijn met menselijke beoordelingen, voornamelijk door de complexiteit van niet-tekstuele elementen (grafieken, formules).
Classificatie van Fouten: Het introduceert een onderscheid tussen expliciete en afgeleide beperkingen in AI-evaluaties, wat helpt bij het diagnosticeren waarom AI faalt bij specifieke rubric-items.
Rol van Prompting: Het benadrukt dat de kwaliteit van de evaluatie sterk afhankelijk is van de interactiemodaliteit (batch vs. conversational) en de kwaliteit van de tekstextractie uit PDF's.

5. Betekenis en Conclusie

De studie concludeert dat AI een waardevol ondersteunend hulpmiddel kan zijn voor docenten, maar geen vervanging voor menselijke beoordeling in experimentele fysica.

Potentieel: AI kan helpen bij het controleren van formele aspecten (structuur, duidelijkheid, naleving van conventies) en het verwerken van grote hoeveelheden data voor het identificeren van terugkerende patronen.
Beperkingen: De betrouwbaarheid van AI bij het evalueren van technisch redeneren, wiskundige afleidingen en de interpretatie van experimentele data is beperkt door de afhankelijkheid van tekstextractie.
Aanbeveling: Docenttoezicht is essentieel. AI moet worden gebruikt om de werkdruk te verlichten bij routinematige taken, maar de definitieve beoordeling van wetenschappelijke redenering en de interpretatie van resultaten moet door een menselijke expert worden gevalideerd om de integriteit van de academische evaluatie te waarborgen.

Exploring the potential of ChatGPT for feedback and evaluation in experimental physics