Exploring the potential of ChatGPT for feedback and evaluation in experimental physics

Dit onderzoek toont aan dat ChatGPT weliswaar consistent feedback kan geven over de structuur en duidelijkheid van laboratoriumrapporten in de experimentele fysica, maar dat toezicht door docenten essentieel blijft vanwege de beperkte betrouwbaarheid bij het beoordelen van technische redeneringen en grafische of wiskundige gegevens.

Oorspronkelijke auteurs: Marcos Abreu, Álvaro Suárez, Cecilia Stari, Arturo C. Marti

Gepubliceerd 2026-03-24
📖 5 min leestijd🧠 Diepgaand

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een leraar bent die honderden verslagen moet nakijken van studenten die een natuurkunde-experiment hebben gedaan. Het is een zware klus: je moet lezen, formules controleren, grafieken bekijken en beslissen of de conclusies kloppen.

In dit onderzoek hebben de auteurs geprobeerd om ChatGPT (een slimme AI) te gebruiken als een "assistent" om deze verslagen te beoordelen. Ze wilden weten: Kan deze AI net zo goed oordelen als een menselijke leraar, of maakt hij rare fouten?

Hier is wat ze hebben ontdekt, vertaald in een simpel verhaal met een paar creatieve vergelijkingen:

1. De Opdracht: De "Robot-Assistent"

De onderzoekers gaven de AI een specifieke opdracht (een "rubriek" of puntenschema), net als een leraar die een antwoordblad heeft. Ze lieten de AI 57 verslagen nakijken over een experiment met reactietijd (waarbij je een liniaal laat vallen en probeert hem te vangen).

De AI moest op basis van de tekst, formules en grafieken punten geven voor onderdelen zoals:

  • Wat was het doel?
  • Klopt de theorie?
  • Is de opzet goed beschreven?
  • Klopt de data-analyse?
  • Zijn de conclusies logisch?

2. Het Resultaat: Een "Blind" Beoordelaar

Het resultaat was een mix van goed en minder goed. Je kunt de AI vergelijken met een zeer snelle, maar soms blinde beoordelaar.

  • Wat ging goed (De "Structuur-Check"):
    De AI was heel goed in het controleren van de opmaak en structuur. Het kon makkelijk zien of een verslag een inleiding had, of de zinnen logisch liepen en of de studenten de juiste hoofdstukken hadden gebruikt.

    • Vergelijking: Het is alsof de AI een architect is die perfect kan zien of een huis de juiste muren en deuren heeft, maar niet weet of de muren stevig genoeg zijn.
  • Wat ging minder goed (De "Inhouds-Check"):
    Hier kregen ze de problemen. De AI had moeite met de echte natuurkunde.

    • De "Blindheid" voor plaatjes: Veel verslagen bevatten grafieken en formules. De AI probeerde deze te lezen, maar vaak zag het de tekst erachter niet goed (net als iemand die door een modderig raam probeert te kijken). Soms dacht de AI dat een grafiek er was, terwijl hij die niet kon zien, en gaf hij een punt op basis van een veronderstelling.
    • De "Oppervlakkige" reactie: Soms gaf de AI een punt omdat het dacht: "Ja, er staat hier een theorie." Maar het keek niet echt na of die theorie klopte of wel of niet op de juiste manier was toegepast.
    • Vergelijking: Stel je voor dat de AI een kookrecept nakijkt. Hij ziet wel dat er een kopje "Ingrediënten" is en dat er een stukje "Bereiding" staat. Maar als je kijkt of de chef de suiker in de zout heeft gedaan (een fout in de formule), ziet de AI dat niet altijd. Hij zegt dan: "Het recept ziet er netjes uit," terwijl het eten misschien niet eetbaar is.

3. De Vergelijking met de Mens

Toen de onderzoekers de punten van de AI vergeleken met die van de echte leraren, was er een groot verschil:

  • De AI gaf gemiddeld lagere punten dan de leraren.
  • De volgorde van de verslagen (wie scoorde het hoogst) liep vaak niet overeen.
  • De correlatie (de overeenkomst) was zwak.

Het was alsof twee verschillende mensen een schilderij beoordelen: de ene kijkt naar de lijnen en de compositie (de AI), en de andere kijkt naar de emotie en de techniek (de leraar). Ze komen tot heel verschillende oordelen.

4. De Oplossing: De "Gespreks-Room"

In een extra experiment probeerden ze de AI niet als een robot die alles in één keer nakijkt, maar als een gesprekspartner. Ze stelden de AI specifieke vragen over een bepaald plaatje of een specifieke formule.

  • Resultaat: Toen de AI werd gedwongen om zich te focussen op één ding en kon "kijken" naar dat specifieke stukje, gaf hij veel betere feedback.
  • Les: De AI is niet dom, maar hij heeft hulp nodig om de juiste vragen te stellen. Als je hem alleen maar een stapel papier geeft, raakt hij de draad kwijt. Als je hem leidt, werkt hij beter.

Conclusie: Een Hulpje, geen Vervanger

De belangrijkste boodschap van dit onderzoek is: Gebruik de AI niet om je werk over te nemen, maar als een hulpmiddel.

  • Wat de AI wel kan: Hij kan helpen bij het controleren van de vorm, de spelling en de structuur. Hij kan de leraar helpen om te zien welke studenten vaak dezelfde fouten maken in de opmaak.
  • Wat de AI nog niet kan: Hij kan nog niet volledig vertrouwen op de interpretatie van complexe grafieken of diepe natuurkundige redeneringen zonder dat een mens erbij kijkt.

In het kort: De AI is als een junior-assistent die heel snel de muren van het huis controleert, maar nog niet de ervaring heeft om te zeggen of het dak niet gaat lekken. De leraar moet altijd de eindverantwoordelijkheid blijven houden om te zorgen dat het huis (de beoordeling) veilig en correct is.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →