How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

Deze studie toont aan dat grote taalmodellen sterke prestaties leveren bij gestructureerde algebraïsche AP-fysica-opgaven, maar aanzienlijke beperkingen vertonen in ruimtelijk redeneren, visuele interpretatie en conceptuele integratie.

Bilas Paul, Jashandeep Kaur, Shantanu Chakraborty, Shruti Shrestha

Gepubliceerd Tue, 10 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep van vier zeer slimme, maar nog jonge studenten hebt die net klaar zijn met hun middelbare school. Ze heten ChatGPT, Gemini, Claude en DeepSeek. De onderzoekers van deze studie hebben hen een hele reeks moeilijke natuurkundetoetsen laten maken: de beroemde AP-examens uit de Verenigde Staten, die vaak worden gebruikt om te zien of studenten echt begrijpen hoe de wereld werkt.

Hier is wat de studie ontdekt, vertaald naar een simpel verhaal:

1. De Proef: Een "Blind" Toetsmoment

De onderzoekers gaven deze vier AI's dezelfde vragen als een echte leerling zou krijgen. Ze gaven hen een simpele opdracht: "Je bent een leerling. Los dit probleem op, teken de grafieken en leg uit waarom, maar vertel niet dat je een robot bent."

Ze keken niet alleen naar het eindcijfer, maar ook naar hoe de AI's redeneerden. Drie echte natuurkundeleraars beoordeelden de antwoorden streng, precies zoals ze dat op een echte examencommissie zouden doen.

2. Het Algemene Resultaat: Slim, maar niet perfect

Over het algemeen scoorden de robots verrassend goed. Ze haalden gemiddeld tussen de 82% en 92%. Dat is alsof je een groep studenten hebt die allemaal een 'A' of 'B' haalt. Ze zijn dus heel goed in het rekenen met formules en het toepassen van regels die ze in hun "hoofd" (hun database) hebben staan.

Maar, net als bij mensen, was er een groot verschil tussen de jaren. Soms scoorden ze perfect, soms vielen ze flink door de mand.

3. De Verschillen: De "Vaste" vs. de "Wispelturige"

Hier wordt het interessant. De onderzoekers keken of één robot altijd beter was dan de ander.

  • Bij Natuurkunde 1 (Mechanica, beweging, krachten): Het was een moeizame strijd. De ranglijst veranderde elk jaar. Soms was ChatGPT de beste, soms Claude, soms DeepSeek. Het was alsof je vier renners hebt die elke keer wisselen wie er wint, afhankelijk van het weer. Er was geen duidelijke "kampioen".
  • Bij Natuurkunde 2 (Elektriciteit, licht, warmte): Hier was er wel een duidelijke hiërarchie. Gemini en DeepSeek waren de stabiele winnaars. Ze scoorden consistent hoog en maakten minder fouten. Claude en ChatGPT hadden het wat moeilijker en scoorden gemiddeld lager.

4. Waar struikelden ze? (De "Grote Fouten")

Dit is het belangrijkste deel. Waar de AI's faalden, was niet omdat ze niet konden rekenen, maar omdat ze de werkelijkheid niet goed konden "zien".

Stel je voor dat de AI een bril heeft die alleen tekst en formules scherp ziet, maar wazig is voor beelden.

  • De "Blinddoek" voor Diagrammen: Als er een plaatje was met blokken die van een helling gleden, dachten de AI's soms dat ze tegelijkertijd beneden kwamen, omdat ze de helling niet goed zagen. Ze zagen de tekst, maar niet de ruimte.
  • Grafieken lezen als een raadsel: Als ze een grafiek moesten aflezen om een getal te vinden, gaven ze soms een willekeurig getal op. Het was alsof ze de as van de grafiek niet konden lezen, maar alleen de vorm zagen.
  • De "Rechterhand-regel" (3D-problemen): In de natuurkunde moet je soms met je hand een richting in de lucht bepalen (bij magnetisme). De AI's verwarren hier vaak links en rechts, of boven en onder. Ze kunnen het niet "voelen" in de driedimensionale ruimte.
  • Elektrische circuits: Ze konden soms niet goed zien welke weerstanden parallel of in serie zaten. Het was alsof ze een verkeersknooppunt zagen, maar niet begrepen welke weg waarheen leidde.

5. Wat betekent dit voor ons?

De studie concludeert dat deze AI's uitstekende rekenmachines zijn, maar slechte observatoren.

  • Voor leraren: Je kunt de AI gebruiken om formules uit te leggen of oefenopgaven te maken. Maar laat leerlingen niet blindelings vertrouwen op de AI als het gaat om het interpreteren van plaatjes of het tekenen van grafieken. Gebruik de fouten van de AI juist als lesmateriaal! Laat zien: "Kijk, de robot dacht dit, maar hij keek niet goed naar het plaatje. Dat is een fout die jij niet mag maken."
  • Voor de toekomst: De AI's moeten leren om beter te "kijken" en om ruimtelijk te denken. Zolang ze dat niet kunnen, blijven ze kwetsbaar voor de moeilijkste en meest creatieve natuurkundevragen.

Kortom: De AI's zijn slimme studenten die de theorie uit hun duim zuigen, maar ze hebben nog steeds een mens nodig om hen te vertellen wat ze op de foto's en in de werkelijkheid zien. Ze zijn geweldig hulpmiddelen, maar nog geen vervanging voor een echte natuurkundeleraar.