How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep van vier zeer slimme, maar nog jonge studenten hebt die net klaar zijn met hun middelbare school. Ze heten ChatGPT, Gemini, Claude en DeepSeek. De onderzoekers van deze studie hebben hen een hele reeks moeilijke natuurkundetoetsen laten maken: de beroemde AP-examens uit de Verenigde Staten, die vaak worden gebruikt om te zien of studenten echt begrijpen hoe de wereld werkt.

Hier is wat de studie ontdekt, vertaald naar een simpel verhaal:

1. De Proef: Een "Blind" Toetsmoment

De onderzoekers gaven deze vier AI's dezelfde vragen als een echte leerling zou krijgen. Ze gaven hen een simpele opdracht: "Je bent een leerling. Los dit probleem op, teken de grafieken en leg uit waarom, maar vertel niet dat je een robot bent."

Ze keken niet alleen naar het eindcijfer, maar ook naar hoe de AI's redeneerden. Drie echte natuurkundeleraars beoordeelden de antwoorden streng, precies zoals ze dat op een echte examencommissie zouden doen.

2. Het Algemene Resultaat: Slim, maar niet perfect

Over het algemeen scoorden de robots verrassend goed. Ze haalden gemiddeld tussen de 82% en 92%. Dat is alsof je een groep studenten hebt die allemaal een 'A' of 'B' haalt. Ze zijn dus heel goed in het rekenen met formules en het toepassen van regels die ze in hun "hoofd" (hun database) hebben staan.

Maar, net als bij mensen, was er een groot verschil tussen de jaren. Soms scoorden ze perfect, soms vielen ze flink door de mand.

3. De Verschillen: De "Vaste" vs. de "Wispelturige"

Hier wordt het interessant. De onderzoekers keken of één robot altijd beter was dan de ander.

Bij Natuurkunde 1 (Mechanica, beweging, krachten): Het was een moeizame strijd. De ranglijst veranderde elk jaar. Soms was ChatGPT de beste, soms Claude, soms DeepSeek. Het was alsof je vier renners hebt die elke keer wisselen wie er wint, afhankelijk van het weer. Er was geen duidelijke "kampioen".
Bij Natuurkunde 2 (Elektriciteit, licht, warmte): Hier was er wel een duidelijke hiërarchie. Gemini en DeepSeek waren de stabiele winnaars. Ze scoorden consistent hoog en maakten minder fouten. Claude en ChatGPT hadden het wat moeilijker en scoorden gemiddeld lager.

4. Waar struikelden ze? (De "Grote Fouten")

Dit is het belangrijkste deel. Waar de AI's faalden, was niet omdat ze niet konden rekenen, maar omdat ze de werkelijkheid niet goed konden "zien".

Stel je voor dat de AI een bril heeft die alleen tekst en formules scherp ziet, maar wazig is voor beelden.

De "Blinddoek" voor Diagrammen: Als er een plaatje was met blokken die van een helling gleden, dachten de AI's soms dat ze tegelijkertijd beneden kwamen, omdat ze de helling niet goed zagen. Ze zagen de tekst, maar niet de ruimte.
Grafieken lezen als een raadsel: Als ze een grafiek moesten aflezen om een getal te vinden, gaven ze soms een willekeurig getal op. Het was alsof ze de as van de grafiek niet konden lezen, maar alleen de vorm zagen.
De "Rechterhand-regel" (3D-problemen): In de natuurkunde moet je soms met je hand een richting in de lucht bepalen (bij magnetisme). De AI's verwarren hier vaak links en rechts, of boven en onder. Ze kunnen het niet "voelen" in de driedimensionale ruimte.
Elektrische circuits: Ze konden soms niet goed zien welke weerstanden parallel of in serie zaten. Het was alsof ze een verkeersknooppunt zagen, maar niet begrepen welke weg waarheen leidde.

5. Wat betekent dit voor ons?

De studie concludeert dat deze AI's uitstekende rekenmachines zijn, maar slechte observatoren.

Voor leraren: Je kunt de AI gebruiken om formules uit te leggen of oefenopgaven te maken. Maar laat leerlingen niet blindelings vertrouwen op de AI als het gaat om het interpreteren van plaatjes of het tekenen van grafieken. Gebruik de fouten van de AI juist als lesmateriaal! Laat zien: "Kijk, de robot dacht dit, maar hij keek niet goed naar het plaatje. Dat is een fout die jij niet mag maken."
Voor de toekomst: De AI's moeten leren om beter te "kijken" en om ruimtelijk te denken. Zolang ze dat niet kunnen, blijven ze kwetsbaar voor de moeilijkste en meest creatieve natuurkundevragen.

Kortom: De AI's zijn slimme studenten die de theorie uit hun duim zuigen, maar ze hebben nog steeds een mens nodig om hen te vertellen wat ze op de foto's en in de werkelijkheid zien. Ze zijn geweldig hulpmiddelen, maar nog geen vervanging voor een echte natuurkundeleraar.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions", vertaald en samengevat in het Nederlands.

Titel: Hoe goed lossen AI-systemen AP-fysica op? Een vergelijkende evaluatie van grote taalmodellen op algebra-gebaseerde open vragen.

Auteurs: Bilas Paul, Jashandeep Kaur, Shantanu Chakraborty, Shruti Shrestha.
Publicatiedatum: 8 maart 2026 (gebaseerd op de arXiv-voetnoot).

1. Probleemstelling en Context

De snelle vooruitgang van grote taalmodellen (LLM's) zoals ChatGPT, Claude en Gemini heeft geleid tot groeiende interesse in hun toepassing in het STEM-onderwijs. Hoewel er onderzoek is gedaan naar hun prestaties, ontbreekt er een gefocuste, granulaire evaluatie van hun vermogen om meervoudige, open vragen (Free Response Questions - FRQ's) in de natuurkunde op te lossen.

Deze vragen, zoals die voorkomen in de AP Physics 1 en AP Physics 2 examens (College Board), vereisen niet alleen kwantitatieve berekeningen, maar ook:

Kwalitatieve uitleg.
Interpretatie en constructie van diagrammen en grafieken.
Ruimtelijk redeneren (3D-concepten).
Integratie van meerdere natuurkundige principes.

Het doel van deze studie is om de beperkingen en sterke punten van huidige AI-systemen te identificeren wanneer ze worden geëvalueerd tegen de officiële beoordelingscriteria van het College Board.

2. Methodologie

Data en Selectie:

Bron: Vragen uit de AP Physics 1 en AP Physics 2 examens van 2015 tot 2025 (2020 uitgesloten vanwege de pandemie).
Aantal: Een representatieve set van algebra-gebaseerde open vragen die diverse onderwerpen bestrijken (kinematica, dynamica, energie, elektriciteit, golven, moderne fysica).
Modellen: Vier toegankelijke LLM's werden getest:
1. ChatGPT 4.1 mini (OpenAI)
2. Gemini 2.5 Flash (Google DeepMind)
3. Claude 4.0 Sonnet (Anthropic)
4. DeepSeek R1 (DeepSeek AI)

Proces:

Prompting: Een gestandaardiseerde prompt werd gebruikt om de AI's te laten optreden als een middelbare scholier tijdens het examen. Er werden geen geavanceerde technieken (zoals "chain-of-thought" scaffolding) gebruikt om de basisprestaties te meten.
Beoordeling: De gegenereerde antwoorden werden onafhankelijk beoordeeld door drie experts in de natuurkunde (met doctoraten en ervaring in het geven van college).
Scoring: Gebruikmakend van de officiële College Board-rubrics. De scores werden gemiddeld over de drie beoordelaars.
Statistiek:
- Betrouwbaarheid: Intraclass Correlation Coefficient (ICC) en Cronbach's alpha.
- Vergelijking: Friedman-test (niet-parametrisch) voor rangschikkingen over de jaren, gevolgd door post-hoc Wilcoxon signed-rank tests met Bonferroni-correctie.
- Variabiliteit: Coëfficiënt van variatie (CV) om jaar-tot-jaar consistentie te meten.

3. Belangrijkste Resultaten

Algemene Prestaties:

Alle modellen behaalden hoge gemiddelde scores (82% – 92%), wat wijst op sterke vaardigheden in gestructureerde algebraïsche probleemoplossing.
Er was echter aanzienlijke variatie in consistentie tussen de modellen en tussen de examenjaren.

Vergelijking AP Physics 1 (Mechanica):

Geen significant verschil: De Friedman-test toonde geen statistisch significant verschil tussen de modellen aan ( $p = 0.141$ ).
Instabiliteit: De rangschikking van de modellen veranderde vaak per examenjaar (Kendall's W = 0.182). ChatGPT, Gemini, Claude en DeepSeek wisselden elkaar af als beste, afhankelijk van de specifieke kenmerken van het examen.
Conclusie: Voor algebra-gebaseerde mechanica hebben de modellen vergelijkbare, maar onstabiele competenties.

Vergelijking AP Physics 2 (Thermodynamica, Optica, Elektriciteit, Moderne Fysica):

Significante verschillen: Er was een statistisch significant verschil in prestaties ( $p = 0.0012$ ).
Topperformatie: Gemini en DeepSeek presteerden significant beter en consistenter dan Claude.
- Gemini: $91.2 \pm 5.7%$
- DeepSeek: $92.0 \pm 4.3%$ (laagste variabiliteit, CV = 4.7%)
- Claude: $84.1 \pm 6.3%$
- ChatGPT: $82.5 \pm 10.4%$ (hoogste variabiliteit, CV = 12.6%)
Post-hoc analyse: Gemini en DeepSeek scoorden significant hoger dan Claude. De verschillen met ChatGPT waren numeriek groot maar statistisch niet significant vanwege de hoge variabiliteit van ChatGPT.

Kwalitatieve Foutenanalyse (Gemeenschappelijke Patroon):
De studie identificeerde systematische fouten die leiden tot lagere scores, vooral bij vragen die visuele interpretatie vereisen:

Diagraminterpretatie: Fouten in het begrijpen van posities, bewegingsstaten of geometrische relaties in figuren (bijv. verkeerde conclusies over versnelling op hellingen).
Grafiekfouten: Verkeerd aflezen van numerieke waarden uit grafieken (bijv. PV-diagrammen) of het niet kunnen construeren van grafieken met juiste schaling en as-labels.
Richtingsfouten: Verkeerde toewijzing van vectorrichtingen (krachten, elektrische velden).
Redeneringsinconsistenties: Kwalitatieve uitleg die niet overeenkomt met de kwantitatieve berekening (bijv. vergeten zwaartekrachtspotentiële energie in de Bernoulli-vergelijking).
Schakelkringsfouten: Problemen met het identificeren van series en parallelschakelingen in schema's.
Rechterhandregel: Systematische fouten bij het toepassen van de rechterhandregel voor magnetische krachten en geïnduceerde stromen (3D-ruimtelijk redeneren).

4. Bijdragen en Significatie

Wetenschappelijke Bijdrage:

Longitudinale Evaluatie: Dit is een van de meest gedetailleerde studies die de prestaties van meerdere LLM's over een periode van 10 jaar in een specifiek STEM-domein (natuurkunde) vergelijkt.
Methodologische Template: De studie biedt een reproduceerbaar kader voor het evalueren van AI in het onderwijs, inclusief multi-beoordelaar scoring, niet-parametrische statistiek en een taxonomie van specifieke natuurkundefouten.
Nuancering van "High Scores": Het toont aan dat hoge gemiddelde scores misleidend kunnen zijn; de prestaties zijn sterk afhankelijk van de vraagtype (algebra vs. visueel/ruimtelijk) en het specifieke examenjaar.

Pedagogische Implicaties:

Leerkrachten: AI kan nuttig zijn voor algebraïsche oefeningen en conceptuele herhaling, maar studenten moeten worden gewaarschuwd voor de beperkingen bij visuele interpretatie en ruimtelijk redeneren. AI-antwoorden kunnen dienen als voorbeelden van veelvoorkomende misvattingen.
Ontwikkelaars: De studie identificeert specifieke gaten in de capaciteiten van LLM's: multimodale grounding (het correct interpreteren van grafieken en diagrammen), ruimtelijk redeneren (3D-vectorrelaties) en zelfconsistentie-checks.

Conclusie:
Huidige AI-systemen zijn effectief voor routineuze algebraïsche probleemoplossing in de natuurkunde, maar blijven beperkt in taken die diepgaand conceptueel inzicht, visuele interpretatie en ruimtelijk redeneren vereisen. De prestaties zijn niet uniform; modellen zoals Gemini en DeepSeek tonen meer consistentie in complexe domeinen (AP Physics 2) dan ChatGPT of Claude. De integratie van AI in het onderwijs vereist een kritische benadering waarbij de menselijke expertise essentieel blijft voor het opsporen en corrigeren van subtiele redeneerfouten.

How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

1. De Proef: Een "Blind" Toetsmoment

2. Het Algemene Resultaat: Slim, maar niet perfect

3. De Verschillen: De "Vaste" vs. de "Wispelturige"

4. Waar struikelden ze? (De "Grote Fouten")

5. Wat betekent dit voor ons?

Titel: Hoe goed lossen AI-systemen AP-fysica op? Een vergelijkende evaluatie van grote taalmodellen op algebra-gebaseerde open vragen.

1. Probleemstelling en Context

2. Methodologie

3. Belangrijkste Resultaten

4. Bijdragen en Significatie

Meer zoals dit

Kinematics of Single-Winged Spinning Seeds: A Study on Mahogany and Buddha Coconut Samaras

Chemically-polarized material for nuclear and particle physics

Experimental Challenges in Determining Heat Transfer Efficiency Scaling in Highly Turbulent Cryogenic Rayleigh-Benard Convection

Feasibility of Concurrent 1H MRS & 31P MRSI at 7T: Brain Energy Metabolism Responses to Hyperglycemia

Improving boundary-layer separation prediction by an IDDES turbulence model using a pressure-gradient sensor