How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions
Cette étude évalue les performances de quatre grands modèles de langage sur des questions à réponse libre de physique AP, révélant qu'ils maîtrisent bien le raisonnement algébrique mais éprouvent des difficultés significatives dans l'interprétation visuelle, le raisonnement spatial et l'intégration conceptuelle.