How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous organisez un grand tournoi de cuisine, mais au lieu de cuisiniers, vous engagez quatre robots super-intelligents (les IA) pour préparer un plat complexe : la physique.

Le défi ? Résoudre les mêmes problèmes que ceux posés aux élèves américains lors de l'examen final du lycée (l'examen AP Physics), qui est réputé pour être difficile et demander de la logique, pas juste du calcul.

Voici ce que les chercheurs ont découvert, expliqué simplement avec des images du quotidien.

1. Le Match : Qui est le meilleur chef ?

Les chercheurs ont mis en lice quatre robots célèbres : ChatGPT, Gemini, Claude et DeepSeek. Ils leur ont donné des questions de physique de 2015 à 2025 (sauf 2020, année où l'examen a été annulé à cause du virus).

Le résultat global : Tous les robots sont étonnamment bons ! Ils obtiennent en moyenne entre 82 % et 92 %. C'est comme si tous les robots avaient obtenu une note de "Très Bien" à l'école.
La différence entre les deux matières :
- Physique 1 (Mécanique, mouvement) : C'est comme une course où les robots se battent pour la première place. Parfois, c'est l'un qui gagne, parfois l'autre. Il n'y a pas de vrai champion clair. Ils sont tous à peu près aussi forts, mais ils ont des "jours de chance" ou de malchance.
- Physique 2 (Électricité, optique, chaleur) : Là, la hiérarchie est plus claire. Gemini et DeepSeek sont les grands gagnants, très stables et fiables. Claude et ChatGPT sont un peu en retrait, avec des notes plus basses et plus imprévisibles.

2. Le Problème : Pourquoi les robots échouent-ils parfois ?

Même si les robots sont forts en calcul (comme une calculatrice géante), ils ont des faiblesses amusantes et étranges, un peu comme un chef qui connaît par cœur la recette mais qui ne sait pas lire les ingrédients sur l'image.

Voici leurs erreurs récurrentes, expliquées avec des métaphores :

Les "Aveugles" aux dessins :
Si on montre un dessin avec deux blocs qui glissent sur des rampes, le robot peut dire : "Ils arrivent en même temps !" alors que la forme de la rampe change la vitesse.
- L'analogie : C'est comme si le robot lisait le texte de la recette ("mélangez les œufs") mais qu'il ne voyait pas l'image du bol qui est déjà plein d'eau. Il ignore les indices visuels.
Les "Mauvais Lecteurs" de graphiques :
Quand on leur donne un graphique (une courbe qui monte et descend), ils inventent souvent des chiffres au lieu de les lire.
- L'analogie : C'est comme si vous demandiez à quelqu'un de lire l'heure sur une montre, et qu'il répondait "Il est midi" parce qu'il aime bien midi, sans même regarder les aiguilles.
La "Boussole" qui tourne :
En physique, la direction (gauche, droite, haut, bas) est cruciale. Les robots se trompent souvent sur la direction des forces ou des champs magnétiques.
- L'analogie : Imaginez un GPS qui vous dit de tourner à gauche alors que vous devez aller à droite. Le robot fait le calcul mathématique parfaitement, mais il part dans la mauvaise direction, donc toute la suite de son raisonnement est fausse.
La "Règle de la main droite" :
C'est une technique spécifique en physique pour les aimants et l'électricité. Les robots la confondent souvent.
- L'analogie : C'est comme essayer de faire un nœud avec les mains en regardant votre reflet dans un miroir : tout semble logique, mais c'est l'inverse de ce qu'il faut faire.

3. La Leçon pour les Professeurs et les Parents

Alors, faut-il jeter les manuels de physique et laisser les robots faire le travail ? Non.

Ce que les robots font bien : Ils sont excellents pour résoudre des équations mathématiques pures, comme un assistant de calcul ultra-rapide. Ils peuvent aider un élève à vérifier ses formules.
Ce qu'ils ne savent pas faire : Ils ne comprennent pas vraiment l'image derrière le problème. Ils ne peuvent pas encore "voir" la physique comme un humain. Si un problème demande de dessiner un schéma, d'interpréter un graphique complexe ou de visualiser un objet en 3D, le robot risque de vous donner une réponse qui semble intelligente mais qui est complètement fausse.

En résumé

Ces robots sont comme des étudiants surdoués qui ont une mémoire incroyable mais qui sont dyslexiques avec les images. Ils peuvent réciter la théorie par cœur, mais s'ils ne peuvent pas bien "voir" le problème, ils se trompent.

Pour l'éducation, cela signifie que l'IA est un super outil d'aide, mais pas un remplacement. Les professeurs doivent continuer à vérifier les dessins et les raisonnements, car c'est là que les robots trébuchent encore. L'avenir, c'est l'humain qui utilise le robot comme un assistant, mais qui garde le contrôle sur la logique visuelle et spatiale.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article de recherche intitulé « How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions », rédigé en français.

1. Problématique et Contexte

L'avancement rapide des modèles de langage de grande taille (LLM) a suscité un intérêt croissant pour leur intégration dans l'éducation scientifique, notamment en physique. Cependant, l'évaluation de leurs performances sur des problèmes complexes, multi-facettes et à réponse libre (Free Response Questions - FRQ) reste sous-étudiée.

Les examens de Physique AP (Advanced Placement) 1 et 2, basés sur l'algèbre, constituent un banc d'essai rigoureux car ils exigent non seulement des calculs quantitatifs, mais aussi des explications qualitatives, la conception d'expériences et la traduction entre différentes représentations (graphiques, diagrammes, équations). L'objectif de cette étude est de combler ce vide en évaluant systématiquement la capacité de quatre LLMs leaders à résoudre ces problèmes authentiques sur une décennie, afin d'identifier leurs forces, leurs limites persistantes et leur hiérarchie de performance.

2. Méthodologie

Données et Modèles :

Corpus : Les auteurs ont utilisé les questions à réponse libre (FRQ) des examens AP Physics 1 et AP Physics 2 administrés par le College Board entre 2015 et 2025 (en excluant 2020 en raison de la pandémie).
Modèles évalués : Quatre systèmes d'IA accessibles au public ont été testés :
- ChatGPT 4.1 mini (OpenAI)
- Gemini 2.5 Flash (Google DeepMind)
- Claude 4.0 Sonnet (Anthropic)
- DeepSeek R1 (DeepSeek AI)
Protocole : Les modèles ont été interrogés via leurs interfaces web standard (versions gratuites ou standards) entre octobre et décembre 2025. Aucune technique de prompt engineering avancée (comme le chain-of-thought explicite ou le few-shot) n'a été utilisée pour refléter l'expérience utilisateur standard.

Prompt Standardisé :
Un prompt unique a été conçu pour simuler un élève du secondaire passant l'examen, interdisant à l'IA de révéler son identité et exigeant une résolution étape par étape, avec des unités, des références explicites aux diagrammes et une description précise des graphiques à tracer.

Évaluation et Analyse Statistique :

Notation : Les réponses générées ont été notées par trois experts physiques indépendants (titulaires de diplômes avancés) utilisant les barèmes officiels du College Board.
Fiabilité : La cohérence inter-évaluateurs a été mesurée via le coefficient de corrélation intra-classe (ICC) et l'alpha de Cronbach.
Statistiques : L'analyse a utilisé des tests non paramétriques (Test de Friedman pour les mesures répétées, test de rangs signé de Wilcoxon avec correction de Bonferroni) pour comparer les performances annuelles et les hiérarchies de modèles. Les tailles d'effet (d de Cohen, W de Kendall) et les coefficients de variation (CV) ont été calculés.

3. Résultats Clés

Performance Globale :
Tous les modèles ont obtenu des scores moyens élevés (entre 82 % et 92 %), démontrant une capacité solide à résoudre des problèmes algébriques structurés. Cependant, des variations significatives ont été observées d'une année à l'autre.

Différences entre Physique 1 et Physique 2 :

Physique 1 (Mécanique) : Aucune différence statistiquement significative n'a été trouvée entre les modèles ( $p = 0,141$ ). Le coefficient de concordance de Kendall ( $W = 0,182$ ) indique une instabilité des classements : aucun modèle ne domine systématiquement, les performances variant selon la nature spécifique de chaque examen.
Physique 2 (Thermodynamique, Électricité, Optique, etc.) : Des différences significatives ont émergé ( $p = 0,0012$ $p = 0, 0012$ , $W = 0,532$ $W = 0, 532$ ).
- Gemini et DeepSeek ont démontré des performances supérieures et plus constantes (DeepSeek avec un CV de 4,7 %).
- Claude a obtenu des scores significativement inférieurs à Gemini et DeepSeek.
- ChatGPT a montré la plus grande volatilité (CV = 12,6 %) et des scores moyens plus bas, bien que les différences avec les leaders n'aient pas toujours atteint la signification statistique stricte après correction.

Analyse Qualitative des Erreurs (Taxonomie) :
L'analyse détaillée des réponses a révélé des schémas d'erreurs récurrents et systématiques chez tous les modèles, indiquant des limites fondamentales :

Interprétation des diagrammes : Mauvaise identification des positions, états de mouvement ou relations géométriques (ex. : ne pas comprendre que la pente d'une rampe affecte le temps de lancement).
Lecture et construction de graphiques : Incapacité à extraire des valeurs numériques précises des graphiques (ex. : diagrammes PV) ou à tracer des graphiques avec les caractéristiques physiques requises (amplitude, équilibre).
Erreurs vectorielles : Mauvaise identification des directions des forces, champs électriques ou mouvements.
Incohérences qualitatives/quantitatives : Application correcte de formules mais omission de termes physiques cruciaux (ex. : énergie potentielle gravitationnelle dans l'équation de Bernoulli).
Analyse de circuits : Difficulté à identifier correctement les configurations série/parallèle à partir de schémas.
Règle de la main droite : Erreurs fréquentes dans l'application de cette règle pour les forces magnétiques et les courants induits, révélant une difficulté avec le raisonnement spatial 3D.

4. Contributions Principales

Évaluation longitudinale et granulaire : C'est l'une des premières études à évaluer systématiquement les LLMs sur une décennie d'examens AP réels, offrant une vue d'ensemble de l'évolution des capacités de raisonnement physique.
Taxonomie des erreurs spécifiques à la physique : Au-delà des scores bruts, l'article catégorise les types d'échecs (spatiaux, visuels, topologiques), fournissant une feuille de route claire pour les développeurs.
Méthodologie rigoureuse : Utilisation d'une notation par trois experts, de tests statistiques non paramétriques adaptés aux petits échantillons (10 années) et d'une analyse de la fiabilité inter-évaluateurs.
Distinction entre Physique 1 et 2 : Mise en évidence du fait que la complexité conceptuelle accrue de la Physique 2 (intégration de concepts multiples, visualisation) amplifie les différences architecturales entre les modèles, contrairement à la Physique 1 où les performances sont plus homogènes.

5. Signification et Implications

Pour l'Éducation :
Les résultats suggèrent que les LLMs actuels sont des outils efficaces pour la résolution de problèmes algébriques standards et la révision de concepts bien définis. Cependant, leur utilisation pour les tâches nécessitant un raisonnement spatial, une interprétation visuelle complexe ou une intégration conceptuelle profonde doit être encadrée avec prudence. Les enseignants peuvent utiliser les erreurs systématiques de l'IA (comme une mauvaise lecture de diagramme) comme exemples pédagogiques pour illustrer des concepts difficiles.

Pour le Développement de l'IA :
L'étude identifie des lacunes critiques qui ne sont pas résolues par la simple augmentation de la taille des modèles ou de la fluence linguistique. Les améliorations futures doivent se concentrer sur :

Le grounding multimodal (extraction précise de données quantitatives depuis des graphiques et des images).
Le raisonnement spatial tridimensionnel.
Les mécanismes d'auto-vérification pour corriger les incohérences dans la chaîne de raisonnement.

Conclusion :
Bien que les systèmes d'IA contemporains montrent un potentiel considérable pour soutenir l'apprentissage de la physique, ils ne possèdent pas encore une compréhension conceptuelle complète. Leur performance est optimale dans des cadres structurés, mais ils échouent souvent lorsque la tâche exige une interprétation visuelle fine et une intégration cohérente de principes physiques dans un contexte ouvert. L'expertise humaine reste indispensable pour valider et corriger ces systèmes.

How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

1. Le Match : Qui est le meilleur chef ?

2. Le Problème : Pourquoi les robots échouent-ils parfois ?

3. La Leçon pour les Professeurs et les Parents

En résumé

1. Problématique et Contexte

2. Méthodologie

3. Résultats Clés

4. Contributions Principales

5. Signification et Implications

Articles similaires

Kinematics of Single-Winged Spinning Seeds: A Study on Mahogany and Buddha Coconut Samaras

Chemically-polarized material for nuclear and particle physics

Experimental Challenges in Determining Heat Transfer Efficiency Scaling in Highly Turbulent Cryogenic Rayleigh-Benard Convection

Feasibility of Concurrent 1H MRS & 31P MRSI at 7T: Brain Energy Metabolism Responses to Hyperglycemia

Improving boundary-layer separation prediction by an IDDES turbulence model using a pressure-gradient sensor