How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

Cette étude évalue les performances de quatre grands modèles de langage sur des questions à réponse libre de physique AP, révélant qu'ils maîtrisent bien le raisonnement algébrique mais éprouvent des difficultés significatives dans l'interprétation visuelle, le raisonnement spatial et l'intégration conceptuelle.

Bilas Paul, Jashandeep Kaur, Shantanu Chakraborty, Shruti Shrestha

Publié Tue, 10 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous organisez un grand tournoi de cuisine, mais au lieu de cuisiniers, vous engagez quatre robots super-intelligents (les IA) pour préparer un plat complexe : la physique.

Le défi ? Résoudre les mêmes problèmes que ceux posés aux élèves américains lors de l'examen final du lycée (l'examen AP Physics), qui est réputé pour être difficile et demander de la logique, pas juste du calcul.

Voici ce que les chercheurs ont découvert, expliqué simplement avec des images du quotidien.

1. Le Match : Qui est le meilleur chef ?

Les chercheurs ont mis en lice quatre robots célèbres : ChatGPT, Gemini, Claude et DeepSeek. Ils leur ont donné des questions de physique de 2015 à 2025 (sauf 2020, année où l'examen a été annulé à cause du virus).

  • Le résultat global : Tous les robots sont étonnamment bons ! Ils obtiennent en moyenne entre 82 % et 92 %. C'est comme si tous les robots avaient obtenu une note de "Très Bien" à l'école.
  • La différence entre les deux matières :
    • Physique 1 (Mécanique, mouvement) : C'est comme une course où les robots se battent pour la première place. Parfois, c'est l'un qui gagne, parfois l'autre. Il n'y a pas de vrai champion clair. Ils sont tous à peu près aussi forts, mais ils ont des "jours de chance" ou de malchance.
    • Physique 2 (Électricité, optique, chaleur) : Là, la hiérarchie est plus claire. Gemini et DeepSeek sont les grands gagnants, très stables et fiables. Claude et ChatGPT sont un peu en retrait, avec des notes plus basses et plus imprévisibles.

2. Le Problème : Pourquoi les robots échouent-ils parfois ?

Même si les robots sont forts en calcul (comme une calculatrice géante), ils ont des faiblesses amusantes et étranges, un peu comme un chef qui connaît par cœur la recette mais qui ne sait pas lire les ingrédients sur l'image.

Voici leurs erreurs récurrentes, expliquées avec des métaphores :

  • Les "Aveugles" aux dessins :
    Si on montre un dessin avec deux blocs qui glissent sur des rampes, le robot peut dire : "Ils arrivent en même temps !" alors que la forme de la rampe change la vitesse.

    • L'analogie : C'est comme si le robot lisait le texte de la recette ("mélangez les œufs") mais qu'il ne voyait pas l'image du bol qui est déjà plein d'eau. Il ignore les indices visuels.
  • Les "Mauvais Lecteurs" de graphiques :
    Quand on leur donne un graphique (une courbe qui monte et descend), ils inventent souvent des chiffres au lieu de les lire.

    • L'analogie : C'est comme si vous demandiez à quelqu'un de lire l'heure sur une montre, et qu'il répondait "Il est midi" parce qu'il aime bien midi, sans même regarder les aiguilles.
  • La "Boussole" qui tourne :
    En physique, la direction (gauche, droite, haut, bas) est cruciale. Les robots se trompent souvent sur la direction des forces ou des champs magnétiques.

    • L'analogie : Imaginez un GPS qui vous dit de tourner à gauche alors que vous devez aller à droite. Le robot fait le calcul mathématique parfaitement, mais il part dans la mauvaise direction, donc toute la suite de son raisonnement est fausse.
  • La "Règle de la main droite" :
    C'est une technique spécifique en physique pour les aimants et l'électricité. Les robots la confondent souvent.

    • L'analogie : C'est comme essayer de faire un nœud avec les mains en regardant votre reflet dans un miroir : tout semble logique, mais c'est l'inverse de ce qu'il faut faire.

3. La Leçon pour les Professeurs et les Parents

Alors, faut-il jeter les manuels de physique et laisser les robots faire le travail ? Non.

  • Ce que les robots font bien : Ils sont excellents pour résoudre des équations mathématiques pures, comme un assistant de calcul ultra-rapide. Ils peuvent aider un élève à vérifier ses formules.
  • Ce qu'ils ne savent pas faire : Ils ne comprennent pas vraiment l'image derrière le problème. Ils ne peuvent pas encore "voir" la physique comme un humain. Si un problème demande de dessiner un schéma, d'interpréter un graphique complexe ou de visualiser un objet en 3D, le robot risque de vous donner une réponse qui semble intelligente mais qui est complètement fausse.

En résumé

Ces robots sont comme des étudiants surdoués qui ont une mémoire incroyable mais qui sont dyslexiques avec les images. Ils peuvent réciter la théorie par cœur, mais s'ils ne peuvent pas bien "voir" le problème, ils se trompent.

Pour l'éducation, cela signifie que l'IA est un super outil d'aide, mais pas un remplacement. Les professeurs doivent continuer à vérifier les dessins et les raisonnements, car c'est là que les robots trébuchent encore. L'avenir, c'est l'humain qui utilise le robot comme un assistant, mais qui garde le contrôle sur la logique visuelle et spatiale.