How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

この論文は、AP 物理の自由回答問題における最新 AI モデルの性能を評価し、構造化された代数問題では高い得点を示す一方で、図表の解釈や空間的推論、概念的統合を要する課題には依然として限界があることを明らかにしています。

Bilas Paul, Jashandeep Kaur, Shantanu Chakraborty, Shruti Shrestha

公開日 Tue, 10 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「最新の AI(人工知能)が、高校の物理の難しいテストにどれくらい合格できるのか?」**という実験結果を報告したものです。

まるで、**「4 人の天才的な AI 学生」**が、10 年間にわたって行われた「AP 物理(アメリカの大学入学資格試験レベルの物理)」の試験を受け、その成績を専門の先生たちが厳しく採点したという物語だと考えてみてください。

以下に、専門用語を排して、わかりやすい比喩を使って解説します。


1. 実験の舞台:4 人の AI 学生と 10 年間のテスト

研究者たちは、以下の 4 つの有名な AI(ChatGPT, Gemini, Claude, DeepSeek)を「学生」に見立てました。

  • 試験内容: 2015 年から 2025 年までの「物理 1(力学など)」と「物理 2(電気・光など)」の自由記述問題。
  • 採点方法: 3 人の物理の専門家が、実際の試験の採点基準(ルビリック)を使って、AI の答案を厳しくチェックしました。

2. 結果の総評:「計算は得意、でも絵は苦手」

【全体の成績】
4 人の AI 学生は、平均して**82%〜92%**という非常に高い点数を取りました。これは、人間の優秀な学生に匹敵するレベルです。

  • 得意分野: 数式を並べて計算する問題や、決まった手順で解ける問題は、AI が完璧にこなします。まるで**「計算機が人間に化けた」**ような感じです。
  • 苦手分野: しかし、年によって点数が激しく変動しました。特に「物理 1(力学)」では、どの AI が一番か毎年入れ替わり、一貫した「優等生」はいませんでした。

【物理 2 の結果】
「物理 2」では、Gemini と DeepSeekが他を抜いて安定した高得点でした。一方、ChatGPT は点数のブレが大きく、たまに満点を取ることもあれば、大幅に落ち込むこともありました。

3. AI が犯した「致命的なミス」6 選

AI がなぜ満点を取れなかったのか?彼らが犯したミスを分析すると、**「絵や図を見るのが苦手」**という共通点が見つかりました。

  1. 図の読み間違い(「絵が見えていない」)

    • 例: 斜面を滑るブロックの図を見て、「高さが同じだから同時に着地する」と勘違いしました。実際は斜面の角度でスピードが変わるのに、AI は**「図の形」を無視して、数字だけを見て判断**してしまいました。
    • 比喩: 料理のレシピ(数式)は完璧に読めるのに、「材料の盛り付け(図)」を見て、何が入っているか見抜けない状態です。
  2. グラフの読み取り・作成ミス

    • 例: グラフから「圧力」や「体積」の正確な数値を読み取れず、適当な数字を当てはめて計算しました。また、「グラフを描け」と言われても、軸のラベルや形を正しく説明できませんでした。
    • 比喩: 地図は読めるのに、道案内の図を描くのが下手で、「ここが曲がり角」と言っても、実際には直進しているような説明をしてしまいます。
  3. 矢印の方向ミス(「右と左がわからない」)

    • 例: 力が「右向き」なのに「左向き」と答えるなど、ベクトル(矢印)の方向を間違えました。
    • 比喩: 「北は上」というルールは知っているのに、地図を見ながら「東は右」と言えないような状態です。
  4. 説明と計算の矛盾

    • 例: 計算式は正しいのに、その理由の説明が物理の法則と矛盾していました。
    • 比喩: 「答えは 10 です」と言いつつ、「なぜ 10 になるのか?」という理由を、全く別の話で説明してしまうような状態です。
  5. 回路図の誤解

    • 例: 電気回路の図を見て、「直列」か「並列」かを間違え、抵抗の値を間違った計算をしました。
    • 比喩: 配線図を見て、どこに電気が流れているかイメージできない状態です。
  6. 右の法則(3 次元の方向)の失敗

    • 例: 磁石や電流の方向を指で示す「右の法則」を使う際、3 次元の空間を頭の中で回転させることができませんでした。
    • 比喩: 2 次元の紙の上では上手に描けるのに、3 次元の立体を頭の中で回転させて方向を判断するのが苦手です。

4. 結論と教訓:AI は「優秀な助手」だが「完全な先生」にはなれない

この研究からわかることは、**「AI は計算や公式の適用は天才的だが、図や絵から物理的なイメージを掴むのが苦手」**ということです。

  • 先生たちへのアドバイス:
    AI は宿題の計算チェックや、公式の復習には役立ちます。しかし、**「図を描いて考えさせる問題」や「実験の設計」**などは、AI に任せず、人間がしっかり教える必要があります。AI の間違いを「なぜ間違えたのか?」を学ぶ教材として使うのも良いアイデアです。

  • AI 開発者へのアドバイス:
    次世代の AI には、**「図を見て理解する力」「3 次元の空間をイメージする力」**を強化してほしいと伝えています。

まとめ

この論文は、**「AI は物理のテストで素晴らしい成績を残したが、まだ『絵から考える』という人間の直感的な部分では、完璧ではない」**と教えてくれました。

AI は**「計算機の達人」ですが、「物理のイメージを掴む芸術家」**にはまだなれていないのです。教育現場では、この AI の「得意」と「苦手」を理解した上で、上手に付き合っていくことが大切だと結論づけています。