Vision Language Models Cannot Reason About Physical Transformation

この論文は、物理的変換下での物理量の不変性を評価するベンチマーク「ConservationBench」を用いた大規模実験により、現在のビジョン言語モデル(VLM)が動的なシーンにおける物理的変換に関する推論能力を欠き、視覚情報よりもテキストの事前知識に依存して性能が低下することを示しています。

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「最新の AI(視覚言語モデル)は、実は『物理的な変化』を理解できていない」**という衝撃的な発見を報告したものです。

専門用語を抜きにして、わかりやすい例え話で解説しますね。

🧸 1. 何が調べられたの?(「守恒」のテスト)

まず、この研究のテーマは**「守恒(守恒:物理的な量は形が変わっても変わらない)」**という概念です。

  • 人間の例え:
    あなたが、丸いお団子(粘土)を平らなクッキーの形に変えても、「お団子の量は変わらない」ことがわかりますよね?
    また、高いコップに入っているジュースを、横に広いコップに注いでも、「ジュースの量は同じ」だとわかります。
    これは子供が成長する過程で学ぶ重要な能力ですが、AI にはこれができるでしょうか?

  • AI のテスト:
    研究者たちは、112 種類の AI に、動画を見せながら以下の質問をしました。

    • 「コインを並べ替えても、数は同じですか?」
    • 「ストローを曲げても、長さは同じですか?」
    • 「ジュースを別のコップに注いでも、量は同じですか?」

🤖 2. 結果は?「AI は勘違いしている」

結論から言うと、AI はこのテストで散々な結果でした。

  • 人間の正解率: 98%(ほぼ完璧)
  • AI の正解率: 33% 前後(偶然の確率と同じレベル)

AI は「形が変わった=量も変わった」と勘違いしてしまったり、逆に「形が変わっても量は変わらない」というルールを、動画の動きを見て理解できていませんでした。

🎭 3. なぜ AI は失敗したのか?(「おまじない」に頼りすぎている)

ここで面白い発見があります。AI は本当に「考えて」いるのでしょうか?

研究者は、**「画像を真っ白に消した状態」「画像なしで言葉だけで」**テストを行いました。

  • 驚きの事実:
    AI は、「何も見えない(真っ白な画像)」状態の方が、正解しやすいことがわかりました。

    • 理由: AI は「形が変わっても量は変わらない」という**言葉のルール(おまじない)**を暗記していました。
    • 問題点: しかし、実際に動画(視覚情報)を見せると、AI はその「おまじない」を捨てて、間違った視覚情報に引きずられてしまいます。

    🍳 料理の例え:
    料理人が「卵は割ると黄身と白身になる」というルール(言葉)を知っていても、実際に卵を割る動画を見せると、「あれ?黄身が飛んでいった!ルールが崩れた!」とパニックになって、間違った答えを出してしまうようなものです。
    AI は「言葉のルール」は知っているのに、「目の前の現実(動画)」を正しく処理して、ルールと結びつけることができないのです。

🚫 4. 工夫してもダメだった

研究者は「もっと多くのフレーム(写真)を見せればわかるかな?」「『順番に考えてね』と指示すればいいかな?」と試しましたが、どれも効果はありませんでした。

  • 写真の枚数を増やしても、AI は「連続した動き」を把握できません。
  • 指示を出しても、AI は表面的なパターンに頼ってしまいます。

💡 5. この研究が意味すること

この論文は、**「今の AI は、物理的な世界を『理解』しているわけではない」**と警鐘を鳴らしています。

  • ロボットが転倒するリスク: もしこの AI をロボットに搭載して、ジュースを注いだり、箱を積み上げたりさせると、AI は「形が変わったから中身も減った」と勘違いして、失敗するかもしれません。
  • 次のステップ: AI が本当に賢くなるには、単に「言葉と画像を合わせる」だけでなく、「時間の流れの中で、物理法則がどう働くか」を体感(学習)する必要があるということです。

まとめ

この論文は、**「AI は『言葉の知識』は持っているが、『目の前の物理的な変化』を理解する能力は、まだ赤ちゃんレベル(あるいはそれ以下)」**だと突きつけた研究です。

AI が私たちの生活に深く入り込むためには、まずはこの「物理的な変化を理解する」という、人間なら誰でもできる基礎的な能力を身につける必要がある、というのがこの研究のメッセージです。