CodePercept: Code-Grounded Visual STEM Perception for MLLMs

この論文は、STEM 分野の視覚推論における MLLM の限界が推論能力ではなく知覚能力にあることを発見し、実行可能なコードを知覚の媒体として活用する「CodePercept」を提案し、100 万組の画像・説明文・コードのデータセットと、画像復元コード生成による厳密な評価ベンチマークを導入することでこの課題を解決しようとするものです。

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

1. 問題:AI はなぜ「理科」が苦手なのか?

皆さんは、AI が数学や物理の問題を解くとき、なぜ間違えることがあるのか考えたことはありますか?
これまでの研究では、「AI の『頭』(論理的思考力)が足りないから」と考えられてきました。

しかし、この論文の著者たちは、**「いや、実は『目』(視覚的な認識力)が不十分なのでは?」**と疑問を持ちました。

🕵️‍♂️ 実験:「目」と「頭」を別々に大きくしてみる

彼らは、AI の「目(画像を見る力)」と「頭(考える力)」を別々に強化する実験を行いました。

  • 頭だけ強くしても、成績はあまり上がりません。
  • 目だけを強くすると、成績が劇的に向上しました。

結論: 現在の AI が理科の問題で失敗する最大の原因は、「頭」ではなく**「目(視覚認識)の弱さ」**だったのです。


2. 従来の方法の限界:「言葉」だけでは不十分

では、どうやって「目」を鍛えるか?
これまで、AI に「この画像は〇〇です」という**説明文(キャプション)**を大量に教えて訓練していました。
しかし、これには 2 つの大きな問題がありました。

  1. 嘘をつく(ハルシネーション): AI が「ここには赤い丸が 3 つある」と言っても、実際は 4 つだったり、位置がズレていたりすることがよくあります。
  2. 言葉の限界: 複雑な立体図形や、正確な数値、厳密な位置関係は、日本語や英語などの「自然言語」では正確に表現しきれません。「ちょっと左寄りに」と言っても、AI は「どれくらい左?」と迷ってしまいます。

3. 解決策:「コード」を新しい「目」にする

ここで、この論文が提案する画期的なアイデアが登場します。

「画像を説明する代わりに、その画像を描く『プログラムコード(Python)』を書かせよう!」

🎨 アナロジー:料理のレシピ

  • 従来の方法(言葉): 「美味しいカレーを作ってください。具材はたくさん入っていて、少し辛いです。」
    • → 料理人(AI)は「たくさん」や「少し」の基準がわからず、失敗します。
  • 新しい方法(コード): 「玉ねぎ 200g、肉 150g、水 500ml、30 分煮る。」という**正確なレシピ(コード)**を書きます。
    • → 料理人(AI)は、このレシピ通りに作れば、必ず同じ味(同じ画像)が再現できます。

この論文では、**「実行可能なコード」**こそが、AI にとって最も正確で曖昧さのない「視覚の基準(Ground Truth)」だと考えました。


4. 具体的な取り組み:2 つのステップ

このアイデアを実現するために、研究者たちは 2 つの大きなことをしました。

① 100 万組の「画像・説明文・コード」データを作る(ICC-1M)

AI に教えるための巨大な教材を作りました。

  • 画像: 理科の問題図など。
  • コード: その画像を正確に描くための Python プログラム。
  • 説明文: コードを元に、AI が「嘘をつかないように」正確に文章化した説明。

これにより、AI は「画像を見て、コードを書く」「コードを見て、正確な説明をする」という練習を繰り返すことができます。

② 新基準「STEM2Code-Eval」の作成

「AI が問題を解けるか」ではなく、**「AI が画像をコードで正確に再現できるか」**をテストする新しい試験を作りました。

  • 画像を見て、「この図を描くためのコードを書いて」と言います。
  • そのコードを実行して、元の画像と一模一样(いっしょ)に描けたかどうかで評価します。
  • コードは実行すれば結果がわかるので、評価が非常に公平で確実です。

5. 結果:劇的な改善

この方法で AI を訓練したところ、驚くべき結果が出ました。

  • 小さな AI でも強くなった: 巨大な AI 並みの性能を、比較的小さなモデルでも発揮できるようになりました。
  • 他の AI を凌駕: 既存の最先端 AI よりも、画像の認識力や理科の問題解決能力が向上しました。
  • 嘘が減った: コードという「厳密な基準」を挟むことで、AI の幻覚(嘘)が大幅に減りました。

まとめ:なぜこれが重要なのか?

この論文は、**「AI に『言葉』で教えるのではなく、『設計図(コード)』で教える」**という新しい道を開きました。

  • これまでの常識: 「AI は頭(論理)が足りないから、もっと勉強させよう」
  • この論文の発見: 「いや、実は『目』がぼやけているから、**『設計図(コード)』**を使って、正確に『見る』練習をさせよう」

これは、AI が将来、より複雑な科学技術や医療の分野で活躍するための、非常に重要な一歩となるでしょう。AI が「見る」力をコードという「確実な言語」で鍛えることで、真の知能が花開くかもしれません。