CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Each language version is independently generated for its own context, not a direct translation.

1. 問題：AI はなぜ「理科」が苦手なのか？

皆さんは、AI が数学や物理の問題を解くとき、なぜ間違えることがあるのか考えたことはありますか？
これまでの研究では、「AI の『頭』（論理的思考力）が足りないから」と考えられてきました。

しかし、この論文の著者たちは、**「いや、実は『目』（視覚的な認識力）が不十分なのでは？」**と疑問を持ちました。

🕵️‍♂️ 実験：「目」と「頭」を別々に大きくしてみる

彼らは、AI の「目（画像を見る力）」と「頭（考える力）」を別々に強化する実験を行いました。

頭だけ強くしても、成績はあまり上がりません。
目だけを強くすると、成績が劇的に向上しました。

結論： 現在の AI が理科の問題で失敗する最大の原因は、「頭」ではなく**「目（視覚認識）の弱さ」**だったのです。

2. 従来の方法の限界：「言葉」だけでは不十分

では、どうやって「目」を鍛えるか？
これまで、AI に「この画像は〇〇です」という**説明文（キャプション）**を大量に教えて訓練していました。
しかし、これには 2 つの大きな問題がありました。

嘘をつく（ハルシネーション）： AI が「ここには赤い丸が 3 つある」と言っても、実際は 4 つだったり、位置がズレていたりすることがよくあります。
言葉の限界： 複雑な立体図形や、正確な数値、厳密な位置関係は、日本語や英語などの「自然言語」では正確に表現しきれません。「ちょっと左寄りに」と言っても、AI は「どれくらい左？」と迷ってしまいます。

3. 解決策：「コード」を新しい「目」にする

ここで、この論文が提案する画期的なアイデアが登場します。

「画像を説明する代わりに、その画像を描く『プログラムコード（Python）』を書かせよう！」

🎨 アナロジー：料理のレシピ

従来の方法（言葉）： 「美味しいカレーを作ってください。具材はたくさん入っていて、少し辛いです。」
- → 料理人（AI）は「たくさん」や「少し」の基準がわからず、失敗します。
新しい方法（コード）： 「玉ねぎ 200g、肉 150g、水 500ml、30 分煮る。」という**正確なレシピ（コード）**を書きます。
- → 料理人（AI）は、このレシピ通りに作れば、必ず同じ味（同じ画像）が再現できます。

この論文では、**「実行可能なコード」**こそが、AI にとって最も正確で曖昧さのない「視覚の基準（Ground Truth）」だと考えました。

4. 具体的な取り組み：2 つのステップ

このアイデアを実現するために、研究者たちは 2 つの大きなことをしました。

① 100 万組の「画像・説明文・コード」データを作る（ICC-1M）

AI に教えるための巨大な教材を作りました。

画像： 理科の問題図など。
コード： その画像を正確に描くための Python プログラム。
説明文： コードを元に、AI が「嘘をつかないように」正確に文章化した説明。

これにより、AI は「画像を見て、コードを書く」「コードを見て、正確な説明をする」という練習を繰り返すことができます。

② 新基準「STEM2Code-Eval」の作成

「AI が問題を解けるか」ではなく、**「AI が画像をコードで正確に再現できるか」**をテストする新しい試験を作りました。

画像を見て、「この図を描くためのコードを書いて」と言います。
そのコードを実行して、元の画像と一模一样（いっしょ）に描けたかどうかで評価します。
コードは実行すれば結果がわかるので、評価が非常に公平で確実です。

5. 結果：劇的な改善

この方法で AI を訓練したところ、驚くべき結果が出ました。

小さな AI でも強くなった： 巨大な AI 並みの性能を、比較的小さなモデルでも発揮できるようになりました。
他の AI を凌駕： 既存の最先端 AI よりも、画像の認識力や理科の問題解決能力が向上しました。
嘘が減った： コードという「厳密な基準」を挟むことで、AI の幻覚（嘘）が大幅に減りました。

まとめ：なぜこれが重要なのか？

この論文は、**「AI に『言葉』で教えるのではなく、『設計図（コード）』で教える」**という新しい道を開きました。

これまでの常識： 「AI は頭（論理）が足りないから、もっと勉強させよう」
この論文の発見： 「いや、実は『目』がぼやけているから、**『設計図（コード）』**を使って、正確に『見る』練習をさせよう」

これは、AI が将来、より複雑な科学技術や医療の分野で活躍するための、非常に重要な一歩となるでしょう。AI が「見る」力をコードという「確実な言語」で鍛えることで、真の知能が花開くかもしれません。

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

1. 問題：AI はなぜ「理科」が苦手なのか？

🕵️‍♂️ 実験：「目」と「頭」を別々に大きくしてみる

2. 従来の方法の限界：「言葉」だけでは不十分

3. 解決策：「コード」を新しい「目」にする

🎨 アナロジー：料理のレシピ

4. 具体的な取り組み：2 つのステップ

① 100 万組の「画像・説明文・コード」データを作る（ICC-1M）

② 新基準「STEM2Code-Eval」の作成

5. 結果：劇的な改善

まとめ：なぜこれが重要なのか？

CodePercept: MLLM 向けコード・グラウンディングによる STEM 視覚知覚の技術的サマリー

1. 問題定義：STEM 視覚推論におけるボトルネック

2. 提案手法：CodePercept

2.1. 大規模データセット ICC-1M の構築

2.2. 2 つのコード・グラウンディングタスク

2.3. 学習戦略

3. 評価ベンチマーク：STEM2Code-Eval

4. 実験結果

5. 意義と結論

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

1. 問題：AI はなぜ「理科」が苦手なのか？

🕵️‍♂️ 実験：「目」と「頭」を別々に大きくしてみる

2. 従来の方法の限界：「言葉」だけでは不十分

3. 解決策：「コード」を新しい「目」にする

🎨 アナロジー：料理のレシピ

4. 具体的な取り組み：2 つのステップ

① 100 万組の「画像・説明文・コード」データを作る（ICC-1M）

② 新基準「STEM2Code-Eval」の作成

5. 結果：劇的な改善

まとめ：なぜこれが重要なのか？

CodePercept: MLLM 向けコード・グラウンディングによる STEM 視覚知覚の技術的サマリー

1. 問題定義：STEM 視覚推論におけるボトルネック

2. 提案手法：CodePercept

2.1. 大規模データセット ICC-1M の構築

2.2. 2 つのコード・グラウンディングタスク

2.3. 学習戦略

3. 評価ベンチマーク：STEM2Code-Eval

4. 実験結果

5. 意義と結論

関連論文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers