VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

本論文は、視覚的に極めて類似した図形から正解を識別する高度な推論能力を評価する新たなベンチマーク「VisioMath」を提案し、現在の多モーダルモデルが画像とテキストの整合性不足により類似図形の比較推論で失敗しやすいことを明らかにするとともに、アライメント指向の戦略による性能向上を実証しています。

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「VisioMath(ビジオマス)」**という新しいテストと、それを使った面白い発見について書かれています。

簡単に言うと、**「AI に『よく似ているけど、実は違う』4 つの図を見せ、どれが正解か選ばせる」**という、人間なら簡単でも AI にはかなり難しいテストを作ったというお話です。

以下に、日常の言葉と面白い例えを使って解説します。


1. 何をしたの?(VisioMath という新しいテスト)

これまでの AI(大規模マルチモーダルモデル)のテストは、「問題文と 1 枚の絵」を見て答えるものが多かったんです。でも、現実の数学のテスト、特に高校や大学の入試問題では、**「問題文に対して、A・B・C・D の 4 つの選択肢がすべて『絵(図形)』で出題される」**ことがよくあります。

しかも、これら 4 つの絵は**「ほとんど同じ」**なんです。

  • 直線の傾きが少し違うだけ。
  • 立体の影の向きが微妙に違うだけ。
  • 展開図の折り目が 1 本違うだけ。

人間は「あ、ここが少し違うな」という**「微細な違い」を見抜いて正解を選びます。しかし、最新の AI たちは、この「よく似ている 4 つの絵」の中から正解を選ぶのがものすごく苦手**でした。

そこで、研究者たちは**「VisioMath」**という、1,800 問ものこのタイプの難問を集めたテストを作りました。

2. 何がわかったの?(AI の「あるある」失敗)

このテストで最新の AI たち(GPT-4.1 や Gemini 2.5 Pro など)を試したところ、**「絵が似ているほど、AI は間違える」**という結果が出ました。

🧐 発見:AI は「勘」で答えている?

AI がなぜ間違えるのかを詳しく分析すると、「絵と言葉の対応関係」がズレていることがわかりました。

  • 人間の思考: 「問題文の『傾きが急』という説明を見て、A の絵は緩やか、B の絵は急だから、B が正解だ」と論理的に考えます。
  • AI の思考(失敗例): 「問題文は読んだけど、A・B・C・D の 4 つの絵が並んでいるから、**『たぶん 2 番目の絵(B)が正解だろう』**と、位置だけで適当に選んじゃった」。

これを**「画像と言葉のミスマッチ」と呼んでいます。AI は「絵と言葉をセットで理解する」のが下手で、「絵の並び順(位置)」だけで答えを推測するクセ**がついてしまっているのです。

🎲 実験:順番をバラバラにしたら?

研究者は、「絵の並び順は変えずに、A・B・C・D のラベルをシャッフル(入れ替え)」する実験をしました。
すると、AI の正解率はガクンと下がりました。
これは、AI が「絵の内容」を見て考えているのではなく、
「たまたま 2 番目にあったから B だ」という勘
で答えていたことを証明しています。

3. どうすれば良くなるの?(3 つの対策)

この「ズレ」を直すために、3 つの対策を試しました。

  1. 1 枚の大きな絵にする(Strategy 1)

    • 4 つの絵をバラバラに並べるのではなく、1 枚の大きなキャンバスにすべて並べて見せます。
    • 効果: 絵が 1 枚にまとまると、AI は「あ、これは全部比較対象なんだ」と理解しやすくなり、少し正解率が上がりました。
    • 例え: 4 つの写真を別々の部屋に置かれるより、1 つのアルバムに並べられた方が、違いを見つけやすいのと同じです。
  2. ラベルを絵に直接書く(Strategy 2)

    • 各絵の下に「A」「B」「C」「D」という文字を、絵そのものの中に描き込みます。
    • 効果: 「この絵は A だよ」という手がかりを視覚的に与えることで、AI の混乱が減りました。
    • 例え: 料理の材料に「これは塩」「これは砂糖」と直接ラベルを貼るようなものです。
  3. 「考え方の練習」をさせる(Strategy 3)

    • これが最も効果的でした。AI に「1 つずつ絵を見て、その特徴を言葉で説明し、最後に答えを導く」という**「思考のステップ(Chain of Thought)」**を教えるデータで学習させました。
    • 効果: 正解率が大幅に向上(最大で 12.6% 上昇)しました。
    • 例え: 暗記で答えを覚えるのではなく、「なぜこれが正解なのか」を論理的に説明する練習をさせることで、AI が「考える力」を取り戻したのです。

4. まとめ:この研究の意義

この研究は、**「AI は絵と文字を結びつけるのがまだ下手」**という弱点を突き止めました。

  • 現状: AI は「似ている絵」を見分けるのが苦手で、位置や勘で答えてしまう。
  • 解決策: 絵と言葉を明確に対応させる練習をさせれば、AI は劇的に上手くなる。

これは、AI が将来、学校の先生や医療診断など、**「微妙な違いを見極める必要がある」**重要な仕事をするために、とても重要な発見です。

**「VisioMath」**は、AI が本当に賢くなったかどうかを測る、新しい「物差し」として、これからも使われていくでしょう。