Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Each language version is independently generated for its own context, not a direct translation.

この論文は、最新の「AI（ビジョン・ランゲージモデル）」が、「文字」を見るときと「ただの図形」を見るときで、なぜこれほどまでに能力に差が出るのかという、驚くべき発見を報告したものです。

タイトルを少し変えて、**「AI は『文字』なら読めるのに、『四角い箱』はなぜ見えないのか？」**としてみましょう。

🧐 実験の仕組み：2 つの同じパズル

研究者たちは、15 行×15 列のマス目（全部で 225 マス）を用意しました。その中に、いくつかのマスに「黒い四角」が入っている状態です。
この同じパズルを、2 つの異なる方法で AI に見せました。

文字バージョン：黒いマスは「#（ハッシュ）」、白いマスは「.（ドット）」という文字で表現した画像。
図形バージョン：黒いマスは**「塗りつぶされた黒い四角」、白いマスは「何もない白」の図形**で表現した画像。

重要なのは、どちらも「画像」として AI のカメラ（視覚エンジン）に入力されている点です。 文字バージョンも、実は「文字が書かれた写真」を AI に見せているに過ぎません。

📉 驚きの結果：AI の「二重人格」

3 つの超高性能 AI（Claude, ChatGPT, Gemini）に、このパズルを「どこに黒いマスがあるか」を答えさせました。

文字バージョンの結果：
- どの AI も**「天才」**でした。9 割以上の正解率で、正確に「ここが黒いマスだ！」と答えました。
- 例えるなら、AI は「#」という記号を見て、「あ、これは黒いマスだ」と瞬時に理解し、位置も完璧に覚えました。
図形バージョンの結果：
- 突然、AI は**「バカ」**になりました。正解率は 6 割台に落ち、特に「どこに黒いマスがあるか」を正確に特定する能力（F1 スコア）は、3 割〜4 割まで崩壊しました。
- 例えるなら、AI は「黒い四角」を見て、「あ、何か黒い塊があるな」とは思っても、「それが正確にどのマスなのか」が全くわからなくなりました。

なぜ同じ画像なのに、これほど差が出るのでしょうか？

🔍 原因の正体：AI の「2 つの脳」

この論文の核心は、AI が実は2 つの異なる処理ルートを持っているのではないかという仮説です。

文字認識ルート（OCR ルート）：
- AI は画像の中に「文字」を見つけると、自動的にこの強力なルートを使います。
- このルートは、**「文字＝意味＋位置」をセットで覚えるのが得意です。「#」という文字を見れば、それが「黒いマス」であり、かつ「正確な座標」も同時に把握できます。まるで、「文字というラベルが貼ってあるから、場所がハッキリ見える」**状態です。
視覚認識ルート（純粋な画像ルート）：
- 文字ではなく、ただの「黒い四角」や「図形」だけを見ると、このルートを使います。
- しかし、現在の AI のこのルートは、「全体像（雰囲気）」はわかるものの、「細かい位置（座標）」を正確に把握するのが苦手です。
- 例えるなら、**「遠くから見たら『黒い山』があるのはわかるけど、その山の頂上が正確にどの木の上かまではわからない」**ような状態です。

🤖 3 つの AI の「失敗癖」

面白いことに、3 つの AI は図形バージョンで失敗する際、それぞれ違う「癖」を持っていました。

Claude：「数え忘れ」。黒いマスがあるのに、見落として「ここは白だ」と言ったり、数を少なく見積もったりしました。
ChatGPT：「大げさな勘違い」。黒いマスが少しあるだけで、「あそこにも、ここにも黒いマスがある！」と、実際よりずっと多く見間違い、余計な黒いマスを作り出しました。
Gemini：「パターン妄想」。複雑な図形を見ると、AI は「もうわからない！」となって、「L 字型」や「十字」などの決まったパターンを勝手に思い浮かべて、それを書き出してしまいました。入力された図形とは全く関係ない、AI 独自の「妄想」です。

💡 実験の続き：文字を「隠す」ことで復活する？

さらに面白い実験を行いました。
「黒い四角」の中に、小さく**「1」**という文字を書き込みました（白のマスには「0」）。
これを見ると、Claude と Gemini は、また一瞬で「天才」に戻りました。
「1」という文字があるだけで、AI は「あ、これは黒いマスだ！」と正確に位置を特定できるようになったのです。

しかし、ChatGPT は逆効果でした。文字を入れると、かえって混乱して正解率が下がってしまいました。これは、AI によって「文字」と「画像」の処理方法が微妙に違うことを示しています。

🌟 この発見が意味するもの

この研究は、**「今の AI は、視覚的な空間認識が苦手なのではなく、『文字というラベル』がないと場所がわからないだけ」**であることを示しています。

現実への影響：
- 医療画像（腫瘍の位置）や、自動運転（障害物の位置）、科学図表の解析など、「文字が書いていない図形」を扱う分野では、現在の AI は**「位置を正確に特定する能力が、私たちが思っているよりずっと低い」**可能性があります。
- 文字が書かれた書類の解析なら完璧でも、純粋な図形やパターンになると、AI は「見えない」のかもしれません。

🎒 まとめ：AI への教訓

この論文は、AI にこう言っているようなものです。
「君は『文字』という名前札があれば、場所を完璧に覚えられるのに、名前札がないと、ただの『黒い点』としてしか見えていないんだね。もっと、名前札なしの『形』そのものを見極める練習が必要だよ」

私たちは、AI が「何でも見ている」ように感じますが、実は**「文字という手掛かりがないと、空間的な位置を正確に把握できない」**という、意外な弱点を持っていることがわかりました。

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

🧐 実験の仕組み：2 つの同じパズル

📉 驚きの結果：AI の「二重人格」

🔍 原因の正体：AI の「2 つの脳」

🤖 3 つの AI の「失敗癖」

💡 実験の続き：文字を「隠す」ことで復活する？

🌟 この発見が意味するもの

🎒 まとめ：AI への教訓

論文要約：「視覚言語モデルは正方形を見ることができるか？テキスト認識が 3 つのモデルファミリーにおける空間推論を仲介する」

1. 問題設定 (Problem)

2. 手法 (Methodology)

実験デザイン

評価対象モデル

評価指標

追加実験（アブレーション）

3. 主要な結果 (Key Results)

テキスト vs. 正方形の劇的な性能差

モデルごとの失敗モード

密度の影響

アブレーション実験の知見

4. 主要な貢献と仮説 (Contributions & Hypothesis)

テキスト認識経路仮説 (Text-Recognition Pathway Hypothesis)

5. 意義と示唆 (Significance)

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

🧐 実験の仕組み：2 つの同じパズル

📉 驚きの結果：AI の「二重人格」

🔍 原因の正体：AI の「2 つの脳」

🤖 3 つの AI の「失敗癖」

💡 実験の続き：文字を「隠す」ことで復活する？

🌟 この発見が意味するもの

🎒 まとめ：AI への教訓

論文要約：「視覚言語モデルは正方形を見ることができるか？テキスト認識が 3 つのモデルファミリーにおける空間推論を仲介する」

1. 問題設定 (Problem)

2. 手法 (Methodology)

実験デザイン

評価対象モデル

評価指標

追加実験（アブレーション）

3. 主要な結果 (Key Results)

テキスト vs. 正方形の劇的な性能差

モデルごとの失敗モード

密度の影響

アブレーション実験の知見

4. 主要な貢献と仮説 (Contributions & Hypothesis)

テキスト認識経路仮説 (Text-Recognition Pathway Hypothesis)

5. 意義と示唆 (Significance)

関連論文

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models