Each language version is independently generated for its own context, not a direct translation.

この論文は、最新の「AI（画像と言葉を理解するモデル）」が、**「何番目のもの」**という順序や位置を数えるのが、実はとても苦手であることを突き止めた研究報告です。

タイトルは『ORDINALBENCH（オーディナルベンチ）』。
これをわかりやすく、日常の例え話を使って解説します。

🕵️‍♂️ 物語：AI 探偵の「数え上げ」大作戦

想像してください。
AI は、まるで**「探偵」**のようなものです。
私たちが「黒い車から数えて 3 番目の車はどれ？」と聞くと、AI はその画像を見て、車を探し出し、順番に数えて答えを出そうとします。

これまでの AI は、写真の中に「猫がいるか」「車があるか」を見つけるのは得意でした。でも、この論文の著者たちは、「じゃあ、**『黒い車から数えて 260 番目の車』**はどれ？」と聞いてみました。

すると、AI はパニックに陥り、正解できなくなったのです。

🧪 実験の舞台：「迷路」と「巨大な数」

研究者たちは、AI の弱点を正確に診断するために、あえて**「ORDINALBENCH（オーディナルベンチ）」という新しいテストを作りました。これは、AI の「数える力」を測るための「診断キット」**のようなものです。

このテストには、3 つの「難易度」があります。

数の大きさ（1 〜 300 まで）
- 例：「1 番目」なら簡単ですが、「260 番目」になると AI は頭が混乱します。
- たとえ話： 10 人並んでいる列から「3 番目」を指すのは簡単ですが、300 人並んでいる列から「260 番目」を指し続けるのは、人間でも集中力が続かないですよね。AI はもっと早くギブアップします。
道の複雑さ（単純な輪っか vs 迷路）
- 例：円形に並んでいるなら簡単ですが、**「迷路」**のように曲がりくねった道を進むと、AI は「今、どこにいるのか」を忘れます。
- たとえ話： 丸い公園を一周するだけなら大丈夫でも、複雑な迷路を「右に行き、壁に当たったら左へ」というルールで進み続けると、AI は「あ、今 3 歩目だったっけ？」と迷子になります。
「飛び飛び」で数える（スキップ・カウント）
- 例：「1 つ飛ばしで数えて」というルールです。
- たとえ話： 「1, 2, 3」と数えるのは簡単ですが、「1, 3, 5, 7」と**「2 つ飛ばし」**で数え続けると、AI の脳（アルゴリズム）がオーバーフローしてしまいます。

📉 結果：AI は「暗記」は得意だが、「計算」は苦手

このテストで、最新の AI（GPT-5 や Gemini など）をテストした結果、驚くべきことがわかりました。

簡単な問題（10 番目まで、単純な道）： 結構正解します。
難しい問題（200 番目、迷路、飛び飛び数え）： 正解率がガクンと落ちます。 運で当たるレベル（確率論的な偶然）まで低下する AI もいました。

なぜこうなるのでしょうか？
論文では、AI が「何番目か」を計算するのではなく、「言葉の並び」を予測しているだけだからだと分析しています。

人間の思考： 「1 番目、2 番目、3 番目…」と、実際に指を差しながら順番に追いかける。
AI の思考： 「『3 番目』という言葉の次には、どんな言葉が来るだろう？」と確率で予測している。

だから、数が増えたり、道が複雑になったりすると、AI は「次は何番目かな？」という**「状態の管理」**ができなくなり、迷子になってしまうのです。

💡 結論：AI には「集中力」と「手順」のトレーニングが必要

この研究が伝えたいメッセージはシンプルです。

「今の AI は、写真を見るのは上手だけど、複雑な手順を踏んで『何番目か』を計算するのは、まだ子供レベルだ」

AI をもっと賢くするためには、単に「正解を当てる」ことだけでなく、**「どうやって数えたか（思考の過程）」**を評価し、迷路を解くような「手順を踏む力」を鍛える必要がある、と提言しています。

🎁 まとめ

この論文は何をした？
AI が「何番目か」を数える力を測る、新しいテスト「ORDINALBENCH」を作った。
何がわかった？
数が大きくなったり、道が複雑になったりすると、最新の AI でも正解できなくなる。
なぜ？
AI は「計算」ではなく「言葉の予測」で動いているから、長い手順を維持するのが苦手。
これからどうなる？
このテストを使って、AI に「集中して手順を追う力」を教え込む研究が進むでしょう。

つまり、AI が「ロボット」や「自動運転」のように、現実世界で複雑な指示（「左から 3 番目の箱を取って」など）を正しく実行できるようになるには、まだ**「数える練習」**が足りない、ということなのです。

Each language version is independently generated for its own context, not a direct translation.

ORDINALBENCH: 視覚言語モデルの順序数理解における一般化限界を診断するベンチマーク

1. 問題定義 (Problem)

近年、視覚言語モデル（VLM）はマルチモーダルなタスクにおいて顕著な進歩を遂げていますが、順序数（Ordinal Number）の理解、特に「相対的な位置の追跡」や「大規模なインデックスへの一般化」においては明らかな欠陥を示しています。

既存のベンチマークは、物体の属性や関係性に基づく構成的推論（CLEVR など）や、単なる「何個あるか」という基数（Cardinal）の理解（TallyQA など）に焦点を当てています。しかし、実世界応用（UI 自動化、ロボティクスなど）で不可欠な「N 番目の物体を特定する」という**手続き的推論（Procedural Reasoning）**の一般化能力を診断する枠組みは欠如していました。VLM は、次のトークン予測の目的関数に依存しており、複雑な空間構造や大規模な数値スケールにおける順序追跡において、脆弱な一般化を示すことが懸念されています。

2. 提案手法とベンチマーク設計 (Methodology)

本研究では、VLM の順序数理解能力を体系的に評価するための診断ベンチマーク**「ORDINALBENCH」**を提案しました。

2.1 タスク定義

コアタスクは**「N 番目の物体の識別（N-th object identification）」**です。

入力: 画像 $I$ 、移動ルール $R$ 、開始物体 $o_{start}$ 、目標順序数 $N$ 、カウント間隔（ストライド） $k$ 。
処理: モデルは開始点からルールに従って物体を順次追跡し、N 番目の物体の識別子を予測します。
出力: 最終的な予測結果だけでなく、**構造化された推論トレース（ステップごとのカウント履歴）**を JSON 形式で生成することを必須とします。これにより、最終回答の正誤だけでなく、推論プロセスのどこで破綻したかを分析できます。

2.2 難易度制御の 3 つの軸

ベンチマークは、推論の限界を特定するために以下の 3 つの軸で難易度を系統的に制御します。

配置の複雑さ (Arrangement Complexity):
- Single-Loop: 単一の閉ループ（2D/3D）。基本的な経路追跡を評価。
- Maze-Loop: アルゴリズム生成の複雑な迷路構造（行き止まりなし）。グローバルなトポロジー維持を評価。
順序数の大きさ (Ordinal Magnitude):
- Within: 物体数以内 ($2 \le N \le S$)。
- Exceed: 物体数を超え 99 以下 ( $S < N \le 99$ )。
- Large Scale: 100 から 300 まで ($100 \le N \le 300$)。訓練データで稀な大規模数値への一般化を評価。
オブジェクト数/視覚負荷 (Object Count):
- 物体数やグリッドサイズを変化させ、ワーキングメモリと注意機構への負荷を評価。

2.3 追加機能：スキップカウント

ストライド $k > 1$ （例：3 歩ごとをカウント）を導入し、単純な指示従うだけでなく、アルゴリズム的な実行と内部状態の管理能力をさらに厳しくテストします。

2.4 データセット

規模: 39,000 問の QA ペア、2,600 枚の画像。
構成: 2D Single-Loop, 2D Maze-Loop, 3D Single-Loop の 3 種類。
生成: 合成データを用い、照明や遮蔽などの認識ノイズを排除し、推論能力のみを評価対象とします。

3. 評価指標 (Evaluation Metrics)

最終正解率だけでなく、推論プロセスの忠実度を評価する指標を導入しています。

最終正解率 (Acc@N): 予測された N 番目の物体が正解か。
正規化最長正接頭文字列 (nLCP): 予測されたトレースの中で、正解と一致する最長の連続部分の長さ（正規化）。推論プロセスの堅牢性を示す。
ステップごとのトレース精度 (STA): 各ステップの予測が正解と一致する割合。
トレースカバレッジ (Cov.): 構造化された JSON 出力を正常に生成できたサンプルの割合。

4. 実験結果 (Results)

GPT-5, Gemini 2.5 Flash Lite, Qwen2.5-VL, InternVL3.5, Molmo などの SOTA モデルをゼロショットで評価しました。

4.1 全体的な性能

単純なタスク: 2D Single-Loop などの単純なタスクでは、一部のモデル（Qwen2.5-VL-32B など）が 30% 程度の正解率を達成し、ランダム推測（約 11.7%）を上回りました。
複雑なタスク: 迷路構造（Maze-Loop）や 3D 環境では、すべてのモデルで性能が劇的に低下しました。最も高性能な GPT-5 でも Maze-Loop での正解率は 11.04% にとどまりました。
Molmo モデル: 構造化出力の生成に失敗するケースが多く、タスクの基本的な指示従う能力（出力フォーマット）自体に課題があることが示されました。

4.2 難易度軸ごとの分析

順序数の大きさ: $N$ が 100 以上（Large Scale）になると、すべてのモデルで正解率が 3% 以下に急落しました。これは、長距離の順序追跡における**持続的な注意（Sustained Attention）**の限界を示しています。
スキップカウント: ストライド $k > 1$ （例：3 歩ごと）を導入すると、性能がランダム推測レベルまで低下しました。これは、モデルがアルゴリズム的なルール（内部状態の更新）を正確に実行できないことを意味します。
迷路構造: 迷路のような複雑な空間構造では、モデルがグローバルな空間構造を安定した内部表現として保持できていないことが示唆されました。

5. 考察と意義 (Discussion & Significance)

5.1 主な発見

VLM は静的なパターン認識には優れていますが、手続き的・アルゴリズム的な推論（視覚入力に基づき、正確な多段階の手順を順次実行すること）においては根本的な弱点を共有しています。

言語のボトルネック: 視覚情報を言語表現に変換する過程で、複雑な空間構造（迷路など）の情報が失われたり曖昧になったりしている可能性があります。
手続き的知識の欠如: 「3 歩ごとにカウントする」といったアルゴリズムを実行する際、内部状態（現在何番目を数えているか）を正確に管理・更新する能力が不足しています。

5.2 今後の展望

本研究は、VLM を単なる「認識器」から「視覚エージェント（Visual Agent）」へと進化させるための重要な指針を提供します。

モデル設計: 明示的な構造化された状態表現の導入。
学習戦略: ステップごとの手続き的実行を重視したトレーニング（短距離から長距離へ、ストライド 1 から大へ）。
評価方法: 最終正解率だけでなく、nLCP や STA などのプロセス指標を用いた評価の標準化。

5.3 結論

ORDINALBENCH は、VLM の順序数理解における一般化限界を定量的に診断できる再現性のあるテストベッドを提供します。このベンチマークは、より堅牢で指示に従う能力に優れた VLM の開発を促進し、最終的にはより一般的な視覚知能の実現に貢献することが期待されます。すべてのデータとコードは公開されています。

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models