OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Vision-Language Models の順序数理解における一般化限界を診断するため、3 万 9 千の質問応答対と構造化された推論トレース評価を提供する新しいベンチマーク「OrdinalBench」が提案され、既存のモデルが大きな順序数や複雑な経路において性能が著しく低下することが示されました。

Yusuke Tozaki, Hisashi Miyamori

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、最新の「AI(画像と言葉を理解するモデル)」が、**「何番目のもの」**という順序や位置を数えるのが、実はとても苦手であることを突き止めた研究報告です。

タイトルは『ORDINALBENCH(オーディナルベンチ)』。
これをわかりやすく、日常の例え話を使って解説します。


🕵️‍♂️ 物語:AI 探偵の「数え上げ」大作戦

想像してください。
AI は、まるで**「探偵」**のようなものです。
私たちが「黒い車から数えて 3 番目の車はどれ?」と聞くと、AI はその画像を見て、車を探し出し、順番に数えて答えを出そうとします。

これまでの AI は、写真の中に「猫がいるか」「車があるか」を見つけるのは得意でした。でも、この論文の著者たちは、「じゃあ、**『黒い車から数えて 260 番目の車』**はどれ?」と聞いてみました。

すると、AI はパニックに陥り、正解できなくなったのです。

🧪 実験の舞台:「迷路」と「巨大な数」

研究者たちは、AI の弱点を正確に診断するために、あえて**「ORDINALBENCH(オーディナルベンチ)」という新しいテストを作りました。これは、AI の「数える力」を測るための「診断キット」**のようなものです。

このテストには、3 つの「難易度」があります。

  1. 数の大きさ(1 〜 300 まで)

    • 例:「1 番目」なら簡単ですが、「260 番目」になると AI は頭が混乱します。
    • たとえ話: 10 人並んでいる列から「3 番目」を指すのは簡単ですが、300 人並んでいる列から「260 番目」を指し続けるのは、人間でも集中力が続かないですよね。AI はもっと早くギブアップします。
  2. 道の複雑さ(単純な輪っか vs 迷路)

    • 例:円形に並んでいるなら簡単ですが、**「迷路」**のように曲がりくねった道を進むと、AI は「今、どこにいるのか」を忘れます。
    • たとえ話: 丸い公園を一周するだけなら大丈夫でも、複雑な迷路を「右に行き、壁に当たったら左へ」というルールで進み続けると、AI は「あ、今 3 歩目だったっけ?」と迷子になります。
  3. 「飛び飛び」で数える(スキップ・カウント)

    • 例:「1 つ飛ばしで数えて」というルールです。
    • たとえ話: 「1, 2, 3」と数えるのは簡単ですが、「1, 3, 5, 7」と**「2 つ飛ばし」**で数え続けると、AI の脳(アルゴリズム)がオーバーフローしてしまいます。

📉 結果:AI は「暗記」は得意だが、「計算」は苦手

このテストで、最新の AI(GPT-5 や Gemini など)をテストした結果、驚くべきことがわかりました。

  • 簡単な問題(10 番目まで、単純な道): 結構正解します。
  • 難しい問題(200 番目、迷路、飛び飛び数え): 正解率がガクンと落ちます。 運で当たるレベル(確率論的な偶然)まで低下する AI もいました。

なぜこうなるのでしょうか?
論文では、AI が「何番目か」を計算するのではなく、「言葉の並び」を予測しているだけだからだと分析しています。

  • 人間の思考: 「1 番目、2 番目、3 番目…」と、実際に指を差しながら順番に追いかける。
  • AI の思考: 「『3 番目』という言葉の次には、どんな言葉が来るだろう?」と確率で予測している。

だから、数が増えたり、道が複雑になったりすると、AI は「次は何番目かな?」という**「状態の管理」**ができなくなり、迷子になってしまうのです。

💡 結論:AI には「集中力」と「手順」のトレーニングが必要

この研究が伝えたいメッセージはシンプルです。

「今の AI は、写真を見るのは上手だけど、複雑な手順を踏んで『何番目か』を計算するのは、まだ子供レベルだ」

AI をもっと賢くするためには、単に「正解を当てる」ことだけでなく、**「どうやって数えたか(思考の過程)」**を評価し、迷路を解くような「手順を踏む力」を鍛える必要がある、と提言しています。

🎁 まとめ

  • この論文は何をした?
    AI が「何番目か」を数える力を測る、新しいテスト「ORDINALBENCH」を作った。
  • 何がわかった?
    数が大きくなったり、道が複雑になったりすると、最新の AI でも正解できなくなる。
  • なぜ?
    AI は「計算」ではなく「言葉の予測」で動いているから、長い手順を維持するのが苦手。
  • これからどうなる?
    このテストを使って、AI に「集中して手順を追う力」を教え込む研究が進むでしょう。

つまり、AI が「ロボット」や「自動運転」のように、現実世界で複雑な指示(「左から 3 番目の箱を取って」など)を正しく実行できるようになるには、まだ**「数える練習」**が足りない、ということなのです。