OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

本論文は、認知心理学に基づき動的推論や視点取得など 4 つの主要カテゴリと 50 の細分化されたサブカテゴリを含む包括的な空間推論ベンチマーク「OmniSpatial」を提案し、現在の視覚言語モデルの限界を明らかにするとともに、空間推論能力の向上に向けた 2 つの戦略を提示するものである。

Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

オムニスペーシャル:AI の「空間感覚」を測る新しいテスト

この論文は、**「AI が現実世界の『空間』をどれだけ理解できているか」**を測るための、非常に難しく、かつ包括的な新しいテスト(ベンチマーク)「OmniSpatial(オムニスペーシャル)」を紹介するものです。

これまでの AI は「左と右」「近いと遠い」といった簡単な空間の区別は得意になりました。しかし、それはまるで**「足し算と引き算しかできない小学生」**のような状態です。現実世界では、もっと複雑な「空間の知恵」が必要です。この論文は、その「大人の空間感覚」をどうやって AI に身につけさせ、どうやってテストするかを提案しています。


1. なぜ新しいテストが必要なのか?(「足し算」から「微積分」へ)

これまでの AI の空間テストは、**「机の上にコップがある。コップは左にあるか?」**といった単純な問題ばかりでした。最新の AI はこれらをほぼ 100% 正解してしまいます。

しかし、現実世界はもっと複雑です。

  • 例: 「ドアの右にある AED(自動体外式除細動器)を見つける」だけでなく、**「その AED を使うために、障害物を避けながら最短でどう移動するか」**を考えなければなりません。
  • 例: 「箱を平らに広げる」には、箱がどう折りたたまれているかを頭の中で想像し、展開図を思い浮かべる必要があります。

これまでのテストは「足し算」しか出題していませんでした。この論文は、「微積分」や「幾何学」レベルの複雑な空間思考を測るための新しいテストを作ったのです。

2. OmniSpatial(オムニスペーシャル)の 4 つの柱

このテストは、人間の「空間認知能力」を 4 つの大きなカテゴリーに分けています。まるで**「空間の 4 大スポーツ」**のようなものです。

① ダイナミック・リーソニング(動きの予測)

  • イメージ: 「バスケットボールの選手がジャンプして、ボールがどこに落ちるか」を予測する。
  • 内容: 静止した写真から、物体がどう動くか、どう変形するかを推測します。自動運転車が「前の車が急ブレーキを踏むか」を予測するような能力です。

② コンプレックス・ロジック(複雑な論理)

  • イメージ: 「折り紙を 3 回折って、穴を開けたら、広げるとどんな模様になるか?」
  • 内容: 図形を頭の中で回転させたり、組み立てたりする能力です。パズルや建築設計、箱の組み立てなど、頭の中で 3 次元の操作を行う力が問われます。

③ スペース・インタラクション(環境との関わり)

  • イメージ: 「迷路を脱出する」や「渋滞している道路で、どの車線に進むのが安全か」
  • 内容: 障害物を避けたり、地図を読み解いたり、危険な状況を察知する能力です。ロボットが部屋を移動する際、テーブルや椅子にぶつからないようにする力です。

④ パースペクティブ・テイクイング(視点の転換)

  • イメージ: 「自分がその場にいたらどう見えるか」ではなく、**「向かい側にいる人が見たらどう見えるか」**を想像する。
  • 内容: 自分が立っている場所とは違う場所から見た景色を想像する能力です。「鏡に映った文字は逆に見える」といった、視点が変われば見え方が変わることを理解する必要があります。

3. 結果:AI はまだ「子供」レベル

このテストで、最新の AI(GPT-4 や Gemini など)をテストしたところ、驚くべき結果が出ました。

  • 人間: 90% 以上の正解率。
  • 最高の AI: 50% 前後(運が良ければ 60%)。

**「AI は簡単な足し算は得意だが、複雑な空間パズルや、他人の視点に立つ想像力では、まだ人間に大きく劣っている」**ことがわかりました。特に、頭の中で図形を回転させたり(幾何学)、他人の視点に立って想像したりする分野で苦戦しています。

4. AI を鍛えるための 2 つの「トレーニング器具」

AI の空間能力を上げるために、著者たちは 2 つの新しいトレーニング方法を提案しています。

① ポイントグラフ(PointGraph)=「地図とコンパス」

AI に「この物体はここにある」「あの物体とは 2 メートル離れている」といった**構造化されたデータ(地図のようなもの)**を事前に与える方法です。

  • 効果: AI が「目で見ているだけ」ではなく、「空間の配置図」を頭に入れて考えることで、距離感や位置関係の理解が深まりました。

② スペース・コト(SpatialCoT)=「頭の中の 3D モデル」

AI に、**「この画像を別の角度から見たらどうなるか?」**を想像させて、その想像した画像(新しい視点)を生成させる方法です。

  • 効果: AI が「頭の中でカメラを回して、裏側や上から見てみる」ことで、視点の転換や隠れている部分の推測が劇的に向上しました。まるで、**「頭の中で 3D モデルを組み立ててから答えを出す」**ような感覚です。

まとめ:なぜこれが重要なのか?

この研究は、単に AI のテストスコアを上げるためだけではありません。

  • 自動運転車が、複雑な交差点で安全に走行するために。
  • 介護ロボットが、高齢者の部屋で転倒事故を防ぎ、物を正しく運ぶために。
  • **AR/VR(拡張現実)**が、現実世界とデジタル情報を自然に融合させるために。

これらを実現するには、AI が「足し算」だけでなく、「微積分」レベルの空間感覚を身につける必要があります。OmniSpatial は、そのための**「新しい道しるべ」**であり、AI が現実世界で活躍するための第一歩となるでしょう。


一言で言うと:
「これまでの AI は『左と右』しか言えなかったが、この新しいテストとトレーニングで、**『頭の中で世界を回転させ、他人の目線で考え、動きを予測する』**という、本当の意味での『空間の知恵』を身につけさせよう!」という挑戦です。