Thinking with Spatial Code for Physical-World Video Reasoning

この論文は、RGB 動画を明示的な 3D 空間コードに変換し、強化学習を用いて大規模言語モデルに物理的な推論を可能にする「Thinking with Spatial Code」というフレームワークを提案し、VSI-Bench において最先端の性能を達成したことを示しています。

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が動画を見て、現実世界の『場所』や『動き』を正しく理解できるようにする新しい方法」**を提案しています。

タイトルは『Thinking with Spatial Code(空間コードで考える)』。少し難しそうですが、実はとても直感的なアイデアです。

以下に、専門用語を排し、日常の例えを使ってわかりやすく解説します。


🎬 従来の AI とこの新しい AI の違い

1. 従来の AI:「絵本を見る子供」

これまでの高度な AI(マルチモーダルモデル)は、動画を見ると、「絵本」のように見ていました。

  • 「あそこに犬がいる」「テーブルがある」という**「見た目(色や形)」**はよく覚えています。
  • しかし、「犬がテーブルのどの方向にいて、どれくらい離れているか」や、「自分がその場所にいるとしたら、犬は右に見えるか左に見えるか」といった**「3 次元の空間的な関係性」**は、よく勘違いします。
  • 例え話: 絵本を見ている子供は、「犬がテーブルの上にいる」と言えますが、「もし私がテーブルの向こう側に立っていたら、犬は私の左に見える」といった、視点を変えた計算が苦手です。

2. この新しい AI:「建築家と設計図」

この論文の AI は、動画を見る際、**「建築家が設計図(ブループリント)を描く」**ように動作します。

  • 動画のフレーム(映像)をただ眺めるのではなく、まず**「空間コード(Spatial Code)」という、「3 次元の設計図」**に変換します。
  • この設計図には、「ソファの位置(座標)」「大きさ」「向き(どちらを向いているか)」が、数字と記号で明確に書かれています。
  • その上で、AI の「頭脳(言語モデル)」が、その設計図を見て、「では、テーブルはソファの左側にあるな」と論理的に考えます。

🛠️ 仕組みの 3 つのステップ

このシステムは、大きく 3 つの工程で動きます。

① 映像を「設計図」に変える(空間エンコーダー)

動画が入力されると、まず**「空間エンコーダー」**という部品が働きます。

  • 何をする? 映像の中の物体を「3D の箱(バウンディングボックス)」として捉え、それぞれの**「位置」「大きさ」「向き」**を数値化します。
  • 例え話: 部屋に散らばったおもちゃを、ロボットが一つ一つ拾い上げ、「これは赤い車、位置は(X:1, Y:2, Z:3)、向きは北」というラベル付きのデータに変換して、整理整頓された棚に並べるイメージです。

② 設計図を「言語」で読み解く(LLM)

次に、整理された「設計図(空間コード)」を、**「言語モデル(LLM)」**という頭脳に渡します。

  • 何をする? 言語モデルは、映像そのものではなく、**「設計図のテキスト」**を見て質問に答えます。
  • 例え話: 料理人が「食材のリストとレシピ(設計図)」を見て、「じゃあ、この野菜は鍋の左側に入れよう」と判断する感じです。映像の「雰囲気」に惑わされず、正確な数値に基づいて考えます。

③ 正解へのトレーニング(空間ルブリック報酬)

最後に、AI が間違った答えを出さないよう、**「特別な採点ルール」**で訓練します。

  • 問題点: 従来の AI は、答えが合っていれば、途中の考え方が間違っていても褒められがちでした。
  • この方法: 「答えが合っているか」だけでなく、**「視点(誰の立場か)を考慮したか」「向きを正しく計算したか」**といった、思考のプロセス自体を採点します。
  • 例え話: 数学のテストで、「答えが合っている」だけでなく、「途中の計算式(ベクトル計算など)が正しいか」まで厳しくチェックして、正解にたどり着く「正しい道筋」を教えるイメージです。

🌟 なぜこれがすごいのか?

この方法を使うと、AI は**「視点」「距離」**を驚くほど正確に理解できるようになります。

  • 従来の AI: 「洗濯機は台所の右側にある」と言ってしまう(映像の左側にあるから、と勘違い)。
  • この AI: 「あなたが食器棚の前に立ってテーブルを見ていたら、洗濯機はあなたの左前にあります」と、視点を変えて正しく計算できます。

結論:
この研究は、「AI をもっと大きくすれば賢くなる」という考え方を捨て、**「AI に『3 次元の設計図』という正しい道具を与えれば、もっと賢く、現実世界を理解できるようになる」**ことを証明しました。

まるで、**「暗記だけでテストを受ける子供」から、「図面とコンパスを使って正確に測量する建築士」**へと進化させたようなものですね。これにより、ロボットが現実世界で安全に動いたり、複雑な空間の質問に答えることが、格段に現実味を帯びてきました。