StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

本論文は、2D 視覚入力だけでなく、将来の 3D 空間幾何学知識と 4D 時空履歴表現を明示的に統合することで、ロボット操作タスクにおける空間推論と長期計画能力を飛躍的に向上させるオープンソースのビジョン・ランゲージ・アクションモデル「StemVLA」を提案し、CALVIN ベンチマークで最先端の性能を達成したことを報告しています。

Jiasong Xiao, Yutao She, Kai Li, Yuyang Sha, Ziang Cheng, Ziang Tong

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、ロボットがより賢く、スムーズに作業ができるようになるための新しい仕組み「StemVLA(ステム・ヴーラ)」について書かれています。

これを、**「ロボットが料理をする」**という日常の例えを使って、簡単に説明しましょう。

🍳 従来のロボット:「目とメモ帳だけ」の料理人

これまでのロボット(VLA モデル)は、カメラで見た「今の料理の様子(2D 画像)」と、「お皿を運んで」という「言葉」だけを見て、手を動かしていました。

  • 問題点: 料理人は「今、鍋の中がどうなっているか」はわかりますが、「次に卵が割れたらどうなるか」や「過去に火が強すぎて焦がした経験」を深く理解していません。そのため、複雑な料理(長い作業)をするとき、少しのミスで失敗したり、動きがぎこちなくなったりしていました。

🚀 StemVLA の新アイデア:「未来の予知」と「過去の記憶」を持つ料理人

StemVLA は、ロボットに**「未来を予測する力」「過去の 4 次元(時間+空間)の記憶」**を持たせました。

1. 「未来の 3D 地図」を描く力(Future 3D Spatial Knowledge)

  • どんなこと?: 料理人が「卵を割ろうとしている」と思った瞬間、StemVLA は「卵が割れたら、殻がどこに飛び散り、黄身がどう広がるか」という未来の 3 次元の空間イメージを頭の中で描き出します。
  • メリット: 単に「今」を見るだけでなく、「次にどうなるか」を事前にシミュレーションできるため、卵を割る前に皿をずらすなど、失敗しない動きが自然にできるようになります。

2. 「4 次元のタイムトラベル」記憶(4D Historical Representation)

  • どんなこと?: 過去の動画(映像)をただ見ているのではなく、「時間」を含んだ立体の記憶として蓄えます。
    • 例:「1 秒前に火が強かった」「2 秒前に手が少し震えていた」という動きの連続性を、空間的な形として理解します。
  • メリット: 過去の失敗や成功のパターンを「時間軸」で理解できるため、同じミスを繰り返さず、スムーズな動作(例:スプーンでかき混ぜるような滑らかな動き)が可能になります。

🧩 仕組みのイメージ:天才的な「頭脳」と「感覚」

このシステムは、3 つのパートで動いています。

  1. カメラと過去の記憶(4D 記憶):
    過去の映像を「VGGT」という天才的な翻訳機に通し、平らな写真から「奥行き(3D)」のある情報を引き出します。それを「VideoFormer」というタイムトラベル装置で、時間の流れと一緒にまとめ上げます。

    • 例え: 「過去の料理動画」を、ただの映像ではなく、「空間と時間が織りなす立体パズル」のように脳に焼き付ける作業です。
  2. 未来の予知(3D 予知):
    「今、こうしたらどうなる?」という未来の 3D 空間を、言葉の指示と一緒に予測します。

    • 例え: 「卵を割る」前に、頭の中で「卵が割れた後の未来のキッチン」を 3D でシミュレーションする作業です。
  3. 行動の決定(拡散モデル):
    過去の記憶と未来の予知を元に、ロボットの手や足がどう動くべきかを、ノイズを消していくように(拡散モデル)滑らかに計算します。

🏆 結果:どんなに難しい料理も成功!

この新しいロボットは、複雑な作業(例:「まず冷蔵庫から牛乳を取り出し、次にカップに注ぎ、最後にスプーンで混ぜて、食器棚に戻す」という一連の動作)において、これまでのどのロボットよりも高い成功率を達成しました。

  • 従来のロボット: 途中で「あれ?牛乳をこぼしたかも?」と迷ったり、動作が止まったりする。
  • StemVLA: 「牛乳をこぼさないように、手首を少し傾けよう」と未来を予測し、「過去に牛乳をこぼした時の感覚」を思い出しながら、スムーズに作業を完了する。

💡 まとめ

StemVLA は、ロボットに**「未来を 3D で想像する力」「過去を 4D(時間+空間)で記憶する力」を与えた画期的な技術です。これにより、ロボットは単なる「指示された動き」をする機械から、「状況を理解し、先読みして行動する」**賢いパートナーへと進化しました。

将来的には、もっと器用な手(指先まで使える手)を使ったり、より滑らかな動きができるように改良していく予定だそうです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →