Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

本論文は、視覚的予測と行動予測を分離する「Disentangled Visual Foresight」を導入し、言語理解と推論能力を維持しながらロボット操作タスクにおいて最先端の性能を達成する新しいビジョン・言語・アクションモデル「Mantis」を提案しています。

Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng

公開日 2026-02-24
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

マンティス(Mantis):ロボットに「未来を見る力」と「賢さ」を授ける新技術

この論文は、ロボットが人間の指示を理解し、複雑な作業をこなすための新しいAIモデル「マンティス(Mantis)」を紹介しています。

従来のロボットは「目(カメラ)」と「口(言語)」と「手(動作)」を別々に考えていましたが、マンティスはこれらを**「未来を予見する力」「言語による理解力」**を上手に組み合わせることで、より賢く、速く、正確に動けるようにしました。

わかりやすくするために、いくつかのアナロジー(比喩)を使って説明します。


1. 従来の問題点:「頭がパンクする」ロボット

これまでのロボット用AIは、以下のようなジレンマを抱えていました。

  • 問題A:「未来の映像」を全部描きすぎると頭が疲れる
    ロボットに「次にどうなるか」を予測させる際、従来の方法は「未来の映像のピクセル(画素)をすべて描く」ように教えていました。
    • アナロジー: 料理のレシピを作る際、「次に鍋に火をつける」という指示だけでなく、「鍋の金属の質感」「炎の揺らぎ」「空気の匂い」まで詳細に描写して教えるようなものです。これではAIの脳(計算リソース)がパンクし、本当に必要な「手元の動き」を学ぶ時間が削がれてしまいます。
  • 問題B:「言葉」を軽視するとロボットがバカになる
    動作を優先しすぎると、AIが人間の話す言葉の意味や、常識的な推理能力を忘れてしまいます。
    • アナロジー: 運転免許試験で「ハンドルを右に回す」という動作だけ覚えても、「赤信号で止まる」という意味や「歩行者がいるから危ない」という判断ができなければ、事故を起こしてしまいます。

2. マンティスの解決策:「未来を予見する力(DVF)」の分離

マンティスは、**「未来の映像を予測する頭」と「実際に手を動かす頭」を分ける(解きほぐす)**という画期的なアイデアを取り入れました。

① 「未来の予見」は専門家に任せる

マンティスは、未来の映像を予測する役割を、**「メタクエリ(魔法のメモ)」「拡散トランスフォーマー(DiT)」**という専門的なサブシステムに任せています。

  • アナロジー: 建築家が「完成した家のイメージ図」を描く際、職人(ロボット本体)に「壁の模様まで全部描け」と命令するのではなく、**「完成図のイメージ( latent action)」**だけを職人に渡します。
    • 職人は「完成図」を見ながら、「じゃあ、まずは壁を塗る」「次に窓をつける」という**具体的な動き(アクション)**だけを考えれば良くなります。
    • これにより、ロボット本体は「映像の細部」に気を取られず、「どう動くか」に集中できます。

② 「言葉の理解力」は守り抜く

マンティスは、動作を学ぶ過程でも、言語の学習を止めません。

  • アナロジー: 新人の料理人が「包丁の使い方」を練習している間も、同時に「レシピの意味」や「食材の知識」を勉強し続けます。そのため、「鉄人(Iron Man)の絵がある雑誌」や「3+5=8」という計算問題が出ても、ロボットは「鉄人」や「8」が何かを理解し、正しく行動できます。

3. 賢い「適応型テンポラルアンサンブル(ATE)」:無駄な動きを省く

ロボットが動く際、安定させるために「未来の動きを何回も予測して平均化する」技術(テンポラルアンサンブル)が使われますが、これには時間がかかります。
マンティスは、「今、本当に安定させる必要がある時だけ」この重い計算を行います。

  • アナロジー:
    • 普通のロボット: 歩いている時も、コップを運ぶ時も、常に「未来を100回シミュレーションして慎重に動く」ため、動きが鈍く、エネルギーを浪費します。
    • マンティス(ATE):
      • 単に歩くだけなら「未来を1回見て、サクサク動く」。
      • コップを運んでいてこぼれそうになったら、「未来を100回シミュレーションして慎重に動く」。
    • これにより、計算コストを半分に減らしつつ、必要な場面では超安定した動きを実現しています。

4. 実際の成果:「LIBERO」で96.7%の成功

  • シミュレーション(LIBERO): 複雑なブロック積みやカップ移動などのテストで、既存の最強モデルを凌ぐ96.7%の成功率を達成しました。
  • 実世界(リアルロボット):
    • 「鉄人の雑誌にカップを置け」と言われたら、鉄人が誰か(マーベルのヒーロー)を理解して正しく置きます。
    • 「3+5 は何?」と聞かれて「8」の場所に物を置けます。
    • 従来のモデル(π0.5)は、こうした「常識」や「推理」が必要な指示には失敗しましたが、マンティスは成功しました。

まとめ

マンティスは、ロボットに以下のような能力を与えました。

  1. 未来を見る力: 「次にどうなるか」を映像で細かく描きすぎず、必要な動きの「核(ラテントアクション)」だけを取り出して、効率的に学習する。
  2. 賢さの維持: 動作を学ぶ中でも「言葉の意味」や「常識」を忘れさせない。
  3. 賢い省エネ: 必要な時だけ慎重に動き、そうでない時はサクサク動く。

まるで、**「未来を予見する天才的な頭脳」と「言葉がわかる賢い心」を持ち合わせ、かつ「無駄な動きをしない賢い身体」**を持ったロボットのような存在です。これにより、ロボットはより複雑で、人間らしい指示にも柔軟に対応できるようになりました。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →