Each language version is independently generated for its own context, not a direct translation.

マンティス（Mantis）：ロボットに「未来を見る力」と「賢さ」を授ける新技術

この論文は、ロボットが人間の指示を理解し、複雑な作業をこなすための新しいAIモデル「マンティス（Mantis）」を紹介しています。

従来のロボットは「目（カメラ）」と「口（言語）」と「手（動作）」を別々に考えていましたが、マンティスはこれらを**「未来を予見する力」と「言語による理解力」**を上手に組み合わせることで、より賢く、速く、正確に動けるようにしました。

わかりやすくするために、いくつかのアナロジー（比喩）を使って説明します。

1. 従来の問題点：「頭がパンクする」ロボット

これまでのロボット用AIは、以下のようなジレンマを抱えていました。

問題A：「未来の映像」を全部描きすぎると頭が疲れる
ロボットに「次にどうなるか」を予測させる際、従来の方法は「未来の映像のピクセル（画素）をすべて描く」ように教えていました。
- アナロジー： 料理のレシピを作る際、「次に鍋に火をつける」という指示だけでなく、「鍋の金属の質感」「炎の揺らぎ」「空気の匂い」まで詳細に描写して教えるようなものです。これではAIの脳（計算リソース）がパンクし、本当に必要な「手元の動き」を学ぶ時間が削がれてしまいます。
問題B：「言葉」を軽視するとロボットがバカになる
動作を優先しすぎると、AIが人間の話す言葉の意味や、常識的な推理能力を忘れてしまいます。
- アナロジー： 運転免許試験で「ハンドルを右に回す」という動作だけ覚えても、「赤信号で止まる」という意味や「歩行者がいるから危ない」という判断ができなければ、事故を起こしてしまいます。

2. マンティスの解決策：「未来を予見する力（DVF）」の分離

マンティスは、**「未来の映像を予測する頭」と「実際に手を動かす頭」を分ける（解きほぐす）**という画期的なアイデアを取り入れました。

① 「未来の予見」は専門家に任せる

マンティスは、未来の映像を予測する役割を、**「メタクエリ（魔法のメモ）」と「拡散トランスフォーマー（DiT）」**という専門的なサブシステムに任せています。

アナロジー： 建築家が「完成した家のイメージ図」を描く際、職人（ロボット本体）に「壁の模様まで全部描け」と命令するのではなく、**「完成図のイメージ（ latent action）」**だけを職人に渡します。
- 職人は「完成図」を見ながら、「じゃあ、まずは壁を塗る」「次に窓をつける」という**具体的な動き（アクション）**だけを考えれば良くなります。
- これにより、ロボット本体は「映像の細部」に気を取られず、「どう動くか」に集中できます。

② 「言葉の理解力」は守り抜く

マンティスは、動作を学ぶ過程でも、言語の学習を止めません。

アナロジー： 新人の料理人が「包丁の使い方」を練習している間も、同時に「レシピの意味」や「食材の知識」を勉強し続けます。そのため、「鉄人（Iron Man）の絵がある雑誌」や「3+5=8」という計算問題が出ても、ロボットは「鉄人」や「8」が何かを理解し、正しく行動できます。

3. 賢い「適応型テンポラルアンサンブル（ATE）」：無駄な動きを省く

ロボットが動く際、安定させるために「未来の動きを何回も予測して平均化する」技術（テンポラルアンサンブル）が使われますが、これには時間がかかります。
マンティスは、「今、本当に安定させる必要がある時だけ」この重い計算を行います。

アナロジー：
- 普通のロボット： 歩いている時も、コップを運ぶ時も、常に「未来を100回シミュレーションして慎重に動く」ため、動きが鈍く、エネルギーを浪費します。
- マンティス（ATE）：
  - 単に歩くだけなら「未来を1回見て、サクサク動く」。
  - コップを運んでいてこぼれそうになったら、「未来を100回シミュレーションして慎重に動く」。
- これにより、計算コストを半分に減らしつつ、必要な場面では超安定した動きを実現しています。

4. 実際の成果：「LIBERO」で96.7%の成功

シミュレーション（LIBERO）： 複雑なブロック積みやカップ移動などのテストで、既存の最強モデルを凌ぐ96.7%の成功率を達成しました。
実世界（リアルロボット）：
- 「鉄人の雑誌にカップを置け」と言われたら、鉄人が誰か（マーベルのヒーロー）を理解して正しく置きます。
- 「3+5 は何？」と聞かれて「8」の場所に物を置けます。
- 従来のモデル（π0.5）は、こうした「常識」や「推理」が必要な指示には失敗しましたが、マンティスは成功しました。

まとめ

マンティスは、ロボットに以下のような能力を与えました。

未来を見る力： 「次にどうなるか」を映像で細かく描きすぎず、必要な動きの「核（ラテントアクション）」だけを取り出して、効率的に学習する。
賢さの維持： 動作を学ぶ中でも「言葉の意味」や「常識」を忘れさせない。
賢い省エネ： 必要な時だけ慎重に動き、そうでない時はサクサク動く。

まるで、**「未来を予見する天才的な頭脳」と「言葉がわかる賢い心」を持ち合わせ、かつ「無駄な動きをしない賢い身体」**を持ったロボットのような存在です。これにより、ロボットはより複雑で、人間らしい指示にも柔軟に対応できるようになりました。

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

マンティス（Mantis）：ロボットに「未来を見る力」と「賢さ」を授ける新技術

1. 従来の問題点：「頭がパンクする」ロボット

2. マンティスの解決策：「未来を予見する力（DVF）」の分離

① 「未来の予見」は専門家に任せる

② 「言葉の理解力」は守り抜く

3. 賢い「適応型テンポラルアンサンブル（ATE）」：無駄な動きを省く

4. 実際の成果：「LIBERO」で96.7%の成功

まとめ

Mantis: 解離された視覚予知を備えた多用途な視覚言語行動モデル

1. 背景と課題（Problem）

2. 提案手法：Mantis（Methodology）

2.1. アーキテクチャの概要

2.2. 段階的トレーニングレシピ（Progressive Training Recipe）

2.3. 適応的時次アンサンブル（Adaptive Temporal Ensemble: ATE）

3. 主要な貢献（Key Contributions）

4. 実験結果（Results）

4.1. シミュレーションベンチマーク（LIBERO）

4.2. 実世界実験（Agilex プラットフォーム）

4.3. 推論効率（ATE）

5. 意義と結論（Significance）

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

マンティス（Mantis）：ロボットに「未来を見る力」と「賢さ」を授ける新技術

1. 従来の問題点：「頭がパンクする」ロボット

2. マンティスの解決策：「未来を予見する力（DVF）」の分離

① 「未来の予見」は専門家に任せる

② 「言葉の理解力」は守り抜く

3. 賢い「適応型テンポラルアンサンブル（ATE）」：無駄な動きを省く

4. 実際の成果：「LIBERO」で96.7%の成功

まとめ

Mantis: 解離された視覚予知を備えた多用途な視覚言語行動モデル

1. 背景と課題（Problem）

2. 提案手法：Mantis（Methodology）

2.1. アーキテクチャの概要

2.2. 段階的トレーニングレシピ（Progressive Training Recipe）

2.3. 適応的時次アンサンブル（Adaptive Temporal Ensemble: ATE）

3. 主要な貢献（Key Contributions）

4. 実験結果（Results）

4.1. シミュレーションベンチマーク（LIBERO）

4.2. 実世界実験（Agilex プラットフォーム）

4.3. 推論効率（ATE）

5. 意義と結論（Significance）

関連論文

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems