VITA: Vision-to-Action Flow Matching Policy

従来のフローマッチングや拡散モデルが抱える反復的な条件付けによる計算コストの課題を解決するため、視覚表現から直接潜在行動へマッピングする「VITA」を提案し、行動の自己符号化器とフロー潜在デコーディングにより、推論速度を 1.5〜2 倍に向上させつつ最先端の性能を達成しました。

Dechen Gao, Boqi Zhao, Andrew Lee, Ian Chuang, Hanchu Zhou, Hang Wang, Zhe Zhao, Junshan Zhang, Iman Soltani

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

VITA:ロボットに「見る」ことから「動く」ことまでを教える新しい魔法

この論文は、ロボットがカメラで見た映像を元に、自分の手足をどう動かすかを学ぶ新しい方法「VITA」について書かれています。

従来のロボット学習には「時間がかかる」「メモリを大量に使う」という悩みがありましたが、VITA はそれを劇的に解決し、「見る」ことと「動く」ことを直接つなぐ、驚くほど速くて賢い方法を実現しました。

以下に、専門用語を使わず、身近な例え話で解説します。


1. 従来の方法:「ノイズ」から始める大変な作業

これまでのロボット学習(拡散モデルやフローマッチング)は、以下のようなプロセスを踏んでいました。

  • 例え話: 料理を作る際、まず**「何もない真っ白な空間(ノイズ)」**からスタートし、レシピ(カメラの映像)を見ながら、少しずつ具材を足して、最後に美味しい料理(ロボットの動き)を完成させるイメージです。
  • 問題点:
    • 毎回、レシピ(映像)を何度も何度も確認しながら具材を足さなければならないため、非常に時間がかかります
    • 「何もない空間」からスタートするため、料理が完成するまでには多くの計算リソース(メモリ)が必要で、ロボットがリアルタイムで動くには重すぎます。

2. VITA の方法:「映像そのもの」からスタートする

VITA は、この「何もない空間からスタートする」という非効率なステップを完全に捨て去りました。

  • 例え話: VITA は、「料理の材料(映像)」そのものをスタート地点にします。
    • 「真っ白な空間」から料理を作るのではなく、「すでに野菜や肉が並んでいるお皿(映像)」を見て、そこから「どう調理するか(動き)」を直接導き出します。
    • 途中で何度もレシピを確認する必要がないため、調理(動作生成)が劇的に速くなります

3. 最大の難問:「映像」と「動き」のサイズの違い

ここで大きな壁が立ちはだかります。

  • 映像(カメラ): 非常に詳細で、情報量が多い(高次元)。
  • 動き(ロボットの手): 非常にシンプルで、情報量が少ない(低次元)。

例え話:
「高層ビルの全景写真(映像)」から、「指先でピンポン玉を動かす動き」を直接変換するのは、**「巨大な地図を、小さなメモ帳に無理やり書き写そうとする」**ようなもので、情報が潰れてしまったり、変な動きになったりします。

VITA の解決策:「翻訳機(オートエンコーダー)」を使う

VITA は、このサイズの違いを埋めるために、**「動きの翻訳機」**を作りました。

  • ロボットの「小さな動き」を、映像と同じくらい情報量の多い「隠れた言語(潜在空間)」に翻訳して、映像と対等なサイズにします。
  • これにより、「映像」と「翻訳された動き」が同じ土俵で会話できるようになり、スムーズに変換が可能になります。

4. さらなる工夫:「練習」と「本番」のギャップを埋める

ここが VITA の最も素晴らしい部分です。

  • 問題: 練習中は「翻訳機」が作った動きを使いますが、本番では「計算機(ODE)」が作った動きを使います。この違いで、ロボットが失敗してしまう(練習では上手なのに、本番で転ぶ)という現象が起きがちでした。
  • VITA の解決策(フロー・ラテント・デコーディング):
    • VITA は、「本番と同じ計算プロセス」を練習中に組み込んで、失敗しないように調整します。
    • 例え話: 普通の選手は「練習用ボール」で練習して、「試合用ボール」で本番に挑みます。しかし、VITA は**「練習の時から、試合で使うボールの重さや感触を完全に再現して練習」**します。そのため、本番でも練習通り、完璧なパフォーマンスを発揮できます。

VITA のすごい成果

この新しい方法を採用した結果、以下のような劇的な変化が起きしました。

  1. 超高速化: 従来の方法より1.5 倍〜2 倍速く動作を決定できます。ロボットが「考える」時間が短くなり、素早く反応できるようになりました。
  2. 省メモリ: 必要なメモリが約 20%〜30% 減りました。これにより、より安価で小型のロボットでも高性能な制御が可能になります。
  3. 高い精度: 糸通しや、小さな穴にボールを入れるような、**「ミリ単位の精密な作業」**でも、従来の最高峰の技術と同等か、それ以上の成功率を達成しました。

まとめ

VITA は、ロボット学習において**「無駄なノイズを排除し、映像と動きを直接つなぐ」**という、シンプルながら革命的なアプローチです。

  • 従来の方法: 「何もないところから、何度も確認しながら作る」→ 遅い、重い。
  • VITA: 「映像そのものから、練習と本番を同じ条件でつなぐ」→ 速い、軽い、正確。

これにより、より複雑で精密な作業も、リアルタイムでこなせるロボットが現実のものに近づきました。