Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

本論文は、3,000 時間のデモンストレーションデータと 5 段階のカリキュラム学習、および RL による政策整合を採用し、ヒューマノイドや可動マニピュレータなど多様なロボット形態に汎用的に適用可能で、安全性と長期的なタスク遂行能力を向上させた Vision-Language-Action モデル「Green-VLA」を提案するものである。

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

Green-VLA の解説:ロボットを「天才的な見習い」から「熟練職人」へ育てる方法

この論文は、**「Green-VLA(グリーン・ブイ・エル・エー)」**という新しいロボット制御システムの紹介です。

一言で言うと、これは**「ロボットが人間のように、言葉で指示された複雑な作業を、失敗せずにこなせるようになるための『5 段階の教育カリキュラム』」**です。

従来のロボットは「真似事(模倣学習)」だけで育つと、少し状況が変わるとパニックになってしまいがちでした。しかし、Green-VLA は、まるで人間の子供を育てるように、段階を踏んで「知識」「経験」「直感」を身につけさせることで、どんな新しいロボットや環境でも活躍できるようにしました。

以下に、その仕組みを身近な例えを使って解説します。


1. 5 段階の「教育カリキュラム」

Green-VLA は、いきなりロボットを動かすのではなく、以下の 5 つのステップで段階的に学習させます。

  • L0:基礎教養(ベースモデル)

    • 例え: 幼稚園や小学校での勉強。
    • 内容: すでに「画像と言葉」を理解できる AI(大規模言語モデル)をベースにします。まだロボットは動かせませんが、「りんごは赤い」「コップは割れやすい」といった一般的な知識を持っています。
  • L1:物理世界の理解(ウェブ学習)

    • 例え: 旅行記や料理番組、ドキュメンタリーを見ること。
    • 内容: 実際のロボットデータではなく、インターネット上の膨大な動画や画像を見て、「物がどう動くか」「重力はどう働くか」といった物理の法則を学びます。これにより、ロボットは「机から物を落とすと落ちる」といった常識を身につけます。
  • R0:多様な実習(汎用ロボット学習)

    • 例え: 様々な種類の職人(大工、料理人、ドライバー)の仕事を横目で見て学ぶこと。
    • 内容: 人間型ロボット、アーム型ロボット、車輪付きロボットなど、異なる種類のロボットがやった 3,000 時間以上の作業データをまとめて学習します。
    • ポイント: 「腕が 2 本あるロボット」と「腕が 1 本だけのロボット」でも、「物を掴む」という本質的な意味は同じだと教えます。これにより、新しいロボットに乗り換えても即座に対応できるようになります。
  • R1:専門特化(特定のロボットへの適応)

    • 例え: 特定の工場や店舗で、その現場のルールに合わせた実習。
    • 内容: 学習した知識を、「Green(グリーン)」という特定の人間型ロボットに最適化します。自分の手足(関節)の動き方を覚え、細かい指先の操作も練習します。
  • R2:現場での試行錯誤(強化学習)

    • 例え: 失敗から学び、より効率的に仕事をするようになること。
    • 内容: 単に真似するだけでなく、「成功したら褒める」「失敗したらやり直す」という報酬ベースの学習を行います。これにより、長い作業(例:「台所を掃除して、食器を片付けて、ゴミを出して」)でも、途中で失敗しても自力で回復し、ゴールまでたどり着けるようになります。

2. 3 つの「魔法の道具」

このシステムが特に優れているのは、以下の 3 つの工夫です。

① 「品質管理フィルター(DataQA)」

  • 問題: 学習データには、カメラがブレているものや、ロボットがふらふらしているような「ゴミデータ」が混じっています。
  • 解決: **「DataQA」**というフィルターが、動画の「鮮明さ」「動きの滑らかさ」「多様性」を自動でチェックし、質の低いデータを捨てます。
  • 例え: 料理教室で、焦げた料理や汚れた食材を捨て、最高の材料だけを選んで料理を教えるようなものです。

② 「共通言語(統一アクション空間)」

  • 問題: ロボットによって「腕の動き」の定義がバラバラです(角度で動くもの、位置で動くものなど)。
  • 解決: 全てのロボットが使う**「共通の言語(ユニファイド・アクション・スペース)」**を作りました。
  • 例え: 世界中のロボットが、それぞれ異なる方言(関節角度、座標など)を話していても、**「国際語(共通のアクション定義)」**に翻訳して理解し合えるようにしたのです。これにより、一つのモデルで色々なロボットを操縦できます。

③ 「目印ガイド(JPM 誘導)」

  • 問題: 「青い 500ml のボトルを取って」と言われたとき、そのボトルが初めて見たものだと、ロボットは「どこにあるか」がわからず迷子になります。
  • 解決: **「JPM(Joint Prediction Module)」**という補助機能が、言葉から「おおよその位置」を予測し、ロボットに「ここを目指して!」とガイドします。
  • 例え: 見知らぬ街で「赤いポストを探して」と言われたとき、地図(VLA)だけでなく、通りがかりの人に「あそこの角にありそう」と教えてもらうようなものです。これにより、未知の物でも正確に掴めます。

3. 実際の成果:Green ロボット

このシステムは、**「Green(グリーン)」**という人間型ロボットでテストされました。

  • できること:
    • 両手で同時に作業する(例:片手で瓶を持ち、もう片手で蓋を開ける)。
    • 複雑な指示に従う(例:「テーブルを掃除して、りんごとオレンジを分別して、ユーザーに手渡して」)。
    • 見知らぬ場所や、見慣れない物に対しても、失敗せずに作業を完了する。
  • 結果:
    • 既存の最高峰のロボット AI よりも、成功率が高く、作業が速いことが証明されました。
    • 特に、長い作業を続ける「タスクの連鎖」において、途中で失敗しても自力で立て直す能力が格段に向上しました。

まとめ

Green-VLA は、ロボットに「ただ真似をする」だけでなく、**「物理の法則を学び、多様な経験を積んで、失敗から学び、未知のものにも対応する」**という、人間に近い成長プロセスを設計した画期的なシステムです。

これにより、ロボットは工場や家庭など、複雑で変化する現実世界でも、頼れる「万能の助手」として活躍できる可能性が大きく広がりました。