RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

本論文は、拡散ビジョモーターポリシーを基盤とした実世界強化学習フレームワーク「RL-100」を提案し、模倣学習と強化学習を統合して 1000 回の試行で 100% の成功率を達成し、人間を超える性能と高い汎用性・頑健性を示したことを報告しています。

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🤖 ロボットが「天才」になるまでの 3 つのステップ

この研究では、ロボットに新しいスキルを教えるために、まるで**「子供の成長」**のような 3 つの段階を踏んでいます。

1. 親の指導(模倣学習):まずは「お手本」を真似る

ロボットはまず、人間が遠隔操作でやった「お手本(データ)」を大量に見せます。

  • 例え話: 子供が親に「お箸の持ち方」を教わる段階です。
  • 効果: ロボットは「失敗しない安全な動き」を学びます。しかし、これだけでは「人間と同じくらい」の動きしかできず、少し状況が変わると(お茶がこぼれそうになったり、お茶碗が滑ったりすると)対応できなくなります。

2. 独学と練習(オフライン RL):「練習帳」で自己改善

次に、ロボットは人間が教えたデータだけでなく、**「自分が練習して失敗したり成功したりしたデータ」**も取り入れて、自分自身で考え直します。

  • 例え話: 子供が親の指導をベースに、一人で反復練習し、「こうやったらもっと早くできる」「こうやったらこぼさない」と気づき、コツを掴んでいく段階です。
  • 効果: ここが RL-100 の核心です。ロボットは「人間がやらないような、より効率的で賢い動き」を自分で発見し始めます。

3. 本番前の最終調整(オンライン RL):「実戦」で微調整

最後に、実際のロボットで少しだけ練習して、**「最後の 1% の失敗」**を潰します。

  • 例え話: 本番前のリハーサルで、緊張して手が震えたりする部分を修正し、完璧なパフォーマンスを確立する段階です。
  • 効果: これにより、どんなトラブルが起きても、ロボットは冷静に回復し、100% 成功するようになります。

🚀 なぜこれがすごいのか?(3 つの魔法)

この技術が他のロボットと違うのは、以下の 3 つの「魔法」を使っているからです。

① 「1 回で決める」超高速思考(ディストーション)

普通の AI は、動きを決めるために「10 回も計算」して答えを出します。これはロボットが動くには遅すぎます。

  • 魔法: RL-100 は、**「1 回で答えを出す」**ように訓練されています。
  • 例え話: 将棋の棋士が、10 手先を読むのに 10 秒かかるのではなく、**「一瞬でベストな手を指す」**ようになるイメージです。これにより、ロボットは人間が追いつけないスピードで反応できます。

② 「失敗」を恐れない強さ(ロバスト性)

ロボットは、人間が手を添えて押したり、机を揺らしたりしても、任務を遂行できます。

  • 例え話: 料理中に誰かが肘でぶつかったり、食材が滑ったりしても、**「平気な顔で料理を完成させる」**プロの料理人のようです。
  • 実証: 実際の実験では、ショッピングモールで 7 時間もの間、見知らぬ客にオレンジジュースを作り続け、一度も失敗しませんでした。

③ 人間より速く、正確に(効率性)

人間がやるよりも、ロボットの方が早くタスクを完了します。

  • 例え話: ボウリングの大会で、人間のプロ選手とロボットが対決したところ、ロボットの方がストライクを連発し、人間を凌駕しました。
  • 結果: 8 つの異なるタスク(箱を折りたたむ、オレンジを絞る、布を畳むなど)で、1000 回中 1000 回の成功を収めました。

🍊 具体的な活躍の場面

このロボットは、以下のような難しい作業も得意にしました。

  • オレンジジュース作り: 果物を押しつぶして絞り、皮を取り除く作業。果物の形や硬さは毎回違うのに、失敗しません。
  • 布の折りたたみ: 柔らかくて形が定まらないタオルを、きれいに折りたたむ。
  • 箱の組み立て: 紙の箱を、複雑な手順で組み立てる。
  • ボール投げ(ボウリング): 勢いよくボールを転がして、ピンを倒す。

💡 まとめ:ロボット学習の未来

この論文が伝えているメッセージはシンプルです。

「ロボットに人間の手本を見せ、そこに『自分で考えて成長する力(強化学習)』を足すことで、人間以上の信頼性と効率性を実現できる」

これまでは「人間が完璧な動きを教えること」が限界でしたが、RL-100 は**「人間の手本を起点にしつつ、ロボット自身が人間を超えた動きを編み出す」**道を開きました。

今後は、この技術を使って、家庭や工場で、人間が指示しなくても自分で判断して動く「賢くて頼れるロボット」が当たり前の時代が来るかもしれません。