Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

この論文は、自律走行 VLA モデルにおける探索の欠如という課題を解決するため、実行可能軌道の拡張と多様性を意識したサンプリング・報酬設計を組み合わせたフレームワーク「Curious-VLA」を提案し、Navsim ベンチマークで最先端の性能を達成したことを報告しています。

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

自動運転の「狭い思考」を解き放つ:Curious-VLA の仕組み

この論文は、自動運転 AI が「なぜ失敗するのか」という根本的な問題を見つけ、それを解決する新しい方法(Curious-VLA)を提案しています。

専門用語を排し、日常の例えを使って分かりやすく解説します。


🚗 問題:AI は「正解」だけを覚えて、好奇心を失った

現在の自動運転 AI は、人間が運転した「正解のデータ(正解ルート)」を大量に勉強して、その真似をするように作られています。これを**模倣学習(IL)**と呼びます。

しかし、ここに大きな落とし穴がありました。

🧠 アナロジー:「優等生」の罠

想像してください。ある生徒が、テストで「100 点を取るための唯一の正解ルート」だけを徹底的に暗記したとします。

  • 得意なこと: 普段通りの道なら、完璧に走れます。
  • 苦手なこと: 急に道が塞がったり、新しい交差点に出たりすると、「正解ルート」がないからどうすればいいか分からず、パニックになって止まってしまう、あるいは**「これしかない!」と無理やり同じ動きをして事故を起こす**ことがあります。

論文では、これを**「狭い政策(Narrow Policy)」と呼んでいます。
AI が「正解」に固執しすぎて、
「他にもいい方法があるかも?」と試す好奇心(探索)を失ってしまっている**状態です。

さらに、その後に「自分で考えて上達させる(強化学習)」段階に入っても、AI の頭の中が「正解ルート」しかないので、「試行錯誤する余地」が全くなく、成長が止まってしまうという問題が起きていました。


💡 解決策:Curious-VLA(好奇心旺盛な AI)

著者たちは、この「狭い思考」を打破するために、Curious-VLAという新しい AI 学習システムを開発しました。
これは、AI に「正解」だけでなく、「あり得るあらゆる可能性」を体験させることで、「好奇心」を蘇らせる仕組みです。

ステップ 1:模倣学習の段階で「正解」だけじゃない道を作る

(Feasible Trajectory Expansion:実行可能な経路の拡張)

  • 今までのやり方: 「正解のルート」だけをコピーして覚える。

  • Curious-VLA のやり方:
    「正解」はあくまで**「人間が選んだ 1 つの選択肢」**に過ぎないと考えます。
    AI には、「この状況なら、左に少し寄るのもアリ」「右に少し寄るのもアリ」「少し急ぐのもアリ」といった、**物理的に安全な「複数の正解候補」**を大量に作らせて学習させます。

    例え話:
    料理のレシピを覚える時、

    • 旧方式:「A さんのレシピ」だけを完璧に覚える。
    • 新方式:「A さんのレシピ」だけでなく、「B さんのアレンジ版」「C さんのアレンジ版」も全部試させて、「味付けの幅」を広く覚える。
      これにより、AI は「正解」に固執せず、状況に応じて柔軟に動けるようになります。

ステップ 2:強化学習の段階で「面白い失敗」を褒める

(Adaptive Diversity-Aware Sampling & Spanning Driving Reward)

AI が自分で試行錯誤する段階(強化学習)では、以下の 2 つの工夫をしています。

  1. 「同じような答え」ばかり出す AI は退場させる
    もし AI が「左に行こう」「左に行こう」と同じことしか言わないなら、それは「好奇心」がない証拠です。そんなデータは学習から除外し、「あえて違う道を選ぼうとした」データに集中して学習させます。

    例え話:
    将棋の練習で、「いつも同じ手しか指さない」生徒には「もっと違う手も考えてごらん」と言います。「新しい手」を試した生徒こそが、次の一手を学びます。

  2. 「少しの差」でも大きく評価する
    従来の評価基準では、「完璧な運転」と「少しだけ運転が上手な運転」の差が小さすぎて、AI が「どっちも同じ」と感じてしまいました。
    Curious-VLA は、「少しだけ上手な運転」でも、大きく評価ポイント(報酬)を上げるように計算式を変えました。

    例え話:
    走っている時に、「1 秒だけ速く着いた」だけでも、「すごい!もっと頑張れ!」と大げさに褒める。そうすると、AI は「もっと速く走る方法」を必死に探そうとするようになります。


🏆 結果:驚異的な成果

この方法で学習させた Curious-VLA は、世界最高峰の自動運転テスト(Navsim)で**最高記録(SOTA)**を達成しました。

  • 多様性: 状況に応じて、複数の「あり得るルート」を提案できるようになりました。
  • 品質: その中から、最も安全で快適なルートを選ぶ能力も向上しました。
  • ベスト・オブ・N: 一度に複数の選択肢をシミュレーションして、その中から最高なものを選ぶと、**人間のドライバーに匹敵するレベル(94.8 点)**に達しました。

🌟 まとめ

この論文の核心は、**「AI に『正解』だけを押し付けるのではなく、『可能性』を広く体験させること」**です。

  • 問題点: 正解に固執しすぎて、新しい状況に対応できない「狭い思考」の AI。
  • 解決策: 正解以外の「安全な選択肢」も教え、試行錯誤を促す「好奇心」を育む学習法。

まるで、「正解を丸暗記する優等生」から、「状況に応じて柔軟に考え、新しい道を見つけ出す探検家」へと AI を進化させたようなものです。これにより、複雑な現実世界の道路でも、安全かつ柔軟に運転できる AI が実現しました。