Learning Acrobatic Flight from Preferences

この論文は、複雑な航空機操縦タスクにおいて手動設計の報酬関数の限界を克服し、不確実性を明示的にモデル化する「Reward Ensemble under Confidence (REC)」という新しい報酬学習フレームワークを提案することで、人間による選好フィードバックのみから実機へのゼロショット転送を成功させたことを報告しています。

Colin Merk, Ismail Geles, Jiaxu Xing, Angel Romero, Giorgia Ramponi, Davide Scaramuzza

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ドローンにアクロバット飛行を教える新しい方法」**について書かれたものです。

従来の方法では、ドローンに「どう飛べばいいか」を人間が細かく数式で教える必要がありましたが、この新しい方法は**「人間が『こっちの方がいいね』と選ぶだけで、ドローンが自ら上手くなる」**という仕組みです。

以下に、難しい専門用語を使わず、日常の例え話を使って説明します。


🚁 1. 従来の方法:「完璧なレシピ」の限界

これまでドローンにアクロバット(宙返りや急旋回など)をさせるには、人間が**「完璧なレシピ(報酬関数)」**を作っていました。

  • 「高度がこれくらいなら+10 点」
  • 「傾きがこれなら+5 点」
  • 「速すぎたら-20 点」

しかし、アクロバットのような「かっこよさ」や「滑らかさ」は、数式で完璧に定義するのが非常に難しいです。
**「このレシピで作ったドローンの動きは、人間が見ると『なんかぎこちないな』と感じるのに、計算上は高得点だった」**というズレが起きがちでした。
(論文によると、人間が「いいね」と思うことと、手作業で作ったレシピの判断が一致するのは、たったの 60% 程度しかありませんでした。)

🎯 2. 新しい方法:「料理の味見」で学ぶ(PbRL)

そこで登場するのが、この論文で提案された**「REC(Reward Ensemble under Confidence)」**という新しい教え方です。

これは、**「料理の味見」**に似ています。

  • 料理人(ドローン)が 2 種類の料理(飛行パターン)を作ります。
  • 審査員(人間)が「どっちが美味しい?」と選びます。
  • 審査員は「A の方が美味しそう」と言います。
  • 料理人は「A の方が美味しいんだ」と学び、次は A に近づけて作ります。

これを繰り返すだけで、ドローンは「かっこいい飛行」を身につけていきます。

🎲 3. REC のすごいところ:「自信」を計算に入れる

でも、審査員も人間なので、**「どっちも似ているから、どっちでもよくて、ちょっと迷う」**こともあります。
従来の AI は、この「迷い」を無視して「A が正解!」と決めつけてしまいがちでした。

REC のすごい点は、この「迷い(不確実性)」を計算に入れることです。

  • 例え話:
    料理の味見をするとき、審査員が「A と B、どっちも美味しそうで迷うな」と思ったら、**「この 2 つの違いは、まだよくわからないから、もっと両方試してみよう!」**と判断します。

    REC は、AI 自身が**「ここは自信がないな」と感じた場所を、「もっと探索(試行錯誤)するべき場所」**として扱います。
    これにより、ドローンは「失敗してもいいから、新しい動きを試す」ことを恐れず、より早く、より安定して上手なアクロバットを習得できます。

🚀 4. 実際の成果:シミュレーションから実機へ

この方法で実験した結果は驚異的でした。

  1. 成績の向上:
    従来の「レシピ方式」のドローンが 100 点満点中 55 点しか取れなかったのに対し、REC を使ったドローンは88 点も取れました。
  2. 実機での成功:
    仮想空間(シミュレーション)で学習させたドローンを、そのまま(微調整なしで)実物のドローンに搭載しました。
    • 結果:実機でも、**「連続した宙返り(パワーループ)」や、「縦に 8 の字を描く飛行」**といった難易度の高いアクロバットを、人間が指示しただけで成功させました。
  3. 人間とのズレの発見:
    人間が「かっこいい」と思う飛行と、数式で計算した「正解」は、6 割程度しか一致しませんでした
    これは、「人間が直感的に感じる『かっこよさ』は、数式には表せない部分がある」ということを示しています。

💡 まとめ

この論文は、**「ドローンに『かっこいい飛行』を教えるには、人間が数式で細かく指示するのではなく、『こっちの方がいいね』と選ぶだけで十分」**と証明しました。

さらに、AI が**「どこがわからないか(自信がないか)」を自覚して学習を進める**ことで、より早く、より安定して、人間が思いつかないような新しいアクロバットを習得できることを示しました。

まるで、**「厳格な先生に細かく指示されるより、好きな料理人の味見をしながら、自分の感覚で料理を磨き上げていく」**ような、より自然で効果的な学習法が実現されたのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →