Learning Acrobatic Flight from Preferences

本文提出了一种名为“基于置信度的奖励集成(REC)”的概率奖励学习框架,通过显式建模奖励不确定性并利用模型分歧促进探索,成功实现了仅凭人类偏好反馈即可让四旋翼无人机在零样本迁移下掌握高难度特技飞行的能力。

Colin Merk, Ismail Geles, Jiaxu Xing, Angel Romero, Giorgia Ramponi, Davide Scaramuzza

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于教无人机做特技飞行的有趣故事。简单来说,研究人员发现,让无人机学会像杂技演员一样翻跟头、转圈,靠传统的“写规则”方法很难,于是他们发明了一种**“靠点赞和点踩来学习”**的新方法,并且给这个方法加上了一个聪明的“不确定性过滤器”,让无人机学得更快、更稳。

下面我用几个生活中的比喻来拆解这篇论文的核心内容:

1. 遇到的难题:教无人机做“高难度动作”太难了

想象一下,你想教一只机器狗(或者无人机)学会一个高难度的后空翻。

  • 传统方法(手动设计奖励): 你得像写代码一样,给机器狗制定一套极其复杂的规则。比如:“翻转到 180 度时给 10 分,落地平稳给 5 分,如果歪了扣 20 分……"
    • 问题: 这种规则很难写完美。研究人员发现,他们辛苦写出来的规则,只有 60.7% 的时间能符合人类观众觉得“这动作真帅”的标准。剩下的时候,机器狗可能觉得自己做得很好(因为规则给了高分),但在人类眼里却像个醉汉在乱撞。
  • 新想法(基于偏好的强化学习): 既然写规则太难,不如直接让人类当裁判。你让无人机试飞两次,然后问人类:“你觉得哪一次飞得更好?”人类只需要说“第一次好”或者“第二次好”,不需要解释为什么。

2. 现有的问题:裁判也会“拿不准”

虽然“让人类打分”听起来很完美,但这里有个大坑:人类的判断是有模糊性的。

  • 如果两次飞行都很烂,或者两次都很像,人类可能会犹豫:“呃……这次好像稍微稳一点点,但也说不准。”
  • 以前的算法把人类的每一次选择都当成绝对的真理(比如:人类选了 A,那 A 就是 100% 好,B 就是 100% 坏)。这导致算法容易“钻牛角尖”,如果人类偶尔看走眼了,或者因为角度问题觉得 A 好,算法就会死板地认为 A 就是对的,结果学歪了。

3. 核心创新:REC(带“信心值”的奖励集合)

为了解决这个问题,作者提出了一个叫 REC 的新框架。我们可以把它想象成一个**“专家顾问团”**。

  • 顾问团(集成模型): 他们不派一个裁判,而是派了一群(比如 5 个)虚拟裁判来观察飞行。
  • 不确定性(信心值): 当这 5 个裁判意见一致时(大家都觉得 A 好),系统就非常有信心,奖励给无人机。
    • 但是,如果这 5 个裁判意见分歧很大(有的觉得 A 好,有的觉得 B 好,有的觉得差不多),系统就会意识到:“哎呀,这里我们也没把握,人类可能也拿不准。”
  • 利用分歧去探索: 这时候,REC 不会盲目地给奖励,而是会想:“既然我们不确定哪里好,那我们就去那里多试试!”它会把这种“不确定性”变成一种探索的奖励,鼓励无人机去尝试那些人类还没搞清楚、或者看起来有点模糊的区域。
    • 比喻: 就像你在迷宫里,如果大家都说“左边肯定有出口”,你就往左走;但如果有人说“左边可能有出口”,有人说“右边可能有”,你就不会盲目冲,而是会小心地在两个方向都探探路,反而更容易找到真正的出口。

4. 惊人的成果:从模拟到现实

作者用这个方法在电脑模拟器里训练无人机,然后直接把它放到真实的 220 克小无人机上,没有做任何额外的调整(零样本迁移)

  • 效果对比:
    • 用老方法(标准偏好学习):无人机只能学会 55.2% 的水平(就像刚学会走路的婴儿)。
    • 用新方法(REC):无人机学会了 88.4% 的水平(像专业的杂技演员)。
  • 学到的动作: 无人机学会了非常酷的连续“动力筋斗”(Powerloop,像过山车一样转圈),甚至学会了一个人类都没教过的垂直"8"字飞行
  • 人类参与: 最厉害的是,他们甚至只用真人的点赞和点踩(而不是电脑生成的假数据)就训练成功了。虽然人类的判断和电脑预设的规则只有 60.7% 的一致性,但无人机最终飞出来的动作,在人类看来非常流畅、帅气。

5. 总结:为什么这很重要?

这篇论文告诉我们,在教机器人做那些**“只可意会不可言传”**的复杂任务(比如跳舞、做特技、画画)时:

  1. 不要试图把规则写死(因为人类的标准很主观,很难用代码完全描述)。
  2. 要相信人类的直觉,但要给算法加上“脑子”,让它知道人类什么时候是“拿不准”的。
  3. 利用“拿不准”来探索,而不是害怕它。

一句话总结:
作者发明了一种让无人机通过**“看人类点赞”来学习特技飞行的新方法,并且给这个学习过程加了一个“不确定性过滤器”**,让无人机在人类犹豫不决的地方也能大胆尝试,最终学会了连人类专家都难以用语言描述的酷炫飞行技巧。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →