AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization

本文提出了 AutoQD 方法,通过利用策略占据测度与随机傅里叶特征自动构建行为描述符,从而无需依赖人工设计即可在连续控制任务中实现高质量且多样化的策略发现。

Saeed Hedayatian, Stefanos Nikolaidis

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AutoQD 的新方法,它的核心目标是:让 AI 机器人自己学会“百花齐放”的技能,而不需要人类手把手教它什么是“多样性”。

为了让你更容易理解,我们可以把这篇论文的故事想象成在经营一家**“超级技能培训班”**。

1. 以前的困境:人类老师的“刻板印象”

在传统的 AI 训练(特别是“质量 - 多样性优化”QD)中,人类老师(研究人员)必须提前告诉 AI:“我们要寻找多样性,所以请给我展示三种走路姿势:像企鹅一样摇摆、像袋鼠一样跳跃、像螃蟹一样横着走。”

  • 问题出在哪?
    • 太累人: 人类老师必须非常懂行,才能定义出什么是“摇摆”、什么是“跳跃”。如果任务变复杂了(比如让机器人跳舞),人类可能根本想不出该怎么定义“舞步”。
    • 限制想象力: 如果老师只定义了“摇摆”和“跳跃”,AI 就算学会了“倒立行走”或者“像蛇一样蠕动”,因为老师没定义这些,AI 也会觉得这些行为“不算数”,从而被忽略。这就像只让画家画“红色”和“蓝色”,结果画家画出了绝美的“紫色”,却没人欣赏。

2. AutoQD 的绝招:让 AI 自己“照镜子”

AutoQD 的发明者(Saeed Hedayatian 和 Stefanos Nikolaidis)想出了一个天才的主意:既然人类很难定义什么是“行为”,那我们就让 AI 自己看它自己做了什么,然后自己总结规律。

他们用了两个核心概念,我们可以用比喻来解释:

比喻一:脚印(Occupancy Measures)

想象一个机器人在房间里乱跑。

  • 传统方法: 人类拿着尺子量:“你走了几步?跳了多高?”(这是人工定义的指标)。
  • AutoQD 的方法: 我们不看它走了几步,而是看它**“踩过的脚印”**。
    • 如果机器人总是踩在地板的左边,它的“脚印分布”就偏向左边。
    • 如果它喜欢跳,它的“脚印”就会集中在高处。
    • 关键点: 在数学上,只要知道了机器人“踩过的所有脚印分布”,就完全等同于知道了它是怎么走的。这就像通过一个人的足迹,就能还原他的一生经历一样。

比喻二:神奇的“翻译官”(Random Fourier Features & MMD)

现在我们有了一堆“脚印分布图”,但它们是复杂的数学曲线,人类看不懂,电脑处理起来也慢。

  • AutoQD 的翻译官: 它使用一种叫“随机傅里叶特征”的技术,把这些复杂的“脚印分布图”瞬间翻译成一串简单的数字代码(向量)。
  • 距离即差异: 这串代码有一个神奇特性:两个机器人的代码距离越远,说明它们的行为差异越大。
    • 就像两个长得完全不像的人,他们的“基因代码”距离很远;两个长得像的人,代码距离很近。
    • 这样,AI 不需要人类定义“多样性”,只要让代码之间的距离拉开,自然就产生了多样的行为。

3. 它是如何工作的?(自动进化循环)

AutoQD 就像一个**“自我进化的教练”**,它的工作流程是这样的:

  1. 试错: 让一群 AI 机器人去尝试各种动作(跑、跳、爬)。
  2. 照镜子: 记录它们留下的“脚印”,并翻译成“行为代码”。
  3. 自动分类(核心创新):
    • 以前:人类老师把机器人分到“跳跃组”或“行走组”。
    • 现在:AutoQD 自动分析这些“行为代码”,发现:“哦,原来这组机器人喜欢用腿后侧发力,那组喜欢用前侧。”它自动把这些差异提炼出来,变成新的分类标准。
  4. 优胜劣汰: 把表现好(得分高)且行为独特(代码距离远)的机器人存进“名人堂”(Archive)。
  5. 迭代: 用“名人堂”里的新发现,重新调整分类标准,让下一批机器人去探索更奇怪、更厉害的行为。

4. 实验结果:它真的行吗?

作者在六个经典的机器人控制任务(比如让机器狗走路、让双足机器人行走)中测试了 AutoQD。

  • 结果惊人:
    • 在没有人类定义任何“多样性标准”的情况下,AutoQD 发现的行为种类(多样性)和表现质量(得分),全面碾压了那些依赖人类专家定义标准的老方法。
    • 适应性强: 当环境突然改变(比如地面变滑了,或者机器人变重了),AutoQD 找到的“技能库”里,总有一两个机器人能立刻适应并继续工作。这就像你有一个包含“跑步、游泳、爬树、滑翔”技能库的探险家,无论遇到什么地形,他都能找到一种方法通过。

5. 总结:为什么这很重要?

这篇论文就像是在说:“别再教 AI 怎么思考多样性了,让它自己学会如何观察世界并发现不同。”

  • 以前: 我们给 AI 画框框,告诉它“多样性”就是框框里的东西。
  • 现在(AutoQD): 我们给 AI 一面镜子,让它自己照出千姿百态,并自动把那些精彩的、独特的行为挑出来。

这不仅让机器人更聪明、更灵活,也为未来**“开放式学习”**(Open-ended Learning)——即 AI 像人类孩子一样,不断发现新技能、新玩法,而不是只为了完成某个特定任务——打开了一扇大门。

一句话总结: AutoQD 是一个不需要人类老师指手画脚,就能自动发现并奖励“千奇百怪”且“表现优秀”的 AI 行为的智能系统。