AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization

Dit paper introduceert AutoQD, een theoretisch onderbouwde methode die Markov-beslissingsprocessen en random Fourier-features gebruikt om automatisch gedragsbeschrijvers te genereren voor Quality-Diversity-optimatie, waardoor diverse hoogpresterende beleidsregels kunnen worden ontdekt zonder handmatige domeinkennis.

Saeed Hedayatian, Stefanos Nikolaidis

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

AutoQD: De "Autonome Ontdekker" voor Robotgedrag

Stel je voor dat je een robot wilt leren lopen. Traditionele methoden proberen de robot één perfecte manier te leren om te lopen, alsof je een kind alleen maar leert om recht vooruit te lopen. Maar wat als de grond glad wordt? Of wat als de robot een been kwijtraakt? Dan faalt die ene "perfecte" manier.

Wat we eigenlijk nodig hebben, is een verzameling van verschillende manieren om te bewegen: lopen, huppelen, kruipen, of zelfs een unieke dans. Dit noemen we Quality-Diversity (Kwaliteit-Variatie). Het probleem is echter: hoe vertel je een computer welke verschillen er zijn?

Tot nu toe moesten mensen dit zelf uitzoeken. Ze moesten handmatig zeggen: "Kijk naar de voetafdrukken" of "Kijk naar de hoek van de knieën". Dit is als proberen een heel orkest te beschrijven door alleen naar de viool te kijken. Het kost veel tijd, vereist veel kennis, en je mist misschien wel de coolste instrumenten.

AutoQD is de oplossing. Het is een slim algoritme dat zelf leert wat "anders" is, zonder dat mensen hoeven te zeggen waar ze naar moeten kijken.

Hoe werkt het? (De Metafoor van de "Geestelijke vingerafdruk")

Stel je voor dat elke robotbeweging een unieke geestelijke vingerafdruk heeft. Als een robot loopt, laat hij een spoor achter in de wereld (welke delen van de grond hij aanraakt, hoe snel hij beweegt, etc.).

  1. De Vingerprint (Occupancy Measure):
    AutoQD kijkt niet naar de robot zelf, maar naar het spoor dat hij achterlaat. In de wetenschap noemen ze dit een "occupancy measure". Het is alsof we een foto maken van alle plekken waar de robot geweest is. Twee robots die heel verschillend bewegen, zullen ook heel verschillende foto's van hun sporen hebben.

  2. De Vertaler (Random Fourier Features):
    De computer kan deze foto's niet direct vergelijken; ze zijn te complex. AutoQD gebruikt een slimme truc (genaamd Random Fourier Features) om deze complexe foto's om te zetten in een simpele lijst met getallen. Je kunt dit zien als het vertalen van een ingewikkeld gedicht naar een simpele code. Deze code is de "vingerafdruk" van het gedrag.

  3. De Kaartmaker (CMA-MAE & PCA):
    Nu hebben we duizenden robots met hun eigen code. AutoQD plakt deze codes op een grote kaart.

    • De Kaart: De computer zoekt automatisch de belangrijkste richtingen op deze kaart. Waar liggen de grootste verschillen? Misschien is de ene richting "hoe hoog je springt" en de andere "hoe snel je draait".
    • De Automatische Kompas: In plaats dat een mens zegt "kijk naar de knieën", maakt AutoQD zelf een kompas dat de meest interessante richtingen aangeeft. Het zorgt ervoor dat de robot probeert nieuwe plekken op de kaart te ontdekken die nog leeg zijn.

Waarom is dit zo cool?

  • Geen Menselijke Vooroordelen: Mensen denken vaak in vaste patronen (bijv. "lopen"). AutoQD denkt niet zo. Het kan ontdekken dat een robot soms beter vooruit komt door op zijn buik te glijden of door op één been te springen. Het vindt verrassende oplossingen die een mens misschien nooit zou bedenken.
  • Veiligheid in Verandering: Omdat AutoQD een hele bibliotheek van verschillende manieren om te bewegen verzamelt, is de robot klaar voor alles. Als de omgeving verandert (bijvoorbeeld: de robot moet over een modderige vloer), hoeft hij niet opnieuw te leren. Hij zoekt gewoon in zijn bibliotheek naar de strategie die het beste werkt op modder.
  • Wiskundig Bewezen: De auteurs bewijzen met wiskunde dat hun methode echt de echte verschillen tussen gedragingen meet, en niet zomaar willekeurige getallen.

Het Resultaat

In hun experimenten lieten ze AutoQD los op verschillende robotproblemen (zoals een robot die moet huppelen, zwemmen of lopen).

  • Vergelijking: Andere methoden die mensen handmatig moesten programmeren, of methoden die probeerden alleen maar "verschillend" te zijn zonder te kijken naar kwaliteit, faalden vaak.
  • AutoQD: Deze vond duizenden manieren om te bewegen. Sommige waren heel efficiënt, andere heel raar, maar ze waren allemaal uniek.
  • Adaptatie: Toen ze de robots in een nieuwe, moeilijke situatie zetten (bijvoorbeeld met meer wrijving), bleek dat de AutoQD-robots veel sneller en beter konden aanpassen dan de anderen. Ze hadden immers al een "backup-plan" voor bijna elke situatie in hun bibliotheek.

Kortom: AutoQD is als een creatieve regisseur die niet zegt "speel dit toneelstuk zo", maar de acteurs vrij laat om te improviseren, en dan zelf de beste, meest verschillende scènes verzamelt in een archief. Zo hebben we altijd een oplossing klaar, wat de situatie ook wordt.