AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization

Das Paper stellt AutoQD vor, einen theoretisch fundierten Ansatz, der mithilfe von Zufalls-Fourier-Features und Occupancy-Maßen automatisch aussagekräftige Verhaltensdeskriptoren für Quality-Diversity-Optimierung generiert, wodurch die Abhängigkeit von manuell definierten Merkmalen überwunden und eine offene Entdeckung vielfältiger Verhaltensweisen in der Reinforcement Learning ermöglicht wird.

Saeed Hedayatian, Stefanos Nikolaidis

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

AutoQD: Der Entdecker, der keine Landkarte braucht

Stellen Sie sich vor, Sie sind ein Abenteurer in einem riesigen, unbekannten Wald. Ihr Ziel ist es, nicht nur einen einzigen Weg zu finden, der Sie schnell ans Ziel bringt, sondern viele verschiedene Wege zu entdecken. Manche Wege sind vielleicht nicht der schnellste, aber sie sind toll, wenn es regnet. Andere sind gut, wenn der Boden rutschig ist. Ein dritter Weg ist vielleicht der einzige, der durch einen dichten Nebel führt.

In der Welt der künstlichen Intelligenz (KI) nennen wir das Qualitäts-Vielfalt-Optimierung. Die KI soll nicht nur die "beste" Lösung finden, sondern eine ganze Sammlung von Lösungen, die alle gut funktionieren, aber sich in ihrem Verhalten stark unterscheiden.

Das Problem bisher war: Um diese Vielfalt zu finden, mussten die Forscher dem Computer von Hand sagen, wonach er suchen soll.

  • Beispiel: "Suche nach Wegen, bei denen das Roboterknie oft gebeugt wird" oder "Suche nach Wegen, bei denen der Roboter schnell hüpft".
  • Das ist wie einem Schatzsucher eine Landkarte zu geben, die nur bestimmte Schatzinseln markiert. Wenn der echte Schatz aber auf einer Insel liegt, die nicht auf der Karte ist, wird er ihn nie finden. Zudem ist es mühsam, für jedes neue Abenteuer eine neue Landkarte zu zeichnen.

Die Lösung: AutoQD

Das neue Verfahren namens AutoQD (Automatic Discovery of Diverse Behaviors) ist wie ein intelligenter Kompass, der sich selbst erfindet. Es braucht keine vorgefertigte Landkarte.

Hier ist, wie es funktioniert, mit ein paar einfachen Vergleichen:

1. Der Fußabdruck statt der Landkarte

Statt dem Computer zu sagen, wonach er suchen soll, schaut AutoQD einfach auf die Fußabdrücke, die der Roboter im Wald hinterlässt.

  • In der KI-Sprache nennt man diese Fußabdrücke "Occupancy Measures". Das ist im Grunde eine Statistik: Wie oft und wo war der Roboter? Welche Bewegungen hat er gemacht?
  • Wenn zwei Roboter völlig unterschiedlich laufen (z. B. einer hüpft wie ein Känguru, der andere kriecht wie eine Schlange), sind ihre Fußabdrücke im Wald völlig unterschiedlich.

2. Der magische Übersetzer (Die "Fourier-Features")

Jetzt haben wir diese komplexen Fußabdrücke, aber sie sind zu groß und zu unübersichtlich, um sie direkt zu nutzen. AutoQD nutzt einen mathematischen Trick (genannt "Random Fourier Features"), um diese Fußabdrücke in eine einfache, kleine Sprache zu übersetzen.

  • Die Analogie: Stellen Sie sich vor, Sie haben ein riesiges, kompliziertes Kochrezept. AutoQD übersetzt dieses Rezept in ein einfaches Bild: "Dieses Gericht ist sehr scharf" oder "Dieses Gericht ist sehr süß".
  • Durch diese Übersetzung kann der Computer jetzt leicht erkennen: "Aha, dieser Roboter ist 'scharf' (schnell), dieser hier ist 'süß' (langsam und stabil)."

3. Der Filter, der das Beste herausfiltert

Der Computer hat jetzt eine riesige Menge an Übersetzungen. Aber er braucht nur ein paar wichtige Merkmale, um die Vielfalt zu organisieren. AutoQD nutzt eine Technik namens cwPCA, die wie ein kluger Filter funktioniert.

  • Der Filter schaut sich alle gefundenen Wege an und sagt: "Welche Unterschiede sind wirklich wichtig? Welche Wege sind besonders gut?"
  • Er drückt die riesige Menge an Informationen auf ein paar wenige, wichtige Achsen herunter (z. B. "Wie schnell?" und "Wie stabil?").
  • Wichtig: Dieser Filter lernt während des Suchens. Wenn der Roboter neue, verrückte Wege entdeckt, passt der Filter sich an und lernt, diese neuen Unterschiede zu erkennen.

Warum ist das so toll?

  • Kein Vorwissen nötig: Sie müssen dem Computer nicht sagen, was "Hüpfen" oder "Laufen" ist. Der Computer lernt das selbst, indem er die Fußabdrücke vergleicht.
  • Überraschungen: Da keine Landkarte vorgegeben ist, findet AutoQD oft Wege, die niemand vorher bedacht hat. Vielleicht entdeckt es einen Weg, bei dem der Roboter auf dem Kopf läuft, weil das in einer bestimmten Situation am besten funktioniert.
  • Robustheit: Wenn sich die Umwelt ändert (z. B. wird der Boden rutschig), hat AutoQD bereits eine ganze Bibliothek an verschiedenen Wegen gefunden. Es ist sehr wahrscheinlich, dass einer dieser Wege auch auf dem rutschigen Boden funktioniert.

Zusammenfassung

AutoQD ist wie ein neugieriger Entdecker, der nicht mit einer vorgefertigten Liste von Zielen reist. Stattdessen zeichnet er einfach alles auf, was er sieht, und lernt daraus, was "anders" ist. Am Ende hat er nicht nur einen Weg zum Ziel, sondern eine ganze Sammlung von einzigartigen, kreativen Wegen, die für jede denkbare Situation bereitstehen.

Das ist ein großer Schritt hin zu KI-Systemen, die sich selbstständig in neuen, unbekannten Welten zurechtfinden können, ohne dass ein Mensch ihnen jedes Detail erklären muss.