Reference Grounded Skill Discovery

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem riesigen, komplexen Roboter (mit 69 Gelenken, fast wie ein echter Mensch) beibringen, sich zu bewegen. Das Problem ist: Wenn du ihm sagst „Bewege dich einfach mal so", wird er wahrscheinlich nur wild zucken, wie ein Roboter, der einen Stromschlag bekommen hat. Er findet keine sinnvollen Wege, wie Laufen, Boxen oder zur Seite Ausweichen, weil der Raum der Möglichkeiten zu riesig ist.

Die Forscher aus Georgia Tech haben eine Lösung namens RGSD entwickelt. Hier ist die Idee dahinter, einfach erklärt:

1. Das Problem: Der „Wahnsinn im Raum"

Stell dir vor, du bist in einem riesigen, leeren Raum und sollst neue Wege finden. Wenn du blind herumläufst, wirst du vielleicht zufällig einen Weg finden, aber es dauert ewig und die Wege sind oft seltsam (z. B. auf einem Bein hüpfen und gleichzeitig mit dem Kopf wackeln).
Bei einem Roboter mit so vielen Gelenken ist dieser Raum unvorstellbar groß. Herkömmliche Methoden, die den Roboter einfach „herumtollen" lassen, scheitern hier oft. Sie finden keine sinnvollen Fähigkeiten.

2. Die Lösung: Eine Landkarte mit Vorlagen

RGSD macht etwas Cleveres: Es gibt dem Roboter vorher eine Landkarte.
Stell dir vor, du willst einem Kind beibringen, verschiedene Tanzschritte zu machen. Anstatt zu sagen: „Tanz einfach mal los", legst du ihm erst ein Video von einem Profi vor, der tanzt.

Der erste Schritt (Das Lernen der Landkarte): Der Roboter schaut sich Referenzvideos an (z. B. Laufen, Rennen, Boxen). Er lernt nicht nur die Bewegungen auswendig, sondern erstellt eine innere „Landkarte" (einen latenten Raum). Auf dieser Landkarte ist jeder Tanzschritt ein eigener Punkt. „Laufen" ist hier, „Boxen" dort. Alles ist ordentlich sortiert.
Der zweite Schritt (Die Entdeckung): Jetzt darf der Roboter experimentieren. Aber er tut das nicht im blinden Chaos. Er nutzt die Landkarte.
- Wenn er auf den Punkt „Laufen" zeigt, imitiert er den Lauf.
- Wenn er einen Punkt zwischen „Laufen" und „Boxen" wählt, erfindet er etwas Neues, das aber noch Sinn ergibt – vielleicht ein „boxender Lauf".

3. Die Analogie: Der Koch und das Rezeptbuch

Stell dir den Roboter als einen Koch vor, der eine riesige Küche hat.

Ohne RGSD: Der Koch wirft einfach alle Zutaten in den Topf, ohne Rezept. Das Ergebnis ist oft ungenießbar oder sieht komisch aus.
Mit RGSD: Der Koch hat ein Rezeptbuch (die Referenzdaten).
1. Zuerst lernt er die Rezepte genau (z. B. wie man eine perfekte Pizza macht).
2. Dann darf er experimentieren. Er kann eine Pizza mit etwas mehr Käse machen oder eine andere Form wählen. Aber weil er die Grundstruktur der Pizza kennt, wird das Ergebnis immer noch eine Pizza sein und kein Haufen Matsch.

RGSD ermöglicht es dem Roboter, nicht nur die perfekten Rezepte nachzukochen, sondern auch kreative Variationen zu erfinden, die trotzdem funktionieren.

4. Warum ist das so cool?

In früheren Versuchen (wie bei der Methode METRA) versuchten Roboter, einfach nur unterschiedlich zu sein. Das führte dazu, dass sie Dinge taten, die technisch unterschiedlich waren, aber sinnlos (z. B. nur mit dem linken Arm wackeln).

RGSD zwingt den Roboter, sinnvoll zu sein.

Imitation: Er kann genau das tun, was er gesehen hat (z. B. nach links laufen).
Entdeckung: Er kann neue Dinge tun, die dem Original ähneln (z. B. nach links laufen, aber dabei eine Kurve machen oder schneller laufen).

Das Ergebnis

In Tests mit einem menschlichen Roboter-Modell hat RGSD gezeigt, dass er komplexe Bewegungen wie Laufen, Rennen, zur Seite Ausweichen und sogar Boxen perfekt nachahmen kann. Noch wichtiger: Er kann diese Bewegungen variieren. Wenn man ihm sagt „Laufe rückwärts", findet er einen Weg, das zu tun, auch wenn er im Trainingsvideo nur geradeaus gelaufen ist.

Zusammengefasst: RGSD gibt dem Roboter einen „Sinn für Stil". Anstatt blind herumzulaufen, lernt er die Grundregeln der Bewegung aus Beispielen und nutzt diese Regeln, um dann kreativ und sicher neue Wege zu finden. Es ist der Unterschied zwischen einem Roboter, der zufällig zuckt, und einem, der wie ein geschickter Tänzer agiert.

Each language version is independently generated for its own context, not a direct translation.

Titel: Reference-Grounded Skill Discovery (RGSD)

Veröffentlicht: ICLR 2026
Autoren: Seungeun Rho, Aaron Trinh, Danfei Xu, Sehoon Ha (Georgia Institute of Technology)

1. Problemstellung

Das übergeordnete Ziel des unüberwachten Skill-Discoverys (Fähigkeitsentdeckung) ist es, eine Menge wiederverwendbarer Fähigkeiten zu erlernen, die auf beliebige nachgelagerte Aufgaben angewendet werden können. Dies erfordert zwei wesentliche Eigenschaften:

Vielfalt (Diversity): Der Skill-Satz muss die breite Verteilung möglicher Aufgaben abdecken.
Semantische Sinnhaftigkeit (Semantic Meaningfulness): Die Fähigkeiten müssen strukturiert und interpretierbar sein (z. B. „laufen", „schlagen"), nicht nur zufällige Bewegungen.

Die Herausforderung: Die Skalierung auf Agenten mit hoher Freiheitsgrad-Anzahl (High-DoF), wie humanoide Roboter, ist extrem schwierig. Mit steigender Dimensionalität wächst der Explorationsraum exponentiell, während der Anteil der semantisch sinnvollen Manigolden (Mannigfaltigkeiten) relativ klein bleibt. Bestehende unüberwachte Methoden (wie METRA oder DIAYN) scheitern in solchen Umgebungen oft daran, dass sie unstrukturierte, zufällige Bewegungen produzieren, da ihnen ein Leitfaden für die Exploration fehlt.

2. Methodik: Reference-Grounded Skill Discovery (RGSD)

RGSD löst das Problem, indem es den Skill-Entdeckungsprozess in einen semantisch sinnvollen latenten Raum „groundet" (verankert), der auf Referenzdaten basiert. Der Ansatz folgt einem zweistufigen Prozess:

A. Kontrastives Pretraining (Grounding)

Bevor die eigentliche Exploration beginnt, wird ein Encoder $q_\phi$ trainiert, um Referenzbewegungen (z. B. aus einem Motion-Capture-Datensatz) in einen latenten Raum zu embedden.

Ziel: Jeder Referenz-Trajektorie wird eine eindeutige Richtung auf einer Einheitshypersphäre zugewiesen.
Mechanismus: Es wird kontrastives Lernen (InfoNCE-Loss) verwendet. Positive Paare stammen aus derselben Trajektorie, negative Paare aus verschiedenen Trajektorien.
Verteilung: Der Encoder modelliert die latente Verteilung als von-Mises-Fisher (vMF)-Verteilung. Dies erzwingt, dass alle Zustände innerhalb einer Bewegung in die gleiche Richtung im latenten Raum zeigen (Within-Motion Alignment).
Ergebnis: Ein vorstrukturierter, semantisch bedeutungsvoller latenten Raum, in dem jede Richtung einer spezifischen Bewegungsart entspricht.

B. Paralleles Training von Imitation und Discovery

Nach dem Einfrieren des Encoders wird eine Policy $\pi$ parallel für zwei Ziele trainiert, wobei beide denselben Reward-Term nutzen:

Imitation: Die Policy wird auf Referenz-Embeddings $z_m$ (durchschnittliche Embeddings einer Bewegung) konditioniert und lernt, diese Bewegungen nachzuahmen. Der Reward basiert auf der Ähnlichkeit zwischen dem aktuellen Zustand und dem Referenz-Embedding (basierend auf der DIAYN-Formulierung).
Discovery: Die Policy wird auf zufällige Vektoren im latenten Raum konditioniert. Durch das Sampling von Vektoren zwischen den Referenzrichtungen werden neue, semantisch verwandte Variationen der Basisbewegungen entdeckt (z. B. Laufen in verschiedene Richtungen, wenn nur ein gerades Laufen referenziert wurde).

Besonderheiten:

Reference State Initialization (RSI): Initialisierung der Episoden direkt aus Referenzbewegungen, um Überlappung der Zustandsverteilungen zu gewährleisten.
Reward-Design: Der Reward ist eine Funktion des Kosinus-Abstands zwischen dem aktuellen Zustand und dem Ziel-Embedding. Dies garantiert, dass Abweichungen von der Referenzbewegung den Reward verringern (lokal quasi-konkav).

3. Hauptbeiträge

Neuer Algorithmus: Einführung von RGSD, das Skill-Discovery durch Grounding in Referenzdaten auf High-DoF-Agenten skalierbar macht.
Empirische Validierung: Demonstration auf einem 69-DoF SMPL-Humanoiden (359-dimensionale Beobachtungen). RGSD lernt komplexe Bewegungen (Laufen, Rennen, Boxen, Seitwärtsschritt) und deren Variationen.
Theoretische Fundierung: Beweis, dass der vorgeschlagene Reward als legitimes Imitations-Signal fungiert (Optimum bei exakter Nachahmung, lokale Quasi-Konkavität).
Analyse von Limitationen: Erklärung, warum wasserstein-basierte Methoden (wie METRA) schwer mit diesem Ansatz kombinierbar sind, insbesondere bei repetitiven Bewegungen (z. B. Gehen), da diese in lokalen Koordinatensystemen kollabieren.

4. Ergebnisse

Die Evaluation erfolgte auf einem simulierten SMPL-Humanoiden mit 20 Referenzbewegungen (Laufen, Rennen, Seitwärtsschritt, Rückwärtsgehen, Boxen).

Imitationsqualität: RGSD erreicht eine hohe Fidelity (geringe kartesische Fehler) und natürliche Bewegungen (gute FID-Scores). Im Vergleich zu reinen Unsupervised-Methoden (DIAYN, METRA), die bei High-DoF versagen, übertrifft RGSD diese deutlich.
Entdeckung neuer Fähigkeiten: RGSD kann Variationen entdecken, die im Datensatz nicht explizit vorhanden waren (z. B. Seitwärtsschritte in verschiedene Richtungen oder Püffe in verschiedene Richtungen), während die semantische Struktur erhalten bleibt.
Downstream Tasks (Zielverfolgung): In Aufgaben, bei denen der Agent ein Ziel erreichen muss, während er einen bestimmten Stil (z. B. „Rückwärtsgehen") beibehalten muss, übertrifft RGSD alle Baselines (ASE, CALM, Meta-Motivo).
- Baselines neigen dazu, den Stil zu ignorieren, sobald das Ziel in eine andere Richtung zeigt.
- RGSD findet konsistent Wege, das Ziel zu erreichen, ohne den Befehl-Stil zu verletzen (z. B. weite Umwege, um rückwärts zu bleiben).
Kontrollierbarkeit: Die Vielfalt der generierten Bewegungen kann zur Laufzeit durch den Konzentrationsparameter $\kappa$ der vMF-Verteilung gesteuert werden (hoher $\kappa$ = strikte Imitation, niedriger $\kappa$ = hohe Vielfalt).

5. Bedeutung und Ausblick

RGSD stellt einen Paradigmenwechsel dar, der die Lücke zwischen reinem Imitationslernen (nur Nachahmen) und reinem unüberwachten Entdecken (oft chaotisch) schließt.

Skalierbarkeit: Es zeigt erstmals, dass strukturierte Skills in hochdimensionalen Systemen (Humanoiden) durch Grounding in Referenzdaten effektiv gelernt werden können.
Effizienz: Der Ansatz nutzt die Geometrie des latenten Raums, um sowohl Imitation als auch kreative Variation zu ermöglichen, ohne dass komplexe adversarielle Trainingsschemata (wie bei GAIL) nötig sind.
Zukunft: Die Autoren sehen Potenzial in der Entwicklung von „Skill-Foundation-Modellen", die über verschiedene Embodiments hinweg trainiert werden können, ähnlich wie Large Language Models (LLMs) in der NLP.

Zusammenfassend bietet RGSD eine praktische Rezeptur, um die „Fluch der Dimensionalität" im Skill-Discovery zu überwinden, indem es die Exploration in einen semantisch vordefinierten Raum lenkt.