Latent Wasserstein Adversarial Imitation Learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest jemandem das Fahrradfahren beibringen. Die klassische Methode wäre, ihm eine detaillierte Anleitung zu geben: „Tritt links, lenke rechts, halte das Gleichgewicht." Das ist wie beim Reinforcement Learning (Bestärkendes Lernen), wo man dem Roboter eine Belohnung (Punkte) für jede gute Bewegung gibt. Aber in der echten Welt ist es oft unmöglich, diese perfekten Anweisungen oder Punkte zu finden.

Hier kommt Imitationslernen ins Spiel. Statt Anweisungen zu geben, schauen wir uns einfach an, wie ein Experte fährt, und versuchen, es ihm nachzumachen. Das Problem? Oft haben wir nur Videos vom Experten, aber keine Aufzeichnung davon, welche Bewegungen er genau gemacht hat (keine „Steuerungsdaten"). Und noch schlimmer: Wir haben oft nur sehr wenige Videos, vielleicht sogar nur eine einzige Runde.

Die Forscher von der University of Illinois haben eine neue Methode namens LWAIL entwickelt, um genau dieses Problem zu lösen. Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Vergleichen:

1. Das Problem: Der falsche Maßstab

Stell dir vor, du versuchst, einem Roboter beizubringen, durch ein Labyrinth zu laufen. Du hast nur ein Video eines Experten, der den Weg kennt.

Der alte Weg (Euklidische Distanz): Die alten Methoden maßen den Abstand zwischen zwei Punkten im Labyrinth wie auf einer Landkarte mit einem Lineal. „Punkt A ist 5 Meter von Punkt B entfernt."
Das Problem: Das funktioniert im echten Leben nicht. Stell dir vor, Punkt A und Punkt B sind nur 5 Meter Luftlinie entfernt, aber dazwischen ist eine dicke Mauer. Der Roboter kann nicht einfach „hüpfen". Er muss einen Umweg nehmen. Die alten Methoden wussten das nicht und verwirrten den Roboter, weil sie dachten: „Na ja, A und B sind nah beieinander, also ist es okay, dorthin zu gehen."

2. Die Lösung: Eine „dynamische Landkarte" (LWAIL)

Die LWAIL-Methode sagt: „Wir brauchen keine Landkarte, die nur die Luftlinie misst. Wir brauchen eine Landkarte, die bewegbar ist."

Das machen sie in zwei Schritten:

Schritt 1: Das Training des „Gefühls" (Pre-Training)

Bevor der Roboter den Experten nachahmt, lässt ihn die Forscher eine Weile im Dunkeln herumtappen. Sie geben ihm ein paar zufällige, chaotische Videos (vielleicht von einem Roboter, der einfach nur wild herumstolpert).

Die Magie (ICVF): Aus diesem Chaos lernt ein spezielles neuronales Netz (das „ICVF"), wie die Welt wirklich funktioniert. Es lernt nicht nur, wo Dinge sind, sondern wie man von A nach B kommt.
Der Vergleich: Stell dir vor, du lernst eine neue Stadt kennen. Zuerst wirfst du einfach einen Ball in alle Richtungen (zufällige Daten). Du merkst schnell: „Ah, wenn ich hier stehe, kann ich nicht direkt zum Fluss springen, ich muss erst die Brücke nehmen." Das ICVF erstellt eine innere Landkarte, auf der die Entfernung zwischen zwei Punkten nicht durch Meter, sondern durch die Schwierigkeit der Reise gemessen wird.

Schritt 2: Das Nachahmen (Imitation)

Jetzt kommt der Experte ins Spiel. Der Roboter schaut sich das eine Video des Experten an.

Statt zu sagen: „Der Experte war hier, ich muss hierhin sein (aber ich weiß nicht, wie ich da hinkomme)", sagt das System: „Der Experte war auf dem Weg zum Fluss. Meine neue Landkarte sagt mir, dass dieser Weg der richtige ist."
Weil die neue Landkarte die Hindernisse und die Physik der Welt versteht, kann der Roboter mit nur einem einzigen Video des Experten lernen, perfekt zu fahren. Er versteht die Logik der Bewegung, nicht nur die Position.

Warum ist das so cool?

Weniger Daten: Früher brauchte man hunderte Stunden an Expertendaten. Mit LWAIL reicht oft ein einziges Video.
Keine Steuerung nötig: Es ist egal, ob man weiß, wie der Experte das Lenkrad gedreht hat. Es reicht zu sehen, wo er war.
Robustheit: Selbst wenn der Roboter mal einen Stolperer macht oder die Umgebung verrauscht ist (wie bei schlechtem Wetter), findet er auf seiner „dynamischen Landkarte" immer noch den Weg zurück zum Expertenpfad.

Zusammenfassung in einem Satz

Die Forscher haben eine Methode erfunden, bei der ein Roboter erst durch ein wenig „Herumtappen" lernt, wie die Welt physikalisch funktioniert, um dann mit nur einem einzigen Blick auf einen Experten sofort zu verstehen, wie er sich perfekt bewegen muss – ganz ohne detaillierte Anweisungen.

Es ist, als würde man jemandem nicht nur zeigen, wie man ein Puzzle löst, sondern ihm erst das Gefühl für die Form der Teile gibt, damit er das Puzzle sofort lösen kann, selbst wenn er es nur einmal gesehen hat.

Each language version is independently generated for its own context, not a direct translation.

Titel: Latent Wasserstein Adversarial Imitation Learning (LWAIL)

Autoren: Siqi Yang, Kai Yan, Alexander G. Schwing, Yu-Xiong Wang (University of Illinois Urbana-Champaign)
Veröffentlicht: ICLR 2026

1. Problemstellung

Imitatives Lernen (Imitation Learning, IL) zielt darauf ab, Agenten durch Nachahmung von Expertenverhalten zu trainieren. Ein zentrales Problem in der Praxis ist jedoch die Verfügbarkeit von Daten:

Fehlende Aktionen: Viele Methoden benötigen Expertendemonstrationen mit Aktionen ( $s, a$ ), die oft nicht verfügbar sind. Daher rückt Imitation Learning from Observations (LfO) in den Fokus, das nur Zustandssequenzen ( $s$ ) nutzt.
Datenknappheit: Selbst reine Zustandsdaten von Experten sind oft teuer oder schwer zu beschaffen.
Limitationen bestehender LfO-Methoden:
- f-Divergenzen: Viele adversarielle IL-Methoden nutzen f-Divergenzen (z. B. KL, JS). Diese erfordern jedoch, dass die Verteilungen des Agenten und des Experten denselben Träger (Support) haben, was bei schlechter Datenqualität oder Offline-Daten oft nicht gegeben ist.
- Wasserstein-Distanz: Methoden, die auf der Wasserstein-Distanz basieren (z. B. WDAIL, IQ-Learn), nutzen oft die Kantorovich-Rubinstein-Dualität (KR-Dualität). Ein kritisches, aber oft ignoriertes Problem hierbei ist die Metrik: Die KR-Dualität erzwingt in der Praxis eine euklidische Metrik im Rohzustandsraum. Diese euklidische Distanz erfasst jedoch nicht die Dynamik der Umgebung. Zwei Zustände können im euklidischen Raum nah beieinander liegen, aber aufgrund physikalischer Hindernisse oder Dynamiken nicht erreichbar sein (siehe Abbildung 1 im Paper). Dies führt zu irreführenden Lernsignalen.

Ziel: Entwicklung einer Methode, die nur mit wenigen (1–2) Expertenzustands-Trajektorien und minimalen, zufälligen Zustandsdaten (ohne Aktionen) auskommt, dabei dynamikbewusste Metriken nutzt und Expertenniveau erreicht.

2. Methodik: LWAIL

LWAIL ist ein zweistufiges Framework, das die Lücke zwischen der theoretischen Stärke der Wasserstein-Distanz und der praktischen Notwendigkeit einer dynamikbewussten Metrik schließt.

A. Pre-Training-Phase: Lernen einer dynamikbewussten latenten Metrik

Bevor der eigentliche Imitationsprozess beginnt, wird eine Repräsentation $\phi(s)$ gelernt, die die Umgebungsdynamik kodiert.

Datenbasis: Eine kleine Menge an unstrukturierten, zufälligen Zustandsdaten (nur $s$ , keine Aktionen), z. B. 1% der Online-Datenmenge.
Algorithmus: Training einer Intention Conditioned Value Function (ICVF).
- Die ICVF lernt einen Wert $V(s, s^+, z)$ , der angibt, wie wahrscheinlich es ist, einen zukünftigen Zustand $s^+$ (Outcome) von einem aktuellen Zustand $s$ aus zu erreichen, wenn das Ziel (Intention) $z$ ist.
- Dies wird als Offline-RL-Problem gelöst (z. B. mit IQL), wobei die „Belohnung" die Erreichbarkeit des Ziels ist.
- Die Wertfunktion wird faktorisiert als $V(s, s^+, z) = \phi(s)^T T(z) \psi(s^+)$ .
- Der Vektor $\phi(s)$ ist die gewünschte latente Zustandsrepräsentation.
Theoretische Begründung (Theorem 3.1): In einem nahezu deterministischen MDP ist die Zustands-Paar-Besuchshäufigkeit (State-Pair Occupancy) der Experten-Policy annähernd eine lineare Kombination der ICVF-Repräsentation $\phi(s)$ . Das bedeutet, der euklidische Abstand im Raum von $\phi(s)$ korreliert stark mit der tatsächlichen Erreichbarkeit und Dynamik.

B. Imitations-Phase: Adversarielles Lernen im latenten Raum

In dieser Phase wird der eigentliche Agent trainiert, um die Expertenverteilung nachzuahmen.

Eingabe: Nur Expertenzustände (einige wenige Episoden) und Online-Interaktionen des Agenten.
Festgefrorene Repräsentation: Die gelernte ICVF-Embedding-Funktion $\phi$ wird eingefroren.
Wasserstein-Optimierung:
- Statt der rohen Zustände $s$ werden die latenten Repräsentationen $\phi(s)$ verwendet.
- Das Ziel ist die Minimierung der 1-Wasserstein-Distanz zwischen der Zustands-Paar-Verteilung des Agenten $d^\pi_{ss}$ und der des Experten $d^E_{ss}$ im latenten Raum.
- Ziel-Funktion (KR-Dualität):
  $\min_\pi \max_{\|f\|_L \le 1} \left( \mathbb{E}_{(s,s') \sim d^\pi_{ss}} [f(\phi(s), \phi(s'))] - \mathbb{E}_{(s,s') \sim d^E_{ss}} [f(\phi(s), \phi(s'))] \right)$
- Der Diskriminator $f$ lernt, Expertenpaare von Agentenpaaren zu unterscheiden.
Belohnungssignal: Der Diskriminator generiert eine Pseudo-Belohnung für den Agenten: $r(s, s') = \sigma(-f(\phi(s), \phi(s')))$ , wobei $\sigma$ die Sigmoid-Funktion zur Stabilisierung ist.
RL-Algorithmus: Ein off-policy Algorithmus (TD3) nutzt diese Belohnung, um die Policy zu optimieren.

3. Schlüsselbeiträge

Dynamikbewusste Metrik: LWAIL ist die erste Methode, die die ICVF-Embeddings nutzt, um die geometrischen Limitierungen der euklidischen Metrik in Wasserstein-basierten IL-Methoden zu überwinden. Sie lernt eine Metrik, die die Erreichbarkeit und Dynamik der Umgebung aus minimalen, zufälligen Daten extrahiert.
Effizienz bei Datenknappheit: Die Methode erreicht Expertenniveau mit nur einer einzigen Expertenzustands-Trajektorie (State-Only), ohne Zugriff auf Expertaktionen oder hochwertige Offline-Daten.
Robustheit: Durch die Nutzung des latenten Raums ist die Methode robuster gegenüber Rauschen in den Anfangszuständen und Umgebungsstörungen als Methoden, die direkt im Rohzustandsraum arbeiten.
Theoretische und empirische Validierung: Es wird bewiesen, dass die ICVF-Repräsentation die Struktur der Zustands-Paar-Besuchshäufigkeit linear abbildet, was die Wahl der Metrik rechtfertigt.

4. Ergebnisse

Die Methode wurde auf mehreren Benchmarks evaluiert (D4RL, MuJoCo, Maze2D):

MuJoCo (Hopper, HalfCheetah, Walker2D, Ant):
- LWAIL übertrifft sowohl klassische IL-Methoden (GAIL, AIRL) als auch fortschrittliche Wasserstein-basierte Methoden (WDAIL, IQ-Learn, PWIL) und LfO-Methoden (DIFO, OPOLO).
- In fast allen Umgebungen erreicht LWAIL mit nur einer Expertentrajektorie Ergebnisse, die nahe am Experten liegen (z. B. ~108/113 Punkte in Hopper).
- Selbst Methoden, die Zugriff auf Expertaktionen haben, werden oft von LWAIL übertroffen.
Navigation (Maze2D, Antmaze):
- Bei gestörten Anfangszuständen (Gaußsches Rauschen) bricht LWAIL ohne ICVF-Embedding zusammen, während LWAIL mit ICVF konsistent hohe Leistungen erbringt. Dies zeigt die Fähigkeit, unbekannte Zustände zu bewältigen.
Ablationsstudien:
- Vergleich mit anderen Embeddings: ICVF-Embeddings performen deutlich besser als contrastive Learning-Methoden wie CURL oder PW-DICE in diesem Kontext.
- Robustheit: Die Methode ist robust gegenüber Rauschen in den Übergängen (Stochastizität).
- Datenqualität: Die ICVF-Vorverarbeitung funktioniert auch mit sehr schlechten (zufälligen) Offline-Daten, was den Bedarf an hochwertigen Offline-Datensätzen eliminiert.

5. Bedeutung und Fazit

LWAIL stellt einen Paradigmenwechsel im Bereich des Imitationslernens dar, insbesondere für Szenarien mit State-Only-Daten und minimalen Demonstrationen.

Lösung eines fundamentalen Problems: Es adressiert die oft übersehene Schwäche der KR-Dualität (euklidische Metrik), indem es eine dynamikbewusste Metrik aus wenig Daten lernt.
Praktische Relevanz: Da Expertenaktionen in vielen realen Anwendungen (Robotik, Videos) oft nicht verfügbar sind und hochwertige Demonstrationen teuer sind, ermöglicht LWAIL effizientes Lernen aus extrem wenigen Daten.
Zukunftsperspektive: Die Arbeit zeigt, dass die Kombination von Offline-Representation-Learning (ICVF) mit Online-Adversarial-Imitation-Learning (Wasserstein) ein vielversprechender Weg ist, um die Sample-Effizienz und Stabilität von IL-Methoden drastisch zu verbessern.

Zusammenfassend bietet LWAIL einen robusten, dateneffizienten Rahmen, der die Lücke zwischen theoretischer Optimalität (Wasserstein) und praktischer Machbarkeit (fehlende Aktionen, wenig Daten) schließt.