Hierarchical Latent Action Model

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, wie man einen Kaffee kocht. Normalerweise müsstest du ihm Schritt für Schritt zeigen: „Greife die Tasse", „Hebe sie", „Gieße das Wasser". Das ist wie ein langer, langweiliger Kochkurs, bei dem du jede einzelne Bewegung exakt vorgeben musst. Das Problem: Niemand hat Zeit, für jede Aufgabe Millionen von solchen Anleitungen zu schreiben.

Aber was, wenn der Roboter einfach nur Zuschauen könnte? Was, wenn er Millionen von Videos von Menschen sieht, die Kaffee kochen, aber keine Anweisungen bekommt, was sie genau tun?

Genau hier kommt HiLAM ins Spiel. Es ist wie ein genialer Filmregisseur für Roboter, der aus reinen Beobachtungen lernt, wie man Dinge macht.

Hier ist die einfache Erklärung, wie das funktioniert:

1. Das Problem: Der Roboter sieht nur „Zuckeln", nicht „Tun"

Bisherige Roboter-Modelle waren wie Kleinkinder, die nur auf die nächsten paar Sekunden schauen. Wenn ein Roboter sieht, wie jemand eine Tasse greift, lernt er nur die Bewegung des Arms in den nächsten 0,5 Sekunden. Er versteht aber nicht den großen Plan: „Zuerst die Tasse greifen, dann zum Herd gehen, dann einschenken."

Das ist wie wenn man einen Film nur Bild für Bild betrachtet, ohne zu verstehen, dass es eine Geschichte gibt.

2. Die Lösung: HiLAM ist wie ein „Zusammenfassungs-Experte"

HiLAM (Hierarchical Latent Action Model) macht etwas Cleveres. Es schaut sich das Video an und teilt es nicht in winzige Sekunden, sondern in sinnvolle Abschnitte ein.

Stell dir vor, du liest ein ganzes Buch.

Der alte Roboter würde sich nur jedes einzelne Wort merken.
HiLAM liest das Buch und fasst es zusammen: „Kapitel 1: Die Heldin packt ihren Rucksack. Kapitel 2: Sie wandert durch den Wald. Kapitel 3: Sie baut ein Lagerfeuer."

HiLAM nennt diese Kapitel „Latente Fähigkeiten" (oder Skills). Es lernt automatisch, wo ein Kapitel aufhört und das nächste beginnt, ohne dass ihm jemand sagt: „Hier ist das Ende des Kapitels".

3. Wie lernt es das? (Die zwei Ebenen)

HiLAM arbeitet in zwei Schichten, wie ein Chef und ein Angestellter:

Ebene 1: Der „Mikro-Motor" (Der Angestellte)
Zuerst schaut sich HiLAM an, wie sich die Bilder im Video verändern. Es nutzt ein vorgefertigtes Werkzeug (ein sogenanntes „Inverse Dynamics Model"), um zu erraten: „Wenn sich das Bild von Bild A zu Bild B verändert hat, muss da eine unsichtbare Handbewegung passiert sein." Das ist wie das Erraten der Fußbewegungen eines Tänzers, nur weil man die Positionen sieht.
Ebene 2: Der „Regisseur" (Der Chef)
Jetzt kommt das Geniale: HiLAM nimmt diese vielen kleinen, erratenen Bewegungen und packt sie in Kisten.
- Kiste 1: „Greifen" (besteht aus 50 kleinen Handbewegungen).
- Kiste 2: „Heben" (besteht aus 30 kleinen Handbewegungen).
Das System entscheidet selbst: „Moment, hier ändert sich die Bewegung stark. Das ist ein neuer Abschnitt!" Es gruppiert also die kleinen Schritte zu großen, sinnvollen Aufgaben zusammen.

4. Warum ist das so toll? (Die Vorteile)

Es braucht keine Anleitung: Da HiLAM nur zuschaut, kann es aus jedem Video lernen – von YouTube, von Sicherheitskameras, von Freunden. Es muss nicht teuer mit Sensoren ausgestattet werden.
Es ist effizient: Stell dir vor, du willst einen langen Film lernen. Wenn du jeden einzelnen Frame lernst, dauert es ewig. Wenn du aber die Szenen zusammenfasst („Der Held kämpft gegen den Drachen"), lernst du die Essenz viel schneller. HiLAM lernt so die „Essenz" von Bewegungen.
Es funktioniert bei langen Aufgaben: Wenn ein Roboter eine ganze Küche aufräumen soll, muss er viele Schritte planen. HiLAM kann das, weil es die großen Abschnitte („Teller waschen", „Tische abwischen") versteht, nicht nur die Handbewegung des Schwamms.

5. Ein Beispiel aus dem Papier

In den Experimenten sah HiLAM Videos von Menschen, die Dinge taten. Es konnte dann genau sagen:

Abschnitt 1: „Ich bewege mich zum Schrank."
Abschnitt 2: „Ich greife die Schüssel."
Abschnitt 3: „Ich stelle die Schüssel ab."

Und das Beste: Der Roboter konnte diese Abschnitte dann nutzen, um selbst Aufgaben zu lösen, auch wenn er nur sehr wenige echte Anweisungen bekam, um sich anzupassen.

Fazit

HiLAM ist wie ein Roboter, der nicht nur „Augen" hat, sondern auch ein Verständnis für die Handlung. Es schaut sich an, wie Menschen Dinge tun, fasst die kleinen Schritte zu großen Ideen zusammen und lernt daraus, wie man komplexe Aufgaben plant – ganz ohne dass ihm jemand die Hand führt.

Es ist der Unterschied zwischen jemandem, der nur die Buchstaben eines Satzes auswendig lernt, und jemandem, der die Bedeutung des Satzes versteht.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papiers „HiLAM: Hierarchical Latent Action Model" auf Deutsch:

1. Problemstellung

Das Lernen von Roboterkontrolle stützt sich zunehmend auf große Datensätze. Ein zentrales Hindernis ist jedoch die hohe Kosten und der Aufwand für die Beschaffung von Daten mit Aktions-Labels (Action-Labeled Data). Latent Action Models (LAMs) wurden entwickelt, um aus rein beobachtungsbasierten Daten (ohne Aktionslabels) latente Aktionen zu extrahieren.

Das Hauptproblem besteht jedoch darin, dass bestehende LAMs typischerweise nur kurzfristige Bewegungsübergänge (Low-Level-Motion) modellieren. Sie erfassen oft die dynamischen Muster zwischen zwei Frames, ignorieren aber die langfristige zeitliche Struktur und hochrangige Fähigkeiten (High-Level Skills), die in unbeschrifteten Videos häufig vorkommen.

Herausforderung: Reale Fähigkeiten variieren stark in ihrer Dauer. Das Erzwingen einer festen Fenstergröße für Fähigkeiten führt dazu, dass unterschiedliche Ausführungen derselben Aufgabe auf sehr unterschiedliche Repräsentationen abgebildet werden.
Ziel: Es muss eine Methode entwickelt werden, die Fähigkeiten aus unbeschrifteten Videos extrahiert, ohne auf feste Längen oder vordefinierte Skill-Sets angewiesen zu sein.

2. Methodik: HiLAM (Hierarchical Latent Action Model)

HiLAM ist ein hierarchisches Modell, das latente Fähigkeiten (Latent Skills) aus Sequenzen von latenteren Aktionen ableitet. Der Ansatz besteht aus zwei Hauptphasen:

A. Architektur und Dynamisches Chunking

Das Kernstück von HiLAM ist die Nutzung der H-Net-Architektur (Hwang et al., 2025), die einen dynamischen Chunking-Mechanismus (Dynamisches Segmentieren) einführt.

Eingabe: Ein Video wird zunächst durch ein vortrainiertes Inverse Dynamics Model (IDM) in eine Sequenz von low-level latenten Aktionen ( $z^l$ ) umgewandelt.
Dynamische Segmentierung: Anstatt feste Zeitfenster zu verwenden, lernt das Modell Daten-getrieben die Grenzen von Fähigkeiten. Ein Encoder sagt für jeden Token einen „Boundary Indicator" ( $b_t$ ) vorher. Wenn $b_t=1$ , beginnt ein neuer Chunk (eine neue Fähigkeit).
Hierarchie: Durch wiederholtes Anwenden von Encoder, Chunking (Downsampling) und Decoder entstehen mehrere Ebenen. Höhere Ebenen operieren auf kürzeren, zusammengefassten Sequenzen, die hochrangige Fähigkeiten repräsentieren ( $z^h$ ).

B. Trainingsziele

Das Modell wird mit einem gewichteten Verlust optimiert:

Next-Latent Prediction: Vorhersage der nächsten latenten Aktion (ähnlich Next-Token Prediction in Sprachmodellen).
Reconstruction Loss (Visuelle Supervision): Ein vortrainiertes Forward Dynamics Model (FDM) versucht, den zukünftigen Frame basierend auf der vorhergesagten latenten Aktion zu rekonstruieren. Dies stellt sicher, dass die latenten Repräsentationen die dynamischen Bewegungseigenschaften beibehalten.
Chunking Regularizer: Verhindert degenerierte Muster (z. B. zu viele oder zu wenige Grenzen) und steuert die durchschnittliche Chunk-Länge.

C. Hierarchische Politik-Lernphase (Policy Learning)

Nach dem Training werden die extrahierten latenten Fähigkeiten für die Steuerung genutzt:

Pretraining: Eine hochrangige Politik ( $\pi_h$ ) sagt basierend auf Beobachtung und Aufgabe eine latente Fähigkeit voraus. Eine niedrigrangige Politik ( $\pi_l$ ) sagt basierend auf Beobachtung und der vorhergesagten Fähigkeit eine latente Aktion voraus. Dies geschieht auf großen Mengen unbeschrifteter Daten (Menschen- oder Roboter-Videos).
Fine-Tuning: Die hochrangige Politik wird eingefroren. Die niedrigrangige Politik wird auf Zielfeld-Daten mit echten Aktions-Labels feinabgestimmt, um die latente Aktion in echte Roboteraktionen zu übersetzen.

3. Wichtige Beiträge

Entdeckung von Fähigkeiten ohne Labels: HiLAM extrahiert hochrangige, zeitlich ausgedehnte Fähigkeiten aus rein beobachtungsbasierten Daten, ohne dass manuelle Labels oder vordefinierte Skill-Sets nötig sind.
Dynamische Chunking-Mechanismus: Im Gegensatz zu vorherigen Arbeiten, die feste Längen oder Cluster voraussetzen, passt HiLAM die Länge der Fähigkeiten dynamisch an die Daten an. Dies ermöglicht eine natürliche Gruppierung von ähnlichen Bewegungsmustern unterschiedlicher Dauer.
Effiziente Langzeit-Modellierung: Durch die Wiederverwendung vortrainierter LAMs (IDM/FDM) als Tokenizer und die hierarchische Kompression können lange Trajektorien effizient codiert werden.
Interpretierbarkeit: Die vorhergesagten latenten Aktionen behalten ihre Interpretierbarkeit bei, da sie zukünftige Frames korrekt vorhersagen können.

4. Ergebnisse

Die Evaluation erfolgte auf dem LIBERO-Benchmark (eine Suite von Roboteraufgaben mit unterschiedlichen Schwierigkeitsgraden, einschließlich räumlicher, objektspezifischer und langfristiger Aufgaben).

Überlegenheit gegenüber Baselines: HiLAM übertrifft den State-of-the-Art-Baseline (BAKU) konsistent in allen vier Test-Suiten (Spatial, Object, Goal, Long).
Daten-Effizienz (LIBERO-Long):
- Mit nur 10% der Fine-Tuning-Demonstrationen erreicht HiLAM eine Erfolgsrate von 45%, während BAKU nur 23% erreicht (fast eine Verdopplung).
- Mit 50% der Daten erreicht HiLAM 84%, was der Leistung von BAKU mit 100% der Daten entspricht.
- Mit 100% der Daten erreicht HiLAM 94% Erfolgsrate.
Ablationsstudien:
- Die Verwendung von menschlichen Videos (Something-Something V2) für das Pretraining erwies sich als effektiver als Roboter-Videos.
- Die Kombination aus tiefen latenten Fähigkeiten (Stage 2) und flachen latenten Aktionen (Stage 0) ergab die besten Ergebnisse.
- Ein nicht-hierarchischer Ansatz (flache Politik) profitierte zwar von latenten Aktionen, blieb aber hinter der hierarchischen Lösung zurück.
Qualitative Ergebnisse: Das Modell gruppiert latenten Aktionssequenzen erfolgreich in semantisch sinnvolle Segmente (z. B. „Bewegen zum Schüssel", „Aufheben", „Abstellen"), was durch die Visualisierung der vorhergesagten Grenzen bestätigt wird.

5. Bedeutung und Ausblick

HiLAM schließt eine wichtige Lücke in der Robotik, indem es zeigt, dass hochrangige Fähigkeiten effektiv aus reinen Beobachtungsdaten gelernt werden können, ohne auf teure Aktions-Labels angewiesen zu sein. Die Fähigkeit, variable Längen dynamisch zu handhaben, macht das Modell besonders robust für reale Szenarien, in denen die Ausführungsgeschwindigkeit variiert.

Limitationen und Zukunft:

Die Experimente fanden primär in simulierten Umgebungen (LIBERO) statt; Validierung in der realen Welt steht aus.
Die aktuelle Architektur nutzt vortrainierte IDMs/FDMs. Ein end-to-end Training könnte zu einem tieferen gemeinsamen Verständnis führen.
Zukünftige Arbeiten könnten die Integration von Sprachanweisungen untersuchen, um die Komplementarität von Bewegungssignalen und Sprache für noch robustere Fähigkeiten zu nutzen.

Zusammenfassend bietet HiLAM einen vielversprechenden Weg, um die Daten-Effizienz beim Lernen von Roboteraufgaben drastisch zu verbessern und komplexe, langfristige Aufgaben durch die Entdeckung intrinsischer Fähigkeiten zu lösen.