Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen einem Roboter beibringen, zu laufen, zu klettern oder zu tanzen. Normalerweise muss man diesen Roboter wie ein kleines Kind behandeln: Man lässt ihn einfach los, er stolpert, fällt hin, lernt aus seinen Fehlern und versucht es immer wieder von vorne. Das nennt man "Reinforcement Learning" (Bestärkendes Lernen). Das Problem dabei ist: Es dauert ewig und verbraucht eine riesige Menge an Rechenleistung, weil der Roboter jedes Mal bei Null anfangen muss, selbst wenn er schon einmal gelernt hat, wie seine Beine funktionieren.

Diese Forscher aus Zürich haben eine clevere Lösung gefunden, die man sich wie einen Vorkurs für Roboter vorstellen kann.

Hier ist die Erklärung in einfachen Schritten:

1. Das Problem: Der Roboter lernt jedes Mal neu

Stellen Sie sich vor, Sie wollen jemandem beibringen, Tennis zu spielen. Normalerweise würde man ihn auf den Platz stellen und sagen: "Schlag den Ball!" Er würde den Schläger falsch halten, den Ball verfehlen und nach 10.000 Versuchen vielleicht endlich treffen.
Wenn Sie ihm dann aber beibringen wollen, wie man Golf spielt, müsste er theoretisch wieder bei Null anfangen, obwohl er doch schon weiß, wie man einen Schläger hält und auf einen Ball zielt. Genau das passiert bei Robotern: Jedes neue Lernziel (Laufen, Klettern, Springen) wird als völlig neues Abenteuer behandelt, obwohl der Roboter-Körper (seine "Embodiment") derselbe bleibt.

2. Die Lösung: Ein "Gefühl" für den eigenen Körper

Die Forscher haben einen Trick entwickelt, den sie PIDM nennen (Proprioceptive Inverse Dynamics Model).

Die Analogie: Stellen Sie sich vor, Sie schließen die Augen und strecken Ihre Hand aus. Sie müssen nicht sehen, wo Ihre Hand ist; Sie fühlen es. Das ist "Propriozeption".
Der Trick: Bevor der Roboter überhaupt lernt, eine spezifische Aufgabe zu lösen (wie "Lauf schnell!"), lassen die Forscher ihn erst einmal "herumtollen". Er läuft wild umher, stolpert, rutscht aus und lernt dabei nur eines: Wie bewegt sich mein Körper? Wie reagieren meine Gelenke, wenn ich Kraft ausübe? Wie fühlt sich das Gleichgewicht an?

3. Der Vorkurs (Pretraining)

In diesem "Herumtollen"-Modus sammelt der Roboter Daten. Er lernt die Physik seines eigenen Körpers, ohne dass ihm gesagt wird, was er tun soll.

Die Metapher: Das ist wie ein Sportler, der erst einmal nur Gymnastik macht, um zu verstehen, wie seine Muskeln funktionieren, bevor er überhaupt einen Ball sieht. Er lernt nicht "Tennis", sondern "Wie mein Körper sich bewegt".

4. Der Startvorteil (Warm-Start)

Sobald dieser "Gymnastik-Kurs" abgeschlossen ist, nehmen die Forscher das Gehirn (das neuronale Netzwerk) des Roboters, das diese Körperkenntnisse gespeichert hat, und stecken es in den eigentlichen Lernprozess für die neue Aufgabe.

Der Vergleich: Statt den Roboter als kompletten Anfänger zu starten, starten wir ihn als fortgeschrittenen Anfänger. Er weiß bereits, wie er nicht hinfallen muss. Er muss sich nur noch auf die neue Aufgabe konzentrieren (z. B. "Laufe über einen Zaun").

5. Das Ergebnis: Schneller und besser

Die Forscher haben das an 9 verschiedenen Aufgaben mit 3 verschiedenen Robotern getestet (Hunde-Roboter und ein humanoide Roboter).

Das Ergebnis: Der Roboter lernte 37 % schneller (er brauchte weniger Versuche) und war am Ende 7 % besser in seiner Aufgabe als Roboter, die ohne diesen Vorkurs starteten.
Warum? Weil er nicht mehr so viele "Stolpern" braucht, um zu verstehen, wie sein Körper funktioniert. Er kann sich sofort auf das Ziel konzentrieren.

Zusammenfassung in einem Satz

Statt einen Roboter jedes Mal wie ein Neugeborenes zu behandeln, das alles neu lernen muss, geben wir ihm erst einmal einen "Körper-Seminar", damit er weiß, wie er sich bewegt, und starten ihn dann mit einem riesigen Vorsprung in die eigentliche Aufgabe.

Das ist wie der Unterschied zwischen jemandem, der zum ersten Mal auf einem Fahrrad sitzt und sofort umfällt, und jemandem, der schon weiß, wie man das Gleichgewicht hält, und sich jetzt nur noch darauf konzentriert, eine bestimmte Strecke zu fahren.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Pretraining in Actor-Critic Reinforcement Learning for Locomotion" auf Deutsch:

1. Problemstellung

Im Bereich des Reinforcement Learning (RL) für die robotische Fortbewegung (Locomotion) werden neue Fähigkeiten oft von Grund auf (tabula rasa) gelernt, selbst wenn sie auf derselben Roboterkörperstruktur (Embodiment) basieren. Dies führt zu einer geringen Sample-Effizienz (hoher Datenbedarf) und langsamen Lernprozessen, da jedes neue Training zufällige Gewichtungen verwendet.

Zwar gibt es Ansätze zum Pretraining in der Computer Vision und NLP sowie in der Robotik (z. B. für Manipulation mit visuellen Sprachmodellen), diese adressieren jedoch meist nur die Wahrnehmung oder Sprache und nicht die embodiment-spezifischen dynamischen Kenntnisse (Kinematik und Dynamik des Roboters). Bestehende Methoden für Offline-zu-Online-RL benötigen oft belohnte Datensätze oder Experten-Demonstrationen, die für neue Aufgaben nicht verfügbar sind. Das Ziel dieser Arbeit ist es, eine Methode zu entwickeln, die aufgabenagnostisches Vorwissen über die Roboterdynamik in die initialen Gewichte eines Actor-Critic-Netzwerks (z. B. PPO) integriert, um den Lernprozess zu beschleunigen und zu stabilisieren.

2. Methodik

Der vorgeschlagene Ansatz besteht aus drei Hauptphasen:

A. Exploration-basierte Datensammlung

Anstatt Experten-Demonstrationen zu nutzen, wird ein aufgabenagnostischer Explorations-Policy (basierend auf PPO) trainiert, um diverse, dynamische Übergangsdaten zu sammeln.

Ziel: Erfassung von Zuständen, die typischerweise in den frühen, „stolpernden" Phasen des RL-Lernens auftreten (Grundlagen der Kinematik, Dynamik und Stabilität).
Mechanismus: Ein Ensemble von PIDM-Modellen wird periodisch neu trainiert. Die Exploration wird durch die Diskrepanz (Unsicherheit) innerhalb des Ensembles gelenkt (epistemische Unsicherheit), um Zustände zu erkunden, die das Modell noch nicht gut versteht.
Daten: Es werden Propriozeptionsdaten ( $x_t$ ), Aktionen ( $a_t$ ) und nächste Zustände ( $x_{t+1}$ ) gesammelt, unter Einbeziehung von Domain Randomization (Massen, Reibung, Störungen).

B. Pretraining des Proprioceptiven Inversen Dynamikmodells (PIDM)

Die gesammelten Daten werden verwendet, um ein Proprioceptive Inverse Dynamics Model (PIDM) mittels überwachtem Lernen zu trainieren.

Aufgabe: Das Modell lernt eine Abbildung $I(a_t | x_{t-K:t+1}, a_{t-K:t-1})$ , d. h., es sagt die notwendige Aktion $a_t$ voraus, um von einem aktuellen Zustand zu einem gewünschten zukünftigen Zustand zu gelangen, basierend auf einer Historie von Propriozeption und Aktionen.
Architektur: Ein modulares MLP-Netzwerk, das eine Historie von Aktionen und Propriozeption verarbeitet, um die Dynamik des Systems zu erfassen. Es benötigt keine privilegierten Informationen (wie exakte Kontaktzustände), sondern leitet diese indirekt aus der Historie ab.
Verlustfunktion: L1-Verlust zwischen dem vorhergesagten und dem tatsächlichen Zustandsdelta.

C. Warm-Start des RL-Prozesses (Integration in Actor-Critic)

Die vortrainierten Gewichte des PIDM werden als Basis für die Actor- und Critic-Netzwerke in einem PPO-Algorithmus verwendet.

Architektur-Anpassung: Das PIDM bildet den „Backbone".
- Der Actor erhält einen zufällig initialisierten „Intention Encoder" (für aufgabenspezifische Beobachtungen) und einen zufällig initialisierten „Action Synthesizer".
- Der Critic nutzt eine ähnliche Struktur mit einem „Value Synthesizer".
Vorteil: Die PIDM-Komponenten enthalten bereits Wissen über die Roboterdynamik, während die neuen Module (Encoder/Synthesizer) auf die spezifische Aufgabe (z. B. Laufen, Klettern) spezialisiert werden. Dies ermöglicht ein Drop-in-Replace ohne Anpassung der Hyperparameter oder der POMDP-Definition.

3. Wichtige Beiträge

Neues Paradigma: Einführung einer aufgabenagnostischen Gewichtsinitialisierung für RL in der Robotik, die spezifisches Embodiment-Wissen (Dynamik) kodiert, ohne auf Experten-Daten oder aufgabenspezifische Belohnungssignale im Pretraining angewiesen zu sein.
Modularität und Flexibilität: Die Methode ist auf verschiedene POMDP-Formulierungen (unterschiedliche Befehle, Beobachtungen, Belohnungen, Curricula und Terrains) anwendbar, solange die Roboterkörperstruktur gleich bleibt.
Empirische Validierung: Umfassende Tests mit 9 verschiedenen RL-Umgebungen und 3 Robotertypen (2 Vierbeiner: ANYmal-D, Unitree Go1; 1 Humanoid: Unitree G1).

4. Ergebnisse

Die Studie vergleicht drei Szenarien: (i) Standard-MLP mit zufälligen Gewichten, (ii) PIDM-Architektur mit zufälligen Gewichten, (iii) PIDM-Architektur mit vortrainierten Gewichten.

Sample-Effizienz: Die vorgeschlagene Methode verbessert die Sample-Effizienz im Durchschnitt um 36,9 % (gemessen an der Anzahl der Iterationen bis zu 90 % der maximalen Leistung) im Vergleich zur zufälligen Initialisierung.
Leistungssteigerung: Die Endleistung (Final Performance) steigt im Durchschnitt um 7,3 %.
Vergleich: In 7 von 9 Aufgaben übertraf das vortrainierte PIDM sogar das Standard-MLP. Das vortrainierte Modell passt sich schnell an neue, komplexe Terrains (z. B. Parkour) an, obwohl es im Pretraining nur auf flachem oder leichtem Gelände trainiert wurde.
Stabilität: Die Analyse der Gewichtsupdates zeigt, dass das vortrainierte Modell kleinere Updates in den ersten 100 Iterationen benötigt, was darauf hindeutet, dass es näher am optimalen lokalen Minimum startet.

5. Bedeutung und Fazit

Diese Arbeit adressiert das fundamentale Problem der Ineffizienz beim Lernen robotischer Fortbewegung durch RL. Sie zeigt, dass es möglich ist, universelles dynamisches Wissen über einen Roboter zu extrahieren und dieses als „Startpunkt" für beliebige neue Aufgaben zu nutzen.

Praktischer Nutzen: Die Methode fungiert als Plug-in, das keine Änderungen am bestehenden RL-Framework erfordert und keine teuren Experten-Demonstrationen benötigt.
Zukunftsausblick: Die Autoren sehen Potenzial in der weiteren Optimierung der Modellgröße und der Integration von Architekturen, die besser mit Zeitreihendaten umgehen können.

Zusammenfassend beweist das Paper, dass ein aufgabenagnostisches Pretraining der Inversen Dynamik ein effektiver Hebel ist, um die Lernkurve für robotische Locomotion signifikant zu verkürzen und die Endleistung zu steigern.