Dual-Horizon Hybrid Internal Model for Low-Gravity Quadrupedal Jumping with Hardware-in-the-Loop Validation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einen Hund auf dem Mond herumlaufen lassen. Das klingt erst einmal einfach, aber auf dem Mond ist die Schwerkraft nur ein Sechstel so stark wie auf der Erde. Das bedeutet: Wenn der Hund einen Schritt macht, fliegt er viel länger durch die Luft, bevor er wieder den Boden berührt.

Das ist wie beim Trampolinspringen: Auf der Erde landen Sie schnell wieder. Auf dem Mond würden Sie so lange in der Luft schweben, dass Sie die Kontrolle über Ihren Körper fast verlieren könnten. Wenn Sie dann endlich landen, ist der Aufprall hart, und auf dem unebenen, kraterreichen Mondgelände ist es extrem schwierig, nicht zu stolpern.

Genau dieses Problem haben die Forscher in diesem Papier gelöst. Hier ist die Erklärung, wie sie es gemacht haben, ohne Fachchinesisch:

1. Das Gehirn des Roboters: Der "Zwei-Zeit-Manager"

Normalerweise steuern Roboter ihre Bewegungen basierend auf dem, was sie in den letzten paar Millisekunden gespürt haben. Das funktioniert auf der Erde gut. Aber auf dem Mond ist die "Luftphase" so lang, dass ein kurzer Blick in die Vergangenheit nicht ausreicht. Es ist, als würde man versuchen, ein Auto zu steuern, indem man nur auf die letzten 10 Zentimeter der Straße schaut, während man eigentlich schon 100 Meter voraussehen müsste.

Die Forscher haben dem Roboter daher ein neues Gehirn gegeben, das wir den "Dual-Horizon-Hybrid-Modell" nennen. Man kann sich das wie einen Mitarbeiter mit zwei Gehirnteilen vorstellen:

Das schnelle Gehirn (Kurzfrist): Dieses Teil schaut sich nur die letzten paar Sekunden an. Es ist wie ein Sprinter, der sofort reagiert: "Achtung! Ich lande gerade! Ich muss die Beine steif machen!" Es hilft dem Roboter, den schnellen vertikalen Aufprall zu spüren.
Das langsame Gehirn (Langfrist): Dieses Teil schaut sich eine viel längere Zeitspanne an. Es ist wie ein Kapitän, der den Kurs über den ganzen Flug beobachtet: "Wir sind noch in der Luft, aber wir bewegen uns langsam nach vorne und sinken langsam ab." Es hilft dem Roboter zu wissen, wo er sich im gesamten Sprungzyklus befindet.

Indem diese beiden Gehirnteile ihre Informationen mischen, weiß der Roboter genau, was er tun muss, egal ob er gerade abhebt, in der Luft schwebt oder landet. Er verliert nie den Überblick.

2. Der Trainer: Die "MATRIX"-Bühne

Wie trainiert man so etwas, bevor man den Roboter auf den echten Mond schickt? Man kann nicht einfach auf den Mond gehen und herumprobieren. Die Forscher haben also eine Maschine namens MATRIX gebaut.

Stellen Sie sich MATRIX wie einen hochmodernen Film-Set vor, der in einem Labor steht:

Der Schwerkraft-Trick: Der Roboter ist an einem Seil befestigt, das an einer Rolle hängt. Ein schwerer Gegenstand (ein Gewichtsblock) zieht am anderen Ende des Seils. Dieser Block zieht den Roboter so stark nach oben, dass er sich genau so leicht anfühlt, als wäre er auf dem Mond. Es ist, als würde man einen Elefanten mit einem Seil so weit entlasten, dass er sich wie eine Feder fühlt.
Der Laufband-Trick: Der Roboter läuft auf einem riesigen Laufband. Aber das ist kein normales Laufband. Es ist mit einem beweglichen Boden verbunden, der sich neigen und wackeln kann.
Der digitale Zwilling: Ein Computer (eine "digitale Welt" in Unreal Engine) simuliert die Mondoberfläche mit allen Kratern und Steinen. Wenn der Roboter auf dem Laufband läuft, schaut der Computer in die digitale Welt, berechnet, wie der Boden unter den Füßen aussieht, und bewegt den echten Boden im Labor genau so.

So kann der Roboter in einem sicheren Labor "auf dem Mond" über Krater springen, ohne dass er je das Labor verlässt.

3. Der Lernprozess: Belohnung für den richtigen Moment

Damit der Roboter lernt, nicht einfach nur zu springen, sondern gut zu springen, haben die Forscher ein spezielles Belohnungssystem entwickelt.

Stellen Sie sich vor, Sie unterrichten einen Hund. Wenn er springt, geben Sie ihm nicht einfach nur ein Leckerli. Sie geben ihm ein Leckerli nur, wenn er:

Hoch genug springt (Startphase).
In der Luft gerade bleibt und nicht wild herumwirbelt (Flugphase).
Sanft und sicher landet (Landephase).

Das System des Roboters macht genau das. Es weiß genau, in welcher Phase des Sprungs er sich befindet, und belohnt ihn nur für die richtigen Aktionen in dieser spezifischen Phase. Ohne diese "Phasen-Belohnung" würde der Roboter wild herumhüpfen und ständig stürzen.

Das Ergebnis

Am Ende haben die Forscher ihren Roboter (ein Unitree A1, der aussieht wie ein kleiner Hund) auf dieser MATRIX-Bühne getestet. Das Ergebnis war beeindruckend: Der Roboter konnte kontinuierlich über kraterreiche, unebene Mondlandschaften hüpfen, ohne hinzufallen.

Zusammenfassend:
Die Forscher haben einen Roboter entwickelt, der auf dem Mond nicht mehr stolpert. Sie haben ihm ein Gehirn gegeben, das sowohl schnell als auch geduldig denkt, und sie haben ihm in einem Labor eine künstliche Mondwelt gebaut, in der er sicher üben konnte. Es ist ein großer Schritt dafür, dass Roboter in Zukunft wirklich die Mondoberfläche erkunden können, besonders an Orten, an denen Räder (wie bei den klassischen Mondrovern) stecken bleiben würden.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Dual-Horizon Hybrid Internal Model for Low-Gravity Quadrupedal Jumping with Hardware-in-the-Loop Validation" auf Deutsch:

1. Problemstellung

Die Fortbewegung auf dem Mond und anderen Himmelskörpern mit reduzierter Schwerkraft stellt eine erhebliche Herausforderung für robotische Systeme dar. Im Gegensatz zur Erde führt die geringere Gravitationsbeschleunigung (ca. 1,62 m/s²) zu deutlich verlängerten Flugphasen und selteneren Bodenkontakten beim Springen (Pronking).

Herausforderungen: Die verlängerte Luftphase erhöht die Empfindlichkeit gegenüber Landeeinschlägen und erschwert die stabile Lageregelung über unebenem Gelände.
Limitierungen bestehender Ansätze: Bisherige Methoden konzentrieren sich oft auf einzelne Sprünge auf ebenem Untergrund oder nutzen externe Sensoren (z. B. Lidar). Es fehlt an Lösungen für kontinuierliches Springen über dreidimensionalem, rauem Mondgelände sowie an realistischer Hardware-Validierung unter simulierter Mondgravitation.
Spezifisches Problem der Zustandsabschätzung: Herkömmliche „Hybrid Internal Models" nutzen kurze Beobachtungsfenster (ca. 0,12 s), die für Erdgravitation ausreichen. Unter Mondgravitation deckt ein solches Fenster jedoch nur einen kleinen Teil des gesamten Sprungzyklus ab, was die genaue Schätzung des Zustands (insbesondere der vertikalen Geschwindigkeit und der Schwerpunkthöhe) über die lange Flugphase hinweg verhindert.

2. Methodik

Das Paper stellt einen ganzheitlichen Ansatz vor, der aus einem neuen Regelungsframework und einer Hardware-in-the-Loop (HIL) Testplattform besteht.

A. Dual-Horizon Hybrid Internal Model (Dualer Horizont-Hybrid-Interner-Modell)

Das Kernstück ist ein Reinforcement-Learning-Framework (PPO), das ausschließlich propriozeptive Sensordaten (Gelenkwinkel, Winkelgeschwindigkeiten, Beschleunigungen) nutzt. Um die langen Flugphasen zu bewältigen, wird ein Dual-Horizon-Ansatz eingeführt:

Kurzfristiger Zweig (Short-Horizon): Verarbeitet ein Fenster von 6 Zeitschritten (~0,12 s). Er modelliert die schnellen vertikalen Dynamiken und schätzt explizit die vertikale Geschwindigkeit ( $\hat{v}_z$ ), um den Sprungzustand (Abstoß, Flug, Landung) zu erkennen.
Langfristiger Zweig (Long-Horizon): Verarbeitet ein unterabgetastetes Fenster von ca. 0,9 s (15 Frames). Er erfasst langsame Trends wie die horizontale Bewegung und die Entwicklung der Schwerpunkthöhe ( $\hat{h}$ ) über den gesamten Sprungzyklus.
Fusion: Die latenten Repräsentationen beider Zweige werden fusioniert und dem Policy-Netzwerk als Eingabe hinzugefügt. Dies ermöglicht eine robuste Zustandsabschätzung ohne externe Geländesensoren.
Phase-Adaptive Gated Reward: Anstatt eines festen Zustandsautomaten werden die Belohnungsfunktionen dynamisch basierend auf der geschätzten Schwerpunkthöhe und vertikalen Geschwindigkeit aktiviert. Dies regelt spezifische Ziele für Abstoß (ausreichende Geschwindigkeit), Flug (Lageregelung) und Landung (koordinierter Aufsetz).

B. Die MATRIX-Plattform (Hardware-in-the-Loop)

Um die Algorithmen auf echter Hardware unter realistischen Bedingungen zu testen, wurde die MATRIX-Plattform (Mixed-reality Adaptive Testbed for Robotic Integrated eXploration) entwickelt:

Schwerkraft-Offloading: Ein Seilzugsystem mit Gegengewicht (2:1 Übersetzung) reduziert das effektive Gewicht des Roboters (Unitree A1) auf das 1/6-fache der Erdschwerkraft, um die Mondgravitation zu simulieren.
Gelände- und Bewegungs-Emulation: Ein 6-DoF-Stewart-Plattform mit integriertem Laufband wird in Echtzeit gesteuert.
Digital Twin: Eine Unreal Engine-Simulation (Digital Twin) berechnet basierend auf virtuellen Raycasts die Neigung des Geländes unter dem Roboter und steuert die Neigung der Stewart-Plattform sowie die Geschwindigkeit des Laufbands. Dies ermöglicht das Laufen über simuliertes, kraterreiches Mondgelände innerhalb eines begrenzten Labors.

C. Sim-to-Real-Strategien

Um die Diskrepanzen zwischen Simulation und Realität (z. B. Seilreibung, Trägheit des Gegengewichts, Seilspannungsschwankungen) zu überbrücken, wurden zwei Techniken im Training angewendet:

Gravity Domain Randomization: Zufällige Variation der Gravitationskonstante im Training.
Phase-Triggered Disturbance: Injection von Impulsstörungen während der kritischen Phasen (Abstoß/Landung), um Seilschlaff-Effekte zu simulieren.

3. Wichtige Beiträge

Neues Regelungsframework: Ein Dual-Horizon-Interner-Modell, das multi-skalare zeitliche Abhängigkeiten nutzt, um kontinuierliches Springen unter Mondgravitation nur mit propriozeptiven Daten zu ermöglichen.
MATRIX-Plattform: Entwicklung einer fortschrittlichen HIL-Testumgebung, die gleichzeitig reduzierte Schwerkraft und dynamische 3D-Geländegeometrien in Echtzeit emuliert.
Experimenteller Nachweis: Der erste erfolgreiche Nachweis von kontinuierlichem, stabilem Springen eines vierbeinigen Roboters über kraterähnlichem, unebenem Gelände unter emulierter Mondgravitation.

4. Ergebnisse

Simulationsergebnisse (Ablationsstudien)

Zustandsabschätzung: Das Dual-Horizon-Modell zeigte die geringsten Fehler (MSE) bei der Schätzung der vertikalen Geschwindigkeit und der Schwerpunkthöhe im Vergleich zu Modellen, die nur kurze oder nur lange Fenster nutzten.
Stabilität: Die Methode mit Phase-Adaptive Reward erreichte die längste Überlebenszeit (18,9 s) und die höchste Landeerfolgsrate (86,7 %) im Vergleich zu Baselines.
Bedeutung der Belohnung: Ohne die phasenadaptive Belohnung sank die Stabilität drastisch, was die Notwendigkeit einer stufenabhängigen Regelung unterstreicht.

Experimente in der Realität (MATRIX)

Robustheit: Der vorgeschlagene Ansatz (Kombination aus Domain Randomization und Störungsmodellierung) übertraf alle Ablationsvarianten (nur DR, nur PD, keine Anpassung) deutlich in Bezug auf die Überlebenszeit bei verschiedenen Laufbandgeschwindigkeiten (0,3 bis 0,7 m/s).
Gelände-Anpassung: Der Roboter konnte über vier verschiedene Geländetypen (ebene Mare-Ebenen, unebenes Gelände, hügeliges Terrain, Krater) springen.
- Bei niedrigen Geschwindigkeiten (0,3 m/s) war das System auf allen Geländen stabil.
- Die Leistung nahm mit steigender Geschwindigkeit und Gelände-Härte (insbesondere bei Kratern mit steilen Hängen) ab, blieb aber signifikant besser als bei den Baselines.
Limitierung: Die Seilbahn schränkt die Bewegung auf einen begrenzten Raum ein, und dynamische Seilspannungsschwankungen stellen weiterhin eine Störgröße dar, die nicht vollständig kompensiert werden kann.

5. Bedeutung und Ausblick

Diese Arbeit schließt eine kritische Lücke in der planetaren Robotik, indem sie zeigt, dass kontinuierliches, adaptives Springen über komplexem Gelände unter Mondgravitation ohne externe Geländesensoren möglich ist.

Wissenschaftlicher Wert: Der Nachweis, dass multi-skalare zeitliche Modelle notwendig sind, um die veränderten Dynamiken niedriger Gravitation zu erfassen.
Technologische Relevanz: Die MATRIX-Plattform bietet einen neuen Standard für die Validierung von Mond-Robotern, der über statische Flachboden-Tests hinausgeht.
Zukunft: Zukünftige Arbeiten müssen die Modellierung der Kontaktmechanik zwischen Roboter und Mondregolith (Boden) sowie die Überwindung der räumlichen Einschränkungen durch Seilsysteme adressieren.

Zusammenfassend demonstriert das Paper einen bedeutenden Fortschritt hin zu autonomen Erkundungsrobotern, die in der Lage sind, die schwierigen, unebenen Oberflächen des Mondes effizient und stabil zu navigieren.