Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Die Arbeit stellt Phys2Real vor, einen Sim-to-Real-RL-Ansatz, der VLM-basierte Schätzungen physikalischer Parameter mit unsicherheitsbewusster, interaktiver Online-Anpassung kombiniert, um die Robustheit und Effizienz robotischer Manipulationsaufgaben in der realen Welt zu verbessern.

Maggie Wang, Stephen Tian, Aiden Swann, Ola Shorinwa, Jiajun Wu, Mac Schwager

Veröffentlicht 2026-03-09
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einem Roboter beibringen, einen Hammer oder einen T-förmigen Klotz auf einem Tisch zu schieben, damit er genau an einem Ziel landet. Das Problem ist: Ein Roboter, der nur in einer Computersimulation trainiert wurde, ist wie ein Sportler, der nur im Schwimmbad trainiert hat. Er weiß nicht, wie sich Wasser im echten Ozean anfühlt, wenn Wellen und Strömungen dazukommen. In der Robotik nennen wir das die „Sim-to-Real"-Lücke: Was im Computer funktioniert, scheitert oft in der echten Welt, weil Objekte unterschiedlich schwer sind, sich anders bewegen oder ihre Schwerpunktverteilung (wo das Gewicht sitzt) unbekannt ist.

Die Forscher von Phys2Real haben eine clevere Lösung entwickelt, die man sich wie einen drei-Phasen-Plan vorstellen kann, um diesen Roboter zum echten Profi zu machen.

Phase 1: Der perfekte digitale Zwilling (Real-to-Sim)

Bevor der Roboter überhaupt trainiert, müssen wir eine perfekte Kopie des Objekts im Computer erstellen.

  • Die Analogie: Stellen Sie sich vor, Sie haben einen echten Hammer. Sie machen viele Fotos davon aus verschiedenen Winkeln. Ein KI-System (genannt „Gaussian Splatting") nimmt diese Fotos und baut daraus einen 3D-Modell-Hammer, der so aussieht wie das Original.
  • Der Trick: Es reicht nicht, dass der Hammer nur gut aussieht. Der Computer muss auch wissen, wie schwer er ist und wo sein Schwerpunkt liegt. Dafür nutzen die Forscher eine neue Art von 3D-Modellierung, die den Hammer „wasserdicht" macht, damit die Physik-Engine im Computer ihn realistisch berechnen kann.

Phase 2: Der Trainer mit zwei Gehirnen (RL Policy Learning)

Jetzt wird der Roboter in der Simulation trainiert. Aber er lernt nicht einfach nur „Schieben". Er lernt, sich auf die Eigenschaften des Objekts einzustellen.

  • Die Analogie: Stellen Sie sich einen Fußballtrainer vor, der seinem Spieler nicht nur sagt „Lauf!", sondern ihm auch sagt: „Der Ball ist heute schwerer als sonst, also tritt fester!" oder „Der Boden ist rutschig, also sei vorsichtiger."
  • Wie es funktioniert: Der Roboter-Algorithmus (die „Policy") wird so trainiert, dass er direkt auf physikalische Daten reagiert, wie zum Beispiel: „Wo sitzt der Schwerpunkt?" (Center of Mass).
  • Das Problem: Im echten Leben kennt der Roboter diese Werte am Anfang nicht. Wenn er blind loslegt, macht er Fehler.

Phase 3: Die große Zusammenarbeit (Sim-to-Real mit Unsicherheits-Management)

Das ist das Herzstück von Phys2Real. Hier kommen zwei sehr unterschiedliche „Experten" ins Spiel, die zusammenarbeiten, um den Roboter zu steuern.

  1. Der Visionär (VLM - Vision Language Model):

    • Wer ist das? Ein riesiges KI-Modell (wie ein sehr gebildeter Mensch), das Bilder sieht und versteht.
    • Was tut es? Es schaut sich den Hammer an und sagt: „Hey, das sieht aus, als wäre das Gewicht oben am Kopf. Ich schätze, der Schwerpunkt liegt hier."
    • Die Schwäche: Es ist nur ein Schätzwert basierend auf dem Aussehen. Es könnte falsch liegen, besonders wenn das Objekt seltsam aussieht.
  2. Der Taster (Interaktive Anpassung / RMA):

    • Wer ist das? Der Roboter selbst, der durch Berührung lernt.
    • Was tut es? Sobald der Roboter den Hammer berührt und schiebt, merkt er: „Ups, der Hammer kippt anders, als ich dachte. Der Schwerpunkt muss woanders sein!" Er passt seine Schätzung live an.
    • Die Schwäche: Am Anfang, bevor er den Hammer berührt hat, weiß er gar nichts. Und wenn er den Hammer kurz loslässt (keine Berührung), verliert er den Kontakt zur Realität.

Die Magie: Die „Unsicherheits-Waage"
Phys2Real verbindet diese beiden Experten auf eine geniale Weise. Es fragt nicht einfach nur einen von beiden. Es fragt: „Wer ist sich gerade sicherer?"

  • Szenario A (Roboter ist unsicher): Der Roboter hat den Hammer noch nicht berührt. Seine eigene Schätzung ist ein großes Fragezeichen.
    • Die Entscheidung: Das System vertraut dem Visionär (VLM). „Okay, du hast das Bild gesehen, du hast die erste Idee. Wir nehmen deine Schätzung."
  • Szenario B (Visionär ist unsicher): Der Roboter hat den Hammer schon ein paar Mal geschoben und merkt, dass er sich seltsam verhält. Der Visionär hatte sich vielleicht geirrt.
    • Die Entscheidung: Das System vertraut dem Taster (Roboter). „Du hast die Realität gerade gespürt. Deine Schätzung ist jetzt genauer."

Das System wiegt diese beiden Meinungen basierend auf ihrer „Unsicherheit" (wie sicher sind sie sich?) und mischt sie zu einer perfekten, aktuellen Schätzung zusammen.

Warum ist das so toll? (Die Ergebnisse)

In Tests mit einem T-förmigen Klotz (bei dem das Gewicht oben oder unten sein konnte) und einem echten Hammer zeigten die Ergebnisse:

  • Normale Roboter (nur Simulation): Scheiterten oft oder waren sehr ungenau, weil sie nicht wussten, wo das Gewicht sitzt.
  • Nur Visionär: War oft zu stur und ignorierte die Realität.
  • Nur Taster: Brauchte zu lange, um zu lernen, und machte am Anfang viele Fehler.
  • Phys2Real (Die Kombination):
    • Bei einem schwierigen Klotz (Gewicht oben) erreichten sie 57% Erfolg, während andere nur 23% schafften.
    • Bei einem Hammer waren sie 15% schneller als die Konkurrenz.
    • Sie kamen fast an die Leistung heran, als würde der Roboter die genauen physikalischen Werte „magisch" kennen (was in der Realität unmöglich ist).

Zusammenfassung

Phys2Real ist wie ein Roboter, der nicht nur blind trainiert, sondern beobachtet (durch die KI, die Bilder sieht) und fühlt (durch die Interaktion). Wenn er sich unsicher ist, fragt er seinen „intelligenten Beobachter". Wenn der Beobachter unsicher ist, vertraut er auf seine eigene Erfahrung. Diese ständige, intelligente Abstimmung ermöglicht es Robotern, neue, unbekannte Objekte in der echten Welt sicher und schnell zu manipulieren, ohne stundenlanges Probieren und Fehlermachen.