Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einem Roboter beibringen, einen Hammer oder einen T-förmigen Klotz auf einem Tisch zu schieben, damit er genau an einem Ziel landet. Das Problem ist: Ein Roboter, der nur in einer Computersimulation trainiert wurde, ist wie ein Sportler, der nur im Schwimmbad trainiert hat. Er weiß nicht, wie sich Wasser im echten Ozean anfühlt, wenn Wellen und Strömungen dazukommen. In der Robotik nennen wir das die „Sim-to-Real"-Lücke: Was im Computer funktioniert, scheitert oft in der echten Welt, weil Objekte unterschiedlich schwer sind, sich anders bewegen oder ihre Schwerpunktverteilung (wo das Gewicht sitzt) unbekannt ist.

Die Forscher von Phys2Real haben eine clevere Lösung entwickelt, die man sich wie einen drei-Phasen-Plan vorstellen kann, um diesen Roboter zum echten Profi zu machen.

Phase 1: Der perfekte digitale Zwilling (Real-to-Sim)

Bevor der Roboter überhaupt trainiert, müssen wir eine perfekte Kopie des Objekts im Computer erstellen.

Die Analogie: Stellen Sie sich vor, Sie haben einen echten Hammer. Sie machen viele Fotos davon aus verschiedenen Winkeln. Ein KI-System (genannt „Gaussian Splatting") nimmt diese Fotos und baut daraus einen 3D-Modell-Hammer, der so aussieht wie das Original.
Der Trick: Es reicht nicht, dass der Hammer nur gut aussieht. Der Computer muss auch wissen, wie schwer er ist und wo sein Schwerpunkt liegt. Dafür nutzen die Forscher eine neue Art von 3D-Modellierung, die den Hammer „wasserdicht" macht, damit die Physik-Engine im Computer ihn realistisch berechnen kann.

Phase 2: Der Trainer mit zwei Gehirnen (RL Policy Learning)

Jetzt wird der Roboter in der Simulation trainiert. Aber er lernt nicht einfach nur „Schieben". Er lernt, sich auf die Eigenschaften des Objekts einzustellen.

Die Analogie: Stellen Sie sich einen Fußballtrainer vor, der seinem Spieler nicht nur sagt „Lauf!", sondern ihm auch sagt: „Der Ball ist heute schwerer als sonst, also tritt fester!" oder „Der Boden ist rutschig, also sei vorsichtiger."
Wie es funktioniert: Der Roboter-Algorithmus (die „Policy") wird so trainiert, dass er direkt auf physikalische Daten reagiert, wie zum Beispiel: „Wo sitzt der Schwerpunkt?" (Center of Mass).
Das Problem: Im echten Leben kennt der Roboter diese Werte am Anfang nicht. Wenn er blind loslegt, macht er Fehler.

Phase 3: Die große Zusammenarbeit (Sim-to-Real mit Unsicherheits-Management)

Das ist das Herzstück von Phys2Real. Hier kommen zwei sehr unterschiedliche „Experten" ins Spiel, die zusammenarbeiten, um den Roboter zu steuern.

Der Visionär (VLM - Vision Language Model):
- Wer ist das? Ein riesiges KI-Modell (wie ein sehr gebildeter Mensch), das Bilder sieht und versteht.
- Was tut es? Es schaut sich den Hammer an und sagt: „Hey, das sieht aus, als wäre das Gewicht oben am Kopf. Ich schätze, der Schwerpunkt liegt hier."
- Die Schwäche: Es ist nur ein Schätzwert basierend auf dem Aussehen. Es könnte falsch liegen, besonders wenn das Objekt seltsam aussieht.
Der Taster (Interaktive Anpassung / RMA):
- Wer ist das? Der Roboter selbst, der durch Berührung lernt.
- Was tut es? Sobald der Roboter den Hammer berührt und schiebt, merkt er: „Ups, der Hammer kippt anders, als ich dachte. Der Schwerpunkt muss woanders sein!" Er passt seine Schätzung live an.
- Die Schwäche: Am Anfang, bevor er den Hammer berührt hat, weiß er gar nichts. Und wenn er den Hammer kurz loslässt (keine Berührung), verliert er den Kontakt zur Realität.

Die Magie: Die „Unsicherheits-Waage"
Phys2Real verbindet diese beiden Experten auf eine geniale Weise. Es fragt nicht einfach nur einen von beiden. Es fragt: „Wer ist sich gerade sicherer?"

Szenario A (Roboter ist unsicher): Der Roboter hat den Hammer noch nicht berührt. Seine eigene Schätzung ist ein großes Fragezeichen.
- Die Entscheidung: Das System vertraut dem Visionär (VLM). „Okay, du hast das Bild gesehen, du hast die erste Idee. Wir nehmen deine Schätzung."
Szenario B (Visionär ist unsicher): Der Roboter hat den Hammer schon ein paar Mal geschoben und merkt, dass er sich seltsam verhält. Der Visionär hatte sich vielleicht geirrt.
- Die Entscheidung: Das System vertraut dem Taster (Roboter). „Du hast die Realität gerade gespürt. Deine Schätzung ist jetzt genauer."

Das System wiegt diese beiden Meinungen basierend auf ihrer „Unsicherheit" (wie sicher sind sie sich?) und mischt sie zu einer perfekten, aktuellen Schätzung zusammen.

Warum ist das so toll? (Die Ergebnisse)

In Tests mit einem T-förmigen Klotz (bei dem das Gewicht oben oder unten sein konnte) und einem echten Hammer zeigten die Ergebnisse:

Normale Roboter (nur Simulation): Scheiterten oft oder waren sehr ungenau, weil sie nicht wussten, wo das Gewicht sitzt.
Nur Visionär: War oft zu stur und ignorierte die Realität.
Nur Taster: Brauchte zu lange, um zu lernen, und machte am Anfang viele Fehler.
Phys2Real (Die Kombination):
- Bei einem schwierigen Klotz (Gewicht oben) erreichten sie 57% Erfolg, während andere nur 23% schafften.
- Bei einem Hammer waren sie 15% schneller als die Konkurrenz.
- Sie kamen fast an die Leistung heran, als würde der Roboter die genauen physikalischen Werte „magisch" kennen (was in der Realität unmöglich ist).

Zusammenfassung

Phys2Real ist wie ein Roboter, der nicht nur blind trainiert, sondern beobachtet (durch die KI, die Bilder sieht) und fühlt (durch die Interaktion). Wenn er sich unsicher ist, fragt er seinen „intelligenten Beobachter". Wenn der Beobachter unsicher ist, vertraut er auf seine eigene Erfahrung. Diese ständige, intelligente Abstimmung ermöglicht es Robotern, neue, unbekannte Objekte in der echten Welt sicher und schnell zu manipulieren, ohne stundenlanges Probieren und Fehlermachen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Phys2Real" auf Deutsch:

Titel: Phys2Real: Fusion von VLM-Priors mit interaktiver Online-Anpassung für unsicherheitsbewusste Sim-to-Real-Manipulation

1. Problemstellung

Das direkte Lernen von Roboter-Manipulationsstrategien in der realen Welt ist oft teuer und zeitaufwendig. Reinforcement Learning (RL) in der Simulation bietet eine skalierbare Alternative, doch der Transfer von der Simulation zur Realität („Sim-to-Real") bleibt eine große Herausforderung, insbesondere bei Aufgaben, die präzise physikalische Dynamiken erfordern.

Herausforderung: Roboter müssen sich an variierende Objekteigenschaften (Reibung, Massenverteilung, Schwerpunkt) anpassen, die schwer exakt zu modellieren sind.
Limitierung bestehender Ansätze:
- Domain Randomization (DR): Trainiert robuste Strategien über einen randomisierten Parameterraum, führt aber oft zu „durchschnittlichem" Verhalten, das nicht auf spezifische Objekteigenschaften reagiert.
- System-Identifikation: Oft manuell oder statisch, ohne Anpassungsfähigkeit an neue Bedingungen während des Betriebs.
- Fehlende physikalische Begründung: Viele Methoden nutzen keine physikalisch interpretierbaren Parameter, sondern lernen latente Repräsentationen, die schwer mit externen Vorwissen (Priors) zu kombinieren sind.

2. Methodik: Der Phys2Real-Ansatz

Phys2Real ist eine Pipeline im Stil „Real-to-Sim-to-Real", die drei Kernkomponenten integriert, um eine adaptive Manipulation zu ermöglichen:

A. Real-to-Sim: Geometrische Rekonstruktion (Digitale Zwillinge)

Für Objekte ohne vordefinierte 3D-Modelle wird eine Pipeline entwickelt, um aus Videobildern simulationsbereite Assets zu erstellen.
Prozess:
1. Segmentierung des Zielobjekts mittels SAM-2.
2. Training eines 3D Gaussian Splatting (GSplat) Modells auf den Vordergrundbildern.
3. Extraktion eines wasserdichten Meshes mittels SuGaR (Surface-Aligned Gaussian Splatting).
4. Bereinigung des Meshes durch Spiegelung über Symmetrieachsen und Anwendung des Marching Cubes-Algorithmus.
Das Ergebnis ist ein hochpräziser digitaler Zwilling, der geometrisch korrekt ist und als Basis für das Simulations-Training dient.

B. Physik-konditioniertes Policy-Lernen (Simulation)

Anstatt nur latente Vektoren zu lernen, wird die RL-Policy explizit auf interpretierbare physikalische Parameter (z. B. Schwerpunkt/Center of Mass - CoM) konditioniert.
Trainingsphasen (inspiriert von Rapid Motor Adaptation - RMA):
1. Phase 1: Training der Policy mit Ground-Truth-Parametern aus der Simulation.
2. Phase 1.5 (Optional): Feinabstimmung der Policy mit verrauschten Parametern, um Robustheit gegenüber Schätzfehlern zu erhöhen.
3. Phase 2: Training eines Ensembles von $M$ Adaptionsmodellen. Diese Modelle lernen, physikalische Parameter aus der Historie von Beobachtungen und Aktionen vorherzusagen.
Unsicherheitsquantifizierung: Das Ensemble liefert nicht nur eine Schätzung ( $\theta_{rma}$ $θ_{r ma}$ ), sondern auch eine Unsicherheit, aufgeteilt in:
- Epistemische Unsicherheit: Varianz zwischen den Ensemble-Mitgliedern (Modellunsicherheit).
- Aleatorische Unsicherheit: Varianz innerhalb der Vorhersagen (Datenrauschen).

C. Sim-to-Real Transfer: Unsicherheitsbewusste Fusion
Dies ist der Kerninnovationsschritt. Die Methode kombiniert zwei Informationsquellen zur Schätzung physikalischer Parameter in Echtzeit:

VLM-Prior (Vision-Language Model): Ein VLM (hier GPT-5) analysiert Bilder des Objekts und schätzt den Schwerpunkt sowie eine Unsicherheit ( $\sigma_{vlm}$ ) basierend auf visueller Erscheinung, Volumenverteilung und Material.
Interaktionsbasierte Schätzung (RMA): Das Adaptions-Ensemble schätzt Parameter basierend auf der Interaktionshistorie des Roboters.

Fusionsmechanismus:
Die Schätzungen werden mittels Inverse-Variance-Weighting fusioniert:
$\hat{\theta} = \frac{\theta_{vlm}/\sigma_{vlm}^2 + \theta_{rma}/\sigma_{rma}^2}{1/\sigma_{vlm}^2 + 1/\sigma_{rma}^2}$

Logik: Wenn die Interaktionshistorie uninformiert ist (hohe $\sigma_{rma}$ , z. B. bei seltenen Kontakten), verlässt sich das System stärker auf den VLM-Prior. Wenn der VLM unsicher ist (z. B. bei schlechter Sicht), verlässt es sich stärker auf die Interaktionsdaten. Dies ermöglicht eine robuste Anpassung auch bei intermittierenden Kontakten.

3. Schlüsselbeiträge

Unsicherheitsbewusste Fusion: Erste Anwendung von VLMs zur Schätzung physikalischer Parameter für die Echtzeit-Regelung (Low-Level Control), kombiniert mit interaktiver Anpassung durch Unsicherheitsgewichtung.
Ensemble-basierte Unsicherheitsquantifizierung: Zerlegung der Unsicherheit in epistemische und aleatorische Komponenten für die Interaktionsschätzung, was eine präzise Fusion mit VLM-Priors ermöglicht.
Physikalisch informierte Digitale Zwillinge: Kombination von 3D-GSplatting-Rekonstruktion mit Online-Schätzung physikalischer Eigenschaften, was einen starken Sim-to-Real-Transfer über rein visuelle oder rein adaptive Ansätze hinaus ermöglicht.
Interpretierbare Konditionierung: Policies werden direkt auf physikalische Parameter konditioniert, was eine direkte Kombination mit VLM-Vorhersagen erlaubt, im Gegensatz zu latenten Räumen.

4. Ergebnisse

Die Methode wurde an einem 6-DOF-UFactory-xArm-Roboter auf zwei Aufgaben getestet:

Aufgabe 1: T-Block-Schieben (Variabler Schwerpunkt durch Gewichte oben/unten).
Aufgabe 2: Hammer-Schieben (Exzentrische Massenverteilung, rekonstruiert aus realen Bildern).

Vergleich mit Baselines (DR, Diffusion Policy, RMA-only, VLM-only):

T-Block (Gewicht unten):
- Phys2Real: 100% Erfolgsrate.
- DR (Domain Randomization): 79%.
- RMA-only: 79%.
- Ergebnis: Phys2Real erreicht die Leistung eines privilegierten Oracles (Ground Truth), ohne Ground Truth zu benötigen.
T-Block (Gewicht oben – herausforderndere Dynamik):
- Phys2Real: 57,14% Erfolgsrate.
- DR: 23,81%.
- RMA-only: 14,29%.
- VLM-only: 4,76%.
- Ergebnis: Nur die Kombination beider Quellen (VLM + Interaktion) führt zu signifikanten Erfolgen. Alle anderen Methoden scheitern oft.
Hammer-Schieben:
- Beide Methoden (Phys2Real und DR) erreichen 100% Erfolgsrate.
- Effizienz: Phys2Real ist 15% schneller (77,79s vs. 90,65s) bei der Aufgabenerfüllung, was auf effizientere Trajektorien durch bessere Parameterschätzung hindeutet.
Ablationsstudien: Zeigten, dass weder VLM noch Interaktion allein ausreichen. Die Fusion ist essenziell, besonders wenn die Interaktionshistorie zu Beginn uninformiert ist oder der VLM-Prior fehlerhaft ist.

5. Bedeutung und Ausblick

Phys2Real stellt einen Paradigmenwechsel dar, der die semantischen Fähigkeiten von Foundation Models (VLMs) mit der physikalischen Verankerung durch reale Interaktion verbindet.

Bedeutung: Es demonstriert, dass Roboter durch die Nutzung von VLM-Priors und deren dynamische Anpassung an Interaktionsdaten Objekte mit unbekannten physikalischen Eigenschaften effektiv manipulieren können, ohne auf Ground-Truth-Daten angewiesen zu sein.
Zukunft: Die Autoren sehen Potenzial in der Erweiterung auf mehrere physikalische Parameter (Reibung, Steifigkeit), die Anwendung auf asymmetrische und deformierbare Objekte sowie die Integration in Vision-Language-Action (VLA) Modelle für allgemeinere robotische Systeme.

Zusammenfassend bietet Phys2Real einen robusten Rahmen, um die Lücke zwischen Simulation und Realität zu schließen, indem es Unsicherheit explizit modelliert und visuelle Intelligenz mit physischer Erfahrung fusioniert.

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Phase 1: Der perfekte digitale Zwilling (Real-to-Sim)

Phase 2: Der Trainer mit zwei Gehirnen (RL Policy Learning)

Phase 3: Die große Zusammenarbeit (Sim-to-Real mit Unsicherheits-Management)

Warum ist das so toll? (Die Ergebnisse)

Zusammenfassung

Titel: Phys2Real: Fusion von VLM-Priors mit interaktiver Online-Anpassung für unsicherheitsbewusste Sim-to-Real-Manipulation

1. Problemstellung

2. Methodik: Der Phys2Real-Ansatz

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA