Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een hamer of een T-vormig blokje over een tafel te duwen. Dit klinkt simpel, maar voor een robot is het een enorme uitdaging. Waarom? Omdat elke hamer anders is. Sommige hamers zijn zwaar aan het hoofd, andere aan het handvat. Als de robot niet precies weet waar het zwaartepunt zit, kan hij de hamer laten vallen of hem de verkeerde kant op duwen.

Normaal gesproken trainen robot-onderzoekers hun robots in een virtuele wereld (een simulator). Maar daar is alles perfect voorspelbaar. Als je die robot dan naar de echte wereld stuurt, faalt hij vaak omdat de echte wereld chaotisch is en de objecten anders voelen dan in de computer.

De auteurs van dit paper, Phys2Real, hebben een slimme oplossing bedacht die werkt als een drie-staps recept om deze robot tot een meester te maken. Laten we het uitleggen met een verhaal over een vrijwillige kok die een nieuwe taart moet bakken.

Stap 1: De perfecte foto maken (Real-to-Sim)

Stel, je hebt een nieuwe, vreemd gevormde taart in je keuken, maar je hebt geen recept en geen blauwdruk. Je wilt deze taart in een computerspelletje nabootsen om te oefenen.

Wat doen ze? Ze nemen een video van het object (de taart of hamer) en gebruiken een slimme camera-techniek (3D Gaussian Splatting) om er een perfecte, waterdichte 3D-modellen van te maken.
De analogie: Het is alsof je een 3D-scanner gebruikt om een foto van de taart te maken en die omzet in een digitaal model dat je in de computer kunt gebruiken. Zonder dit zou de robot in een leeg, lelijk virtueel landschap moeten oefenen.

Stap 2: De robot leren "voelen" (Policy Learning)

Nu de robot in de computer kan oefenen, moeten we hem leren hoe hij moet duwen.

Wat doen ze? Ze trainen de robot niet zomaar, maar geven hem een speciale "gevoelszintuig". Ze leren de robot dat hij moet weten: "Waar zit het zwaartepunt?" (bijvoorbeeld: is het zwaar aan de bovenkant of onderkant?).
De analogie: Stel je voor dat je een kok leert koken. In plaats van hem te laten proberen en fouten maken tot hij het toevallig goed doet (wat lang duurt), geef je hem een gevoel voor de zwaartekracht. Je zegt: "Als de taart zwaar is aan de bovenkant, moet je voorzichtig duwen." De robot leert in de simulator hoe hij zich moet aanpassen aan verschillende zwaartepunten.

Stap 3: De slimme combinatie (Sim-to-Real met VLM en Adaptatie)

Dit is het magische deel. De robot gaat de echte wereld in. Hij ziet de taart, maar hij weet nog niet precies hoe zwaar hij is. Hoe lost hij dit op?

De robot gebruikt twee bronnen van informatie, net als een mens die een nieuw object aanraakt:

De "Visuele Gok" (De VLM):
De robot kijkt naar de taart en vraagt een AI-expert (een Vision-Language Model, zoals een super-intelligente chatbot die ook kan zien): "Kijk naar deze taart. Waar denk je dat het zwaartepunt zit?"
- De analogie: Dit is alsof je naar een taart kijkt en zegt: "Die ziet er zwaar uit aan de bovenkant, dus ik gok dat het zwaartepunt daar zit." De AI geeft een schatting, maar ook een waarschuwing: "Ik ben niet 100% zeker, ik heb een foutmarge."
De "Proef-voel" Methode (Interactie):
De robot duwt de taart een beetje. Als de taart anders reageert dan verwacht, past de robot zijn schatting aan.
- De analogie: Je duwt de taart een klein beetje. Als hij zwaarder aanvoelt dan je dacht, denk je: "Ah, mijn gok was fout, hij is zwaarder dan ik dacht."

De Slimme Fusie (Uncertainty-Aware Fusion):
Hier komt de genialiteit van Phys2Real. De robot combineert deze twee informatiebronnen op een slimme manier:

Als de robot niet zeker is van zijn eigen proef-voel-gevoel (bijvoorbeeld omdat hij nog niet veel heeft geduwd), luistert hij meer naar de AI-expert.
Als de robot veel heeft geduwd en weet precies hoe de taart beweegt, dan vertraagt hij de AI-expert en vertrouwt hij op zijn eigen ervaring.

Het is alsof je een combinatie van een visueel genie en een ervaren hand hebt. Als je niet zeker bent, luister je naar de expert. Als je ervaring hebt, luister je naar je eigen gevoel.

Wat is het resultaat?

In de experimenten hebben ze getest met een T-vormig blokje en een hamer.

Zonder deze truc: De robot faalt vaak (slechts 23% tot 79% succes).
Met Phys2Real: De robot slaagt bijna altijd (tot 100% succes!) en is ook sneller.

Kortom:
Phys2Real is een systeem dat robots leert om niet blindelings te vertrouwen op wat ze in de computer hebben geleerd, maar om samen te werken met een slimme AI-expert (die naar het object kijkt) en hun eigen ervaring (door te duwen en voelen). Door deze twee bronnen slim te mixen, kunnen robots nieuwe, onbekende objecten veel beter en sneller manipuleren dan ooit tevoren. Het is de brug tussen "kijken" en "doen".

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation" in het Nederlands.

Probleemstelling

Het overbrengen van robotmanipulatiebeleid dat in simulatie is getraind naar de echte wereld (sim-to-real) blijft een fundamentele uitdaging, vooral voor taken die nauwkeurige dynamica vereisen. Robots moeten zich aanpassen aan variërende objecteigenschappen zoals wrijving, massaverdeling en compliance.

Beperkingen van bestaande methoden: De dominante aanpak, Domain Randomization (DR), traint beleid dat robuust is voor een breed scala aan parameters, maar neigt naar "gemiddeld" gedrag dat niet optimaal presteert voor specifieke objectvarianten.
Het specifieke probleem: Bestaande online adaptatiemethoden (zoals Rapid Motor Adaptation - RMA) vertrouwen op interactiegeschiedenis om parameters te schatten. Bij niet-greepbare manipulatie (zoals duwen) zijn contactmomenten echter vaak onderbroken, wat leidt tot oninformatieve geschiedenissen en slechte schattingen.
De kernvraag: Kan het combineren van visueel-fysisch redeneren (via Vision-Language Models) met interactief leren de prestaties van robots in de echte wereld verbeteren?

Methodologie: Phys2Real

Phys2Real is een "Real-to-Sim-to-Real" pijplijn die drie fasen omvat om een adaptief beleid te creëren dat fysieke parameters schat en gebruikt voor controle.

1. Real-to-Sim: Hoge-fideliteit Geometrische Reconstructie

Om realistische simulaties te creëren zonder handmatige modellering:

Er wordt een video van het object opgenomen.
Het object wordt gesegmenteerd met SAM-2.
Een 3D Gaussian Splatting (GSplat) model wordt getraind op de voorgrondafbeeldingen.
Met SuGaR wordt een oppervlak-gealigneerd, waterdicht mesh geëxtraheerd.
Dit resulteert in een digitale tweeling die zowel geometrisch nauwkeurig is als klaar voor simulatie.

2. Beleidstraining in Simulatie (Physics-Conditioned)

In plaats van een beleid te trainen dat robuust is voor alle mogelijke scenario's (zoals bij DR), wordt het beleid expliciet geconditioneerd op interpreteerbare fysieke parameters (bijv. zwaartepunt/CoM). De training verloopt in drie fases:

Fase 1: Het beleid wordt getraind met ground truth fysieke parameters (beschikbaar in simulatie).
Fase 1.5 (Optioneel): Het beleid wordt fijn afgestemd met ruis toegevoegd aan de parameters om robuustheid te creëren tegen onnauwkeurige schattingen tijdens de implementatie.
Fase 2: Een ensemble van adaptatiemodellen (gebaseerd op RMA) wordt getraind om fysieke parameters te voorspellen op basis van een geschiedenis van waarnemingen en acties. Dit ensemble levert zowel een schatting als een maat voor epistemische onzekerheid (modeldisagreement) en aleatorische onzekerheid (ruis in data).

3. Sim-to-Real Transfer: Uncertainty-Aware Fusie

Tijdens de implementatie in de echte wereld worden twee bronnen van informatie gecombineerd:

VLM Priors: Een Vision-Language Model (GPT-5) analyseert afbeeldingen van het object en schat fysieke parameters (zoals CoM) inclusief een onzekerheidsschatting ( $\sigma_{vlm}$ ).
Interactie-gebaseerde Schattingen: Het adaptatie-ensemble schat parameters op basis van robotinteracties ( $\theta_{rma}, \sigma_{rma}$ ).

Fusiemechanisme:
De twee schattingen worden gecombineerd via inverse-variance weighting. Als de interactie-gegevens onzeker zijn (hoge $\sigma_{rma}$ ), wordt er meer vertrouwen in de VLM-schatting. Als de VLM onzeker is, wordt er meer vertrouwen in de interactie-gegevens.
De gefuseerde schatting $\hat{\theta}$ wordt berekend als:
$\hat{\theta} = \frac{\theta_{vlm}/\sigma_{vlm}^2 + \theta_{rma}/\sigma_{rma}^2}{1/\sigma_{vlm}^2 + 1/\sigma_{rma}^2}$
Deze gefuseerde waarde wordt gebruikt om het beleid te conditioneren tijdens de uitvoering.

Belangrijkste Bijdragen

Uncertainty-Aware Fusie: Een nieuwe methode om VLM-priors te combineren met interactieve adaptatie via onzekerheidsgebaseerde weging, wat het probleem van onderbroken contactmomenten oplost.
Interpreteerbare Parameters: In plaats van verborgen latenten te gebruiken (zoals bij standaard RMA), conditioneert Phys2Real direct op fysiek interpreteerbare parameters (zoals CoM), wat directe integratie met VLM-schattingen mogelijk maakt.
Fysisch Informatieve Digitale Twins: Een pijplijn die 3D Gaussian Splatting combineert met online fysische eigenschapsschatting voor superieure sim-to-real transfer.

Resultaten

De methode werd getest op twee taken: duwen van een T-blok (met variërend zwaartepunt) en duwen van een hamer.

T-blok (Zwaar gewicht bovenaan - uitdagend):
- Phys2Real: 57,14% succes.
- Domain Randomization (DR): 23,81% succes.
- Alleen VLM: 4,76% succes.
- Alleen RMA: 14,29% succes.
- Conclusie: Alleen de combinatie werkt; beide bronnen zijn essentieel.
T-blok (Zwaar gewicht onderaan - makkelijker):
- Phys2Real: 100% succes (vergelijkbaar met het "orakel" beleid dat ground truth parameters kent).
- DR: 79,17% succes.
Hamer Duwen:
- Beide Phys2Real en DR bereikten 100% succes, maar Phys2Real was 15% sneller in het voltooien van de taak (gemiddeld 77,79s vs 90,65s), wat wijst op efficiëntere trajecten.

Betekenis en Conclusie

Phys2Real vertegenwoordigt een verschuiving in paradigma voor robotmanipulatie. Het bewijst dat foundation modellen (VLMs) waardevolle fysieke priors bevatten die kunnen worden verfijnd door interactie. Door deze visuele kennis te combineren met online adaptatie via een onzekerheidsbewuste fusie, kunnen robots beter omgaan met nieuwe objecten zonder uitgebreide training in de echte wereld. De methode overtreft traditionele Domain Randomization aanzienlijk, vooral in uitdagende scenario's met complexe dynamica, en opent de weg naar meer adaptieve en algemene robotsystemen.

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Stap 1: De perfecte foto maken (Real-to-Sim)

Stap 2: De robot leren "voelen" (Policy Learning)

Stap 3: De slimme combinatie (Sim-to-Real met VLM en Adaptatie)

Wat is het resultaat?

Probleemstelling

Methodologie: Phys2Real

1. Real-to-Sim: Hoge-fideliteit Geometrische Reconstructie

2. Beleidstraining in Simulatie (Physics-Conditioned)

3. Sim-to-Real Transfer: Uncertainty-Aware Fusie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA