PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een lastige taak uit te voeren, zoals het inpluggen van een lader in een stopcontact of het vegen van een bord. Dit klinkt simpel, maar voor een robot is het een nachtmerrie. Waarom? Omdat robots vaak "blind" zijn voor het gevoel van aanraking. Ze zien dat de lader er is, maar ze weten niet of hij vastzit, of dat hij scheef zit, of dat hij net de rand raakt.

Deze paper introduceert PhaForce, een slimme manier om robots te leren om niet alleen te kijken, maar ook te voelen en te reageren op het juiste moment.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Blinde" Robot

Stel je een robot voor die probeert een sleutel in een slot te steken.

De oude manier: De robot kijkt naar de camera, denkt "Ah, ik zie het slot!" en stuurt dan een bevel: "Draai je hand 5 graden naar links." Maar dit gebeurt langzaam. Tussen het kijken en het bewegen zit een kleine vertraging. Als de robot tegen de rand van het slot stoot, merkt hij dat pas te laat. Het resultaat? De robot blijft vastzitten of duwt te hard.
Het dilemma: Robots kunnen niet continu en snel nadenken (dat kost te veel rekenkracht), maar ze moeten wel snel reageren als ze iets voelen.

2. De Oplossing: PhaForce (De "Twee-Geest" Robot)

PhaForce lost dit op door de robot te splitsen in twee denkprocessen die samenwerken, net als een ervaren vakman met een assistent.

De "Trage Planner" (De Chef)

Wat doet hij? Hij kijkt naar de camera en de geschiedenis van krachten, en denkt na over het grote plaatje. "Oké, we zijn bij het stopcontact. Nu moeten we zoeken, dan passen, dan duwen."
Hoe vaak denkt hij na? Soms (bijvoorbeeld 6 keer per seconde). Hij maakt een "chunk" (een blokje) van bewegingen vooruit.
Het geheim: Hij gebruikt een dubbele poort. Hij laat kracht-sensoren alleen toe als het echt nodig is. Als de robot in de lucht zweeft (geen contact), negeert hij de trillingen van de motor. Zodra hij voelt dat hij raakt, schakelt hij de kracht-sensoren in.
Analogie: Dit is als een chef-kok die het recept schrijft. Hij zegt: "Nu bakken we de kip." Hij schrijft niet elke seconde een nieuwe instructie, maar geeft een plan voor de hele stap.

De "Snelle Corrector" (De Assistent)

Wat doet hij? Hij kijkt niet naar de camera, maar alleen naar de krachtmeters. Hij is hyper-alert.
Hoe vaak denkt hij na? Super snel (24 keer per seconde of meer).
Het geheim: Hij weet precies wanneer hij mag ingrijpen. Als de robot in de "zoek-fase" zit, mag hij alleen zijwaarts bewegen om het gat te vinden. Als de robot in de "duw-fase" zit, mag hij alleen naar beneden duwen. Hij doet niet zomaar wat; hij volgt een strakke regeling.
Analogie: Dit is de assistent die de kok helpt. Als de kip begint te verbranden (te veel kracht), grijpt de assistent direct in en draait de hitte lager, zonder dat de chef hoeft op te kijken. Als de kip nog niet gaar is, doet de assistent niets.

3. De "Fase-Bewust" Sensor (De Verkeersregelaar)

Het allerbelangrijkste nieuwe idee in deze paper is de Fase-voorspeller.
Stel je voor dat je een auto bestuurt. Je hebt andere regels als je op de snelweg zit dan als je in een parkeergarage rijdt.

De oude robots: Gebruikten kracht-sensoren altijd en overal. Dat is alsof je op de snelweg remt alsof je in een parkeergarage zit. Dat werkt niet.
PhaForce: Heeft een interne klok die zegt: "We zijn nu in de 'zoek-fase'." In deze fase mag de robot zijwaarts bewegen om het gat te vinden. Zodra de robot het gat vindt, schakelt de klok om naar de 'duw-fase'. Nu mag hij alleen nog maar naar beneden duwen.
Waarom is dit cool? Het voorkomt dat de robot in de verkeerde richting duwt. Als hij vastzit, probeert hij niet harder te duwen (wat het probleem verergert), maar trekt hij zich terug en probeert hij het opnieuw.

4. Wat levert dit op?

De onderzoekers hebben dit getest op echte robots met taken zoals:

Een lader inpluggen (waarbij de robot moet zoeken en niet vast moet komen te zitten).
Een lade openen (waarbij de robot moet voelen of de lade vastzit en dan voorzichtig moet trekken).
Een bord vegen (waarbij de robot precies de juiste druk moet houden: niet te hard, niet te zacht).

De resultaten:

De robots met PhaForce waren veel succesvoller (86% succes) dan de oude robots (slechts 38% succes).
Ze waren beter in het aanpassen aan onverwachte situaties (bijvoorbeeld als het bord iets hoger staat dan verwacht).
Ze deden de taken rustiger en met de juiste kracht, waardoor ze minder schade aanrichtten.

Samenvatting in één zin

PhaForce is als het geven van een robot een intuïtie: hij weet niet alleen wat hij moet doen (kijken), maar ook wanneer hij moet voelen en hoe hij moet reageren op basis van de situatie, net als een mens die een lastig puzzelstukje in een doos past zonder er te hard op te duwen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "PhaForce: Phase-Scheduled Visual–Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation" in het Nederlands.

1. Het Probleem

Contactrijke manipulatie (zoals het invoeren van een stekker, het openen van een lade of het wissen van een bord) vereist niet alleen visuele semantiek, maar ook gesloten-lus reacties op krachten en momenten (F/T). Bestaande generatieve visuele motorische beleidsmodellen (zoals Diffusion Policies en VLA-modellen) hebben echter twee fundamentele beperkingen:

Tijdschaal-mismatch (Gap-1): Generatieve beleidsmodellen werken vaak met lage frequenties (door inferentielatentie en "action chunking"). Krachtsensoren leveren echter snelle feedback voor korte-termijn transiënten (zoals stick-slip of micro-impacts). Als kracht alleen op het lage update-tijdstip van de actie-chunk wordt gebruikt, worden deze kritieke transiënten gemist.
Gebrek aan fase-scheduling (Gap-2): Bestaande methoden voegen kracht vaak continu en indiscriminatie toe. Contactrijke taken zijn echter inherent multi-fasig (bijv. zoeken, invoeren, vastlopen). Verschillende fasen vereisen orthogonale of zelfs wederzijds uitsluitende correctieruimtes. Zonder een expliciete planning van wanneer, hoeveel en waar kracht moet worden gebruikt, kunnen snelle correcties leiden tot ongewenste gedragingen zoals vastlopen of misalignement.

2. Methodologie: PhaForce

PhaForce is een beleidsarchitectuur die een fase-geschedueld slow-fast systeem combineert. Het coördineert laag-frequentie planning met hoog-frequentie correctie via een uniek contact/fase-schema.

De architectuur bestaat uit drie hoofdcomponenten:

A. Contact-Aware Phase Predictor (CAP)

Dit is een lichtgewicht module die op de controle-frequentie ( $f_c$ ) draait en twee signalen voorspelt:

Contactwaarschijnlijkheid ( $p_c$ ): Een continue waarde die aangeeft of contact binnen de komende stappen waarschijnlijk is.
Fase-bewering ( $p_t$ ): Een zachte verdeling over $K$ taakspecifieke fasen (bijv. benaderen, zoeken, invoeren, herstellen).
Training: De CAP wordt getraind op anticipatie (toekomstige contacten) in plaats van momentane oordelen, gebruikmakend van wrench-signalen en TCP-posities voor automatische labelgeneratie.

B. Slow Diffusion Planner

Deze module draait op een lage frequentie ( $f_s$ ) en genereert actie-chunks (nominaal gedrag).

Dual-Gated Fusion: Visuele en krachtkenmerken worden samengevoegd via multi-head cross-attention.
- Een globale injectie-poort ( $p_c$ ) onderdrukt ruis in de vrije ruimte (wanneer er geen contact is).
- Een fase-afhankelijke poort ( $p_t$ ) bepaalt welke attention-heads worden benadrukt op basis van de huidige fase.
Orthogonale Residuale Injectie (ORI): In plaats van visuele kenmerken te overschrijven, wordt de krachtinformatie als een residu toegevoegd dat orthogonaal is op de visuele token. Dit behoudt de visuele taaksemantiek en voorkomt "semantic drift".

C. Fast Residual Corrector

Deze module draait op de hoge controle-frequentie ( $f_c$ ) en voert micro-aanpassingen uit binnen de gegenereerde actie-chunk.

Fase-Gerouteerde Correctieruimtes: Voor elke fase zijn specifieke correctieruimtes gedefinieerd (bijv. tijdens het zoeken in een gat: correctie in $x, y, yaw$ ; tijdens invoeren: correctie in $z$ ). De fase-bewering ( $p_t$ ) routet zachtjes de residuen naar de juiste kanalen.
Fysiek-gebaseerde Supervisie: De corrector wordt getraind om een "virtuele doel-pose" te volgen die voortkomt uit krachtfedback (bijv. het verminderen van wrijving of het handhaven van een normale kracht), in plaats van alleen de nominale pose te volgen.

3. Belangrijkste Bijdragen

PhaForce Architectuur: Een unificatie van kracht-bewuste generatieve planning en hoog-frequentie residuale correctie, gekoppeld via een expliciet fase-schema.
Expliciete Scheduling: Introduceert een signaal (contactwaarschijnlijkheid + fase-bewering) dat dynamisch bepaalt wanneer kracht moet worden gebruikt, hoeveel er moet worden gebruikt, en in welke correctieruimte (subspace) het moet worden toegepast.
Robuustheid: Het systeem behoudt visuele semantiek door ORI en compenseert voor omgevingsvariaties door snelle krachtcorrectie.

4. Resultaten

De methode is getest op een Flexiv Rizon 4s robotarm met zes verschillende contactrijke taken (oplader invoeren, USB invoeren, lade openen, wissen).

Success Rate (SR): PhaForce bereikte een gemiddelde success rate van 86%, wat een verbetering is van +40 procentpunten ten opzichte van sterke baselines (zoals standaard Diffusion Policy en RDP).
Contactkwaliteit: Bij de "wiping" (wissen) taak toonde PhaForce de beste balans tussen effectiviteit en contactkracht, met minder over- en onderdruk dan andere methoden.
OOD Robuustheid: Bij een Out-of-Distribution test (het te wissen bord was 3 cm hoger dan tijdens het trainen), faalden methoden zonder snelle correctie volledig (SR 0%). PhaForce behaalde hier 85% SR, wat aantoont dat de snelle correctie essentieel is voor aanpassing aan onbekende geometrieën.
Ablatie Studies:
- Zonder fase-bewering (w/o PB) daalde de SR bij het invoeren van een USB-stekker van 85% naar 25%.
- Zonder Fast corrector (w/o Fast) daalde de SR bij OOD-wissen naar 0%.
- Zonder Orthogonale Residuale Injectie (w/o ORI) verslechterde de prestatie aanzienlijk, wat het belang van het behoud van visuele semantiek bevestigt.

5. Betekenis en Conclusie

PhaForce lost het fundamentele probleem op van het integreren van snelle krachtfedback in trage generatieve modellen voor contactrijke taken. Door een expliciete fase-scheduling te introduceren, vermijdt het systeem onnodige correcties in irrelevante ruimtes en zorgt het voor tijdige reacties op contacttransiënten.

De studie demonstreert dat voor complexe, contactrijke manipulatie niet alleen betere visuele modellen nodig zijn, maar ook een architectuur die intentie (planning) en reactie (correctie) op verschillende tijdschalen kan coördineren. Dit opent de weg voor robuustere robots die taken kunnen uitvoeren in onvoorspelbare omgevingen met variërende contactcondities.