PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'insérer une clé dans une serrure très rouillée ou de frotter un tableau noir avec une éponge. Si vous ne faites que regarder (avec vos yeux), vous risquez de pousser trop fort, de glisser, ou de rester bloqué. C'est le défi que rencontrent les robots : ils sont excellents pour "voir", mais souvent maladroits pour "sentir" et réagir instantanément au toucher.

Voici une explication simple du papier PhaForce, qui propose une nouvelle façon de donner au robot un "sixième sens" intelligent.

1. Le Problème : Le Robot qui "Pense" trop lentement

Les robots modernes utilisent souvent l'intelligence artificielle pour planifier leurs mouvements. Imaginez un chef d'orchestre (le cerveau du robot) qui donne des instructions toutes les demi-secondes.

Le souci : Quand le robot touche un objet, les choses changent en une fraction de seconde (un choc, un glissement). Si le robot doit attendre la prochaine instruction du chef d'orchestre pour réagir, il est déjà trop tard. Il a raté le moment critique.
L'erreur actuelle : Les méthodes actuelles mélangent la vue et le toucher de manière brute, comme si le robot écoutait tout le temps le même bruit de fond, même quand il n'a pas besoin de toucher. Cela crée de la confusion.

2. La Solution : PhaForce (Le Chef d'Orchestre et le Violoniste)

Les auteurs proposent PhaForce, une méthode qui divise le travail en deux rôles distincts, comme dans un duo musical :

A. Le Planificateur "Lent" (Le Chef d'Orchestre)

C'est le cerveau principal. Il regarde la caméra et le robot, puis il dit : "Ok, on va avancer vers la serrure, puis on va tourner un peu."

Il travaille lentement (par exemple, 6 fois par seconde).
L'innovation : Il ne se contente pas de regarder. Il utilise un prédicteur de contact (un petit assistant) qui lui dit : "Attention, dans 2 secondes, on va toucher quelque chose. Prépare-toi."
Il ajuste sa stratégie en fonction de la phase de la tâche. Par exemple, quand on cherche le trou de la serrure, on doit bouger latéralement. Une fois le trou trouvé, on doit pousser droit. Le robot sait exactement dans quelle "phase" il est.

B. Le Correcteur "Rapide" (Le Violoniste)

C'est le bras rapide du robot. Il travaille très vite (24 fois par seconde, voire plus).

Il n'a pas besoin de voir l'image complète. Il écoute uniquement les capteurs de force (comme si le robot avait des doigts très sensibles).
Son rôle : Si le chef d'orchestre dit "avance", mais que le capteur dit "ça résiste !", le Violoniste corrige instantanément la trajectoire pour éviter de casser la clé ou de se coincer.
La magie : Il ne corrige pas n'importe comment. Il sait où corriger selon la phase. Si on cherche le trou, il corrige le mouvement gauche-droite. Si on enfonce, il corrige la pression vers le bas. Il ne fait pas de "bruit" inutile.

3. L'Analogie du "Jeu de Clés"

Pour bien comprendre, imaginez que vous essayez d'ouvrir une vieille porte avec une clé :

Sans PhaForce (Les méthodes anciennes) : Vous avancez la clé en regardant. Dès que ça résiste, vous attendez que votre cerveau décide quoi faire. Souvent, vous forcez trop, la clé se casse, ou vous restez bloqué.
Avec PhaForce :
- Votre cerveau (Planificateur Lent) dit : "Je vais chercher le trou, puis je vais pousser."
- Vos doigts (Correcteur Rapide) sentent immédiatement si la clé touche le bord.
- Si la clé touche le bord, vos doigts ajustent tout de suite la position (gauche/droite) sans attendre que votre cerveau repense à tout le mouvement.
- Dès que la clé rentre, vos doigts changent de tactique : ils arrêtent de bouger latéralement et commencent à pousser fort vers l'intérieur.

4. Pourquoi c'est génial ? (Les Résultats)

Les chercheurs ont testé cette méthode sur de vrais robots avec des tâches difficiles :

Insérer une clé USB : Les robots classiques échouent souvent car ils ne sentent pas le moment précis où la clé est bien alignée. PhaForce réussit 85% du temps (contre 20% pour les autres).
Ouvrir un tiroir : Si le tiroir est coincé, le robot sait qu'il doit tirer doucement et non pas forcer brutalement.
Nettoyer un tableau (même si le tableau bouge) : C'est le test ultime. Si on déplace le tableau de 3 cm par rapport à ce que le robot a appris, les autres robots ratent tout (ils appuient trop fort ou ne touchent pas). PhaForce s'adapte instantanément grâce à ses "doigts" rapides.

En résumé

PhaForce, c'est comme donner au robot un plan stratégique (pour savoir où il va) et un réflexe de boxeur (pour réagir instantanément aux coups).

Au lieu de mélanger tout ensemble, le système dit : "Maintenant, on est dans la phase 'recherche', donc on utilise la force pour chercher le trou. Maintenant, on est dans la phase 'insertion', donc on utilise la force pour pousser."

C'est cette capacité à organiser le moment où le robot doit écouter ses capteurs de force qui rend la différence entre un robot qui se cogne et un robot qui manipule des objets avec grâce.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La manipulation riche en contacts (ex: insertion de fiches, ouverture de tiroirs, essuyage) pose un défi majeur pour les politiques visuomotrices basées sur l'apprentissage par imitation. Bien que les modèles récents (comme les politiques de diffusion ou les VLA) excellent dans les tâches dominées par la vision, ils échouent souvent dans les scénarios de contact pour deux raisons principales :

Inadéquation des échelles de temps (Gap 1) : Les politiques génératives sont contraintes par la latence d'inférence et le "chunking" (regroupement) des actions, ce qui limite leur fréquence de mise à jour (basse fréquence). Or, les signaux de force/torque (F/T) sont des signaux de rétroaction à haute fréquence, essentiels pour corriger les transitoires rapides (frottement, coincement, impacts). Les méthodes actuelles sous-utilisent ces signaux pour des corrections en boucle fermée rapide.
Absence de planification de phase explicite (Gap 2) : Les méthodes existantes injectent souvent la force de manière continue et indiscriminée. Or, la manipulation riche en contacts est intrinsèquement multi-phase (ex: approche, recherche, insertion, récupération). Chaque phase nécessite des sous-espaces de correction orthogonaux ou mutuellement exclusifs. Sans un mécanisme explicite pour décider quand, combien et où appliquer la force, les corrections à haute fréquence peuvent dégrader l'alignement ou provoquer des comportements de blocage (jamming).

2. Méthodologie : PhaForce

Les auteurs proposent PhaForce, une politique visuomotrice "lente-rapide" (slow-fast) coordonnée par un calendrier de phase explicite. L'architecture se compose de trois modules principaux :

A. Prédicteur de Phase Conscient du Contact (CAP)

Ce module léger (basé sur un ResNet-18 et un encodeur temporel TCN) prend en entrée les observations visuelles, l'historique des forces et la proprioception. Il prédit en temps réel :

Une probabilité de contact continue ( $p^c_t$ ).
Une croyance de phase ( $p_t$ ), une distribution de probabilité sur les $K$ phases de la tâche (ex: approche, recherche, insertion).
Particularité : Il est entraîné pour l'anticipation (prédire le contact futur) plutôt que pour le jugement instantané, permettant une transition fluide entre les phases.

B. Planificateur Diffusion "Lent" (Slow Planner)

Ce module opère à basse fréquence (ex: 6 Hz) pour générer des "chunks" d'actions (trajectoires nominales).

Fusion Visuelle-Force à Double Porte : Il fusionne les caractéristiques visuelles et les tokens de force via une attention croisée.
Gestion par Phase : La croyance de phase ( $p_t$ ) module les têtes d'attention pour activer les canaux de force pertinents selon la phase actuelle.
Injection de Résiduel Orthogonal (ORI) : Au lieu de remplacer les caractéristiques visuelles par la force, le planificateur injecte l'information de force comme un résiduel orthogonal aux caractéristiques visuelles. Cela préserve la sémantique dominante de la vision tout en conditionnant le plan sur la force, évitant ainsi la dérive sémantique.
Porte de Contact : La probabilité de contact ( $p^c_t$ ) contrôle l'intensité d'injection, supprimant le bruit des signaux de force en espace libre.

C. Correcteur "Rapide" (Fast Corrector)

Ce module opère à haute fréquence (ex: 24 Hz) pour effectuer des micro-ajustements à l'intérieur d'un chunk d'action.

Sous-espaces de Correction Routés par Phase : Pour chaque phase, un masque binaire définit les degrés de liberté (DOF) autorisés pour la correction (ex: en phase de recherche, on corrige en X, Y et Yaw ; en phase d'insertion, on corrige en Z et Yaw).
Routage Doux : Le correcteur applique les corrections dans les sous-espaces activés par la croyance de phase, interpolant doucement entre les phases.
Supervision Physique : Le correcteur est entraîné pour prédire un résidu de mouvement ( $\delta\xi$ ) qui correspond à des priorités physiques (ex: réduire la friction tangentielle lors de la recherche, maintenir une force normale cible lors de l'essuyage).

3. Contributions Clés

Architecture Unifiée Slow-Fast : Unification de la planification générative à basse fréquence et de la correction résiduelle à haute fréquence, coordonnées par un signal de phase explicite.
Signal de Planification Explicite : Introduction d'un mécanisme (probabilité de contact + croyance de phase) qui décide dynamiquement quand utiliser la force, combien en utiliser, et dans quels sous-espaces de correction l'appliquer.
Fusion Visuelle-Force Robuste : Utilisation de l'injection de résiduel orthogonal (ORI) pour intégrer la force sans altérer la sémantique visuelle critique pour la localisation.
Validation Expérimentale : Démonstration sur un bras robotique réel (Flexiv Rizon 4s) avec des tâches complexes, montrant une robustesse supérieure aux changements de distribution (OOD).

4. Résultats Expérimentaux

Les expériences ont été menées sur cinq tâches réelles : insertion de chargeur, insertion USB, ouverture de tiroir, et essuyage (en distribution et hors distribution).

Taux de Réussite (Success Rate - SR) :
- PhaForce atteint un taux de réussite moyen de 86 %, soit une amélioration de +40 points de pourcentage par rapport aux meilleures méthodes de base (comme RDP ou Diffusion Policy).
- Sur la tâche d'insertion USB, le taux passe de 55 % (RDP) à 85 % (PhaForce).
- Sur la tâche d'essuyage en hors-distribution (OOD - décalage de hauteur de 3 cm), les méthodes sans correcteur rapide échouent totalement (0 %), tandis que PhaForce maintient 85 % de réussite.
Qualité du Contact :
- Pour la tâche d'essuyage, PhaForce réduit considérablement les cas de sur-pression et de perte de contact par rapport aux méthodes de base, maintenant une force normale plus stable et conforme à l'objectif.
- L'analyse des échec montre que les méthodes de base souffrent de stagnation (coincement sans tentative de récupération) ou d'insertion partielle, tandis que PhaForce déclenche correctement les phases de "recherche" et de "récupération".
Ablations :
- Supprimer la croyance de phase (w/o PB) fait chuter le taux de réussite de 85 % à 25 % sur l'insertion USB, prouvant l'importance du routage des corrections.
- Supprimer le correcteur rapide (w/o Fast) entraîne un échec total sur les tâches OOD, confirmant que la correction à haute fréquence est indispensable pour compenser les erreurs géométriques.

5. Signification et Impact

PhaForce représente une avancée significative dans la robotique de manipulation par apprentissage. Il résout le compromis traditionnel entre la précision visuelle à long terme et la réactivité tactile à court terme.

Interprétabilité : Contrairement aux boîtes noires, le système utilise des phases explicites et des sous-espaces de correction définis physiquement, rendant le comportement du robot plus prévisible et déboguable.
Robustesse : La capacité à gérer des changements environnementaux (OOD) sans réentraînement est cruciale pour le déploiement réel.
Généralisation : L'approche suggère que la séparation explicite entre la planification sémantique (lente) et la correction dynamique (rapide), orchestrée par une estimation de phase, est une voie prometteuse pour les futurs agents robotiques capables de manipulations complexes et délicates.

En résumé, PhaForce démontre que l'intégration intelligente de la force, guidée par une compréhension temporelle et sémantique de la tâche, est la clé pour réussir la manipulation riche en contacts dans le monde réel.