Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

Each language version is independently generated for its own context, not a direct translation.

Imaginez un robot quadrupède (comme un chien mécanique) équipé d'un bras robotique, qui doit ranger une pièce dans un atelier en désordre. Le problème ? L'objet qu'il doit attraper est caché derrière d'autres choses, et il ne peut pas voir toute sa forme. C'est comme essayer de saisir un jouet dans une boîte remplie de Lego sans pouvoir voir l'intérieur.

C'est exactement le défi que résout cette recherche. Voici comment ils ont fait, expliqué simplement :

1. Le Robot "Intelligent" qui comprend la parole

Au lieu de programmer le robot pour dire "attrape l'objet rouge", les chercheurs lui permettent de recevoir une instruction en langage naturel, comme "attrape la bouteille bleue".

L'analogie : C'est comme si vous donniez une consigne à un assistant très attentif. Le robot utilise une technologie appelée "VLM" (Modèle de Langage-Vision) qui agit comme des lunettes magiques. Il regarde la scène, comprend le mot "bouteille bleue", et pointe immédiatement du doigt l'objet exact, même s'il est caché par d'autres objets.

2. Le "Super-Pouvoir" de l'imagination (Compléter ce qui manque)

C'est la partie la plus ingénieuse. Comme le robot ne voit qu'une partie de l'objet (à cause des obstacles), il ne peut pas savoir comment l'attraper correctement s'il se fie seulement à ce qu'il voit.

L'analogie : Imaginez que vous voyez un éléphant caché derrière un buisson, et vous ne voyez que son oreille. Un robot classique dirait : "Je ne sais pas où est le reste, je ne peux pas attraper".
La solution de l'équipe : Le robot utilise une sorte de cerveau d'artiste (des modèles d'intelligence artificielle avancés) pour "imaginer" le reste de l'éléphant. Il prend les quelques pixels visibles et complète mentalement le reste de la forme, comme si il reconstruisait un puzzle manquant. Il crée ainsi une image 3D complète et précise de l'objet, même s'il ne l'a jamais vu en entier.

3. Le "Test de Sécurité" avant de bouger

Une fois qu'il a imaginé la forme complète, le robot ne se précipite pas. Il simule des milliers de façons d'attraper l'objet.

L'analogie : C'est comme un joueur d'échecs qui regarde toutes les coups possibles avant de jouer. Le robot se demande : "Si j'essaie d'attraper par là, mon bras va-t-il cogner une boîte ? Si j'essaie par ici, suis-je trop loin ?".
Il élimine toutes les mauvaises idées (ceux qui risquent de faire tomber le robot ou de cogner les meubles) et choisit la seule prise parfaite qui est à la fois sûre et réalisable.

4. Le "Repositionnement" du chien mécanique

Si le robot réalise qu'il est trop loin ou mal positionné pour attraper l'objet sans se cogner, il ne force pas.

L'analogie : Au lieu de s'étirer jusqu'à ce qu'il se blesse, le robot déplace ses pattes (il marche un peu) pour se placer dans la position idéale, comme un humain qui fait un pas sur le côté pour mieux attraper un objet sur une étagère.

Le Résultat : Une victoire éclatante

Les chercheurs ont testé ce système sur un vrai robot dans des situations très encombrées (des perceuses cachées, des bouteilles derrière des boîtes).

L'ancien système (sans imagination) : Il échouait 7 fois sur 10. Il voyait un bout de l'objet, tentait de l'attraper, et se cognait contre les obstacles ou ne pouvait pas atteindre l'objet.
Le nouveau système (avec imagination et sécurité) : Il a réussi 9 fois sur 10.

En résumé :
Cette recherche a créé un robot qui ne se contente pas de "voir" ce qui est devant lui. Il comprend ce qu'on lui demande, imagine ce qu'il ne voit pas, réfléchit à la meilleure façon d'agir sans se cogner, et bouge intelligemment pour réussir sa tâche. C'est un pas de géant pour rendre les robots plus autonomes et utiles dans nos maisons et nos usines en désordre.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations » en français.

1. Problématique

La saisie d'objets robuste dans des environnements encombrés et non structurés reste un défi majeur pour les manipulateurs mobiles (en particulier les robots quadrupèdes équipés de bras). Les difficultés principales incluent :

Observations partielles et occlusions : Les objets sont souvent partiellement cachés, entraînant des estimations de profondeur peu fiables et des géométries 3D incomplètes.
Contraintes d'exécution : Une saisie géométriquement valide sur la surface visible peut être impossible à exécuter en raison de collisions avec l'environnement, de contraintes cinématiques du robot ou de trajectoires d'approche bloquées.
Sélection de cible sémantique : Dans des déploiements réels, l'objet à saisir est souvent spécifié par une commande linguistique naturelle (ex: « la bouteille bleue ») plutôt que par une segmentation pré-définie, nécessitant une intégration entre la perception visuelle et la compréhension du langage.

L'objectif est de créer un pipeline de bout en bout capable de passer d'une commande textuelle à une exécution de saisie sûre et réalisable, malgré les occlusions sévères.

2. Méthodologie

L'approche proposée est un pipeline intégré en trois modules principaux, exécuté sur un robot quadrupède Boston Dynamics Spot avec un bras manipulateur.

A. Détection et Segmentation (Guidée par le Langage)

Entrée : Commande naturelle (ex: « perceuse ») et images RGB.
Localisation : Utilisation du détecteur à vocabulaire ouvert Grounding DINO pour localiser la cible et générer une boîte englobante.
Segmentation : La boîte est utilisée comme prompt pour le modèle SAM 2 (Segment Anything Model 2), produisant un masque d'instance binaire précis.
Suivi : SAM 2 maintient le masque sur les trames suivantes ; Grounding DINO est réinvocqué uniquement en cas de perte de suivi.

B. Génération et Estimation du Nuage de Points (Résilience aux Occlusions)

Cette étape convertit le masque 2D en géométrie 3D exploitable pour la saisie :

Extraction de points : Utilisation de Isaac ROS Nvblox pour rétro-projeter les images de profondeur (RGB-D) et extraire un nuage de points partiel centré sur l'objet.
Compensation de profondeur : Remplissage des trous de profondeur et atténuation des pixels aberrants (« flying pixels ») pour améliorer la densité initiale.
Complétion du nuage de points (2 étapes) :
- MGPC (Multimodal Geometry Point Cloud) : Génère des points synthétiques manquants en se basant sur le contexte multimodal (prompt textuel, image RGB et nuage partiel).
- PoinTr : Affine et densifie la géométrie en complétant des patchs locaux de 2048 points pour améliorer la qualité des normales de surface, cruciales pour la génération de saisie.
- Résultat : Un nuage de points complet ( $P_{complete}$ ) même si une grande partie de l'objet était initialement cachée.

C. Génération et Sélection de la Saisie (Consciente de l'Exécution)

Génération : Le Grasp Pose Generator (GPG) échantillonne 1000 candidats de saisie 6-DoF sur le nuage de points complété.
Filtrage de collision : Chaque candidat est testé contre la géométrie de la scène environnante pour éliminer les trajectoires d'approche collisionnelles.
Classement Heuristique : Un candidat optimal ( $g^*$ $g^{*}$ ) est sélectionné via une fonction de coût pondérée qui prend en compte :
- L'alignement avec la direction d'approche du robot.
- La centralité de la saisie sur l'objet.
- La contrainte de portée (reachability) par rapport à la base du robot.
- Des pénalités pour les approches défavorables (ex: venir par-dessous).

D. Exécution et Contrôle

Un automate à états finis coordonne le déplacement de la base et le mouvement du bras :

Repositionnement de la base : Si la saisie n'est pas accessible depuis la position actuelle, le robot déplace sa base pour optimiser la portée et l'espace libre.
Approche et Saisie : Déplacement vers une pose pré-saisie (avec marge de sécurité), insertion cartésienne finale, fermeture de la pince et levée de l'objet.

3. Contributions Clés

Cadre Unifié de Bout en Bout : Intégration de la sélection de cible par langage naturel à l'exécution de saisie sur un robot mobile en environnement encombré.
Sélection de Saisie Consciente de l'Exécution : Stratégie qui intègre explicitement les contraintes de collision, de portée et de cinématique du corps entier pour garantir la faisabilité réelle.
Estimation Géométrique Résiliente aux Occlusions : Utilisation combinée de la compensation de profondeur et de modèles de complétion (MGPC, PoinTr) pour reconstruire la géométrie 3D à partir d'observations partielles.
Locomanipulation Mobile : Coordination du déplacement de la base et de l'action du bras pour améliorer l'accessibilité dans des scènes encombrées.
Validation Réelle : Expérimentation sur un robot Spot dans des scénarios réels, démontrant une robustesse supérieure par rapport aux méthodes dépendantes de la vue.

4. Résultats Expérimentaux

Les tests ont été réalisés sur deux scénarios de tables encombrées (une perceuse partiellement cachée et une bouteille bleue derrière des obstacles) avec 10 essais par configuration (5 pour la méthode proposée, 5 pour une baseline).

Taux de réussite global :
- Méthode proposée : 90 % (9/10 succès).
- Baseline (dépendante de la vue) : 30 % (3/10 succès).
Analyse des échecs :
- La baseline échoue principalement à cause de collisions lors de l'approche (2/3 des échecs) ou de problèmes de portée, car elle ne reconstruit pas la géométrie cachée et ne repositionne pas la base.
- La méthode proposée n'a échoué qu'une seule fois (problème de portée), démontrant que la complétion géométrique et le repositionnement de la base réduisent drastiquement les échecs liés aux occlusions.
Comparaison : La méthode proposée surpasse significativement l'approche traditionnelle qui se fie uniquement aux points visibles depuis une position fixe.

5. Signification et Conclusion

Ce travail démontre que la robustesse de la saisie robotique dans des environnements non structurés nécessite de dépasser la simple prédiction géométrique basée sur la vue immédiate. En combinant :

La perception sémantique (VLM),
La reconstruction 3D active (complétion de nuage de points),
Et la planification de mouvement consciente des contraintes (repositionnement de la base),

il est possible d'atteindre un taux de réussite élevé même avec des observations partielles sévères. L'étude souligne l'importance de traiter la perception et l'exécution comme un système unifié pour le déploiement de robots dans le monde réel, ouvrant la voie à des applications d'inspection et d'intervention autonome plus fiables. Les limitations actuelles concernent la qualité du capteur de profondeur (bruit, résolution) et la dépendance à la visibilité initiale pour la détection sémantique.