Bounding Boxes as Goals: Language-Conditioned Grasping via Neuro-Symbolic Planning

L'article présente GRASP, un cadre de planification neuro-symbolique qui exploite des modèles vision-langage pré-entraînés pour traduire le langage naturel en objectifs de boîtes englobantes ancrés, permettant une manipulation de table à vocabulaire ouvert et zéro-shot avec un taux de réussite de 73,3 % sur de vrais robots sans entraînement spécifique à la tâche.

Auteurs originaux : Allison Andreyev, Landon Eum, Nestor Tiglao, Romel Gomez

Publié 2026-06-12
📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Allison Andreyev, Landon Eum, Nestor Tiglao, Romel Gomez

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous avez un bras robotisé posé sur une table, et que vous voulez qu'il ramasse des objets spécifiques pour les déposer à des endroits précis. Habituellement, programmer un robot, c'est comme apprendre des tours complexes à un chien : vous devez lui montrer exactement quoi faire des milliers de fois, ou lui donner des instructions très rigides et ennuyeuses comme « déplace-toi de 5 pouces vers la gauche, puis de 2 pouces vers le haut ». Si vous dites quelque chose de nouveau, comme « mets les objets rouges sur l'étagère du haut », le robot se confond souvent parce qu'il n'a pas vu cette commande exacte auparavant.

Ce document présente un nouveau système appelé GRASP (Grounded Reasoning and Symbolic Planning) qui agit comme un traducteur intelligent et un GPS pour le robot. Il permet au robot de comprendre le langage naturel et de comprendre comment se déplacer sans avoir besoin d'être réentraîné pour chaque nouvelle tâche.

Voici comment cela fonctionne, décomposé en étapes simples :

1. Le « Traducteur » (Le Cerveau)

Lorsque vous parlez au robot, par exemple : « Mets tous les objets bleus sur l'étagère du haut », le système ne se contente pas d'entendre des mots ; il les traduit en une carte.

  • L'analogie : Pensez à un humain donnant des directions à un touriste. Au lieu de dire « Allez aux coordonnées X, Y », l'humain dit : « Trouvez le bâtiment bleu et montez à l'étage supérieur ».
  • Comment GRASP procède : Il utilise une IA puissante (appelée Modèle de Langage Étendu ou LLM) pour transformer votre phrase en une liste d'« objectifs ». Il détermine ce que sont les « objets bleus » et définit l'« étagère du haut » comme une zone spécifique sur un écran. Il crée une liste de contrôle numérique de ce qui doit être fait.

2. Les « Yeux » (La Vision)

Une fois que le robot connaît l'objectif, il doit trouver les objets.

  • L'analogie : Imaginez que vous cherchez vos clés dans une pièce en désordre. Vous ne scannez pas chaque objet de manière aléatoire ; vous cherchez la forme et la couleur de vos clés.
  • Comment GRASP procède : Il utilise un « œil » spécialisé (un modèle de vision par ordinateur appelé GroundingDINO) qui est déjà entraîné à reconnaître des milliers de choses. Il scanne la table et dessine des boîtes invisibles autour des objets qui correspondent à votre description (par exemple, il dessine une boîte autour de la bouteille bleue).

3. Le « Volant » (Le Contrôle)

C'est la partie la plus unique. Au lieu que le robot essaie de mémoriser un chemin complexe pour saisir l'objet, il utilise une boucle de rétroaction simple et continue.

  • L'analogie : Pensez au jeu du « Chaud et Froid » ou au fait de viser une caméra vers une cible en mouvement. Vous ne calculez pas la mathématique exacte pour atteindre la cible en un seul coup. Au lieu de cela, vous regardez où se trouve la cible, vous bougez un peu vers elle, vous regardez à nouveau, et vous bougez encore un peu. Vous ajustez constamment jusqu'à être pile au-dessus d'elle.
  • Comment GRASP procède : Le robot regarde la « boîte » autour de l'objet sur son écran. Si la boîte est à gauche du centre de sa vue, le robot déplace son bras légèrement vers la gauche. Si la boîte est trop petite (ce qui signifie que l'objet est loin), il se rapproche. Il fait cela encore et encore, en corrigeant constamment sa trajectoire, jusqu'à ce que l'objet soit parfaitement centré dans sa « pince ».

Pourquoi est-ce spécial ?

La plupart des systèmes robotiques avancés sont comme des athlètes de poids lourds qui ont besoin d'années d'entraînement (des milliers de tentatives de pratique) pour apprendre une nouvelle tâche. Ils sont également très lents et coûteux à exploiter.

GRASP est comme un randonneur léger et adaptable.

  • Aucun entraînement requis : Il n'a pas besoin de s'exercer pour la tâche spécifique. Si vous lui demandez de ramasser un « marqueur magenta » ou un « ciseau vert lime », il le comprend sur le moment grâce à ses « yeux » et son « traducteur » pré-entraînés.
  • C'est robuste : Parce qu'il vérifie constamment sa position (la boucle « Chaud et Froid »), il peut gérer le cas où l'objet bouge légèrement ou si l'angle de la caméra n'est pas parfait. Il ne se contente pas de deviner et d'espérer ; il se corrige en temps réel.

Les Résultats

Les chercheurs ont testé ce système avec différents niveaux de difficulté, allant de tâches faciles (ramasser un gros bloc) à des tâches difficiles (ramasser de petits objets délicats comme un tournevis).

  • Taux de réussite : Le robot a réussi à saisir les bons objets environ 73 % du temps au total.
  • Là où il a échoué : Il a surtout eu des difficultés lorsque les « yeux » ne pouvaient pas voir l'objet clairement (comme s'il était trop loin ou si l'éclairage était mauvais), et non parce que le « cerveau » du robot avait donné de mauvaises instructions.

En résumé

GRASP est un système qui vous permet de parler à un robot comme à un humain, et le robot utilise une combinaison de traduction par IA et de correction visuelle continue pour comprendre comment saisir des objets. Il évite le besoin d'un entraînement intensif et d'une programmation rigide, ce qui en fait un outil beaucoup plus flexible pour les tâches quotidiennes comme le tri d'objets sur une table.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →