See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

Ce papier présente « See & Switch », un cadre interactif d'apprentissage et d'exécution robotique qui utilise la vision pour sélectionner dynamiquement des branches dans des graphes de tâches et détecter les contextes inattendus, permettant ainsi aux utilisateurs novices de programmer efficacement des robots pour des tâches de manipulation complexes.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot comment faire le ménage. Avec les méthodes traditionnelles, vous lui donnez une liste de instructions rigides : « Prends l'aspirateur, avance de 2 mètres, tourne à gauche ». Si un obstacle imprévu apparaît (comme un chat qui traverse ou une porte fermée), le robot s'arrête, panique ou continue bêtement en se cognant, car il ne sait pas s'adapter.

C'est là qu'intervient le projet « See & Switch » (Voir et Basculer) décrit dans cet article. Les chercheurs ont créé une méthode pour enseigner aux robots des tâches de manière interactive et intelligente, un peu comme si vous appreniez à un enfant à faire du vélo en lui montrant comment réagir aux virages, plutôt qu'en lui donnant un script fixe.

Voici comment cela fonctionne, expliqué simplement avec des analogies :

1. Le Concept : Un Livre de Recettes avec des « Si... Alors... »

Au lieu d'une seule longue vidéo de démonstration, le robot apprend une structure de décision (un graphe).

  • L'analogie : Imaginez un livre de recettes de cuisine.
    • Méthode ancienne : « Mélangez les œufs, ajoutez la farine, enfournez. » (Si la farine est mouillée, la recette échoue).
    • Méthode « See & Switch » : « Mélangez les œufs. Si la farine est mouillée, alors ajoutez un peu plus de liquide. Sinon, enfournez directement. »
  • Le robot apprend des « morceaux de compétences » (comme « attraper l'objet » ou « ouvrir la porte ») et des points de décision où il doit choisir la bonne suite d'actions en fonction de ce qu'il voit.

2. Le Cerveau Visuel : Le « Switcher » (Le Commutateur)

Le cœur du système est un module appelé le Switcher. C'est un expert visuel qui regarde ce que le robot voit à travers sa caméra (installée sur son poignet, comme un œil dans la main).

  • L'analogie : Pensez à un chef de gare dans une gare ferroviaire.
    • Le train (le robot) arrive à une bifurcation (un point de décision).
    • Le chef de gare regarde par la fenêtre : « Ah, il y a un obstacle sur la voie 1 ! » -> Il envoie le train sur la voie 2.
    • « Oh, la voie 2 est bloquée par un arbre inconnu ! » -> Il crie « STOP ! » et demande au conducteur (l'humain) : « Hé, je n'ai jamais vu ça, montre-moi comment faire ! »
  • Ce chef de gare utilise une technologie avancée (basée sur l'IA DINO) pour comprendre l'image instantanément, sans avoir besoin de programmer des règles manuelles complexes.

3. L'Apprentissage : L'Humain Intervient en Direct

L'un des points forts est la façon dont l'humain enseigne au robot. Vous n'avez pas besoin d'être un ingénieur en code.

  • L'analogie : C'est comme jouer à un jeu vidéo en mode « Co-op ».
    • Si le robot est bloqué, vous pouvez prendre le contrôle de trois manières différentes :
      1. Le guidage physique (Kinesthetic) : Vous prenez le bras du robot et vous le guidez manuellement pour montrer le mouvement.
      2. La manette (Joystick) : Vous utilisez un contrôleur pour diriger le robot.
      3. Les gestes : Vous faites des signes de la main pour lui dire quoi faire.
    • Peu importe la méthode, le robot comprend : « Ah, dans cette situation précise, il faut faire ça ». Il ajoute alors cette nouvelle option à son livre de recettes pour la prochaine fois.

4. Les Résultats : Des Robots qui ne se perdent plus

Les chercheurs ont testé ce système sur des tâches complexes (comme attraper un pion, mesurer une tension avec une sonde, ou enrouler un câble) avec des débutants qui n'avaient jamais programmé de robot.

  • Le résultat : Le robot a réussi à choisir le bon chemin dans 90 % des cas et a détecté quand il était perdu (anomalie) dans 88 % des cas.
  • La leçon : Le guidage physique (prendre le bras du robot) était la méthode la plus rapide et la plus efficace pour enseigner, mais les gestes et la manette ont aussi très bien fonctionné.

En Résumé

« See & Switch » transforme la programmation de robots d'un processus rigide et fragile en une conversation fluide.

  • Le robot voit le monde.
  • Il décide quel chemin prendre parmi ceux qu'il connaît.
  • S'il ne sait pas, il demande de l'aide à l'humain, qui lui montre la solution.
  • Le robot se souvient de cette solution pour la prochaine fois.

C'est un pas de géant vers des robots domestiques ou industriels capables de s'adapter à un monde réel, changeant et imprévisible, sans avoir besoin d'être reprogrammés à chaque petit changement.