See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un expert en photographie, disons Pierre, qui est incroyablement doué pour identifier des objets sur des photos prises en studio ou dans la nature (le "monde extérieur"). Mais si vous l'emmenez dans une maison sombre, avec des meubles encombrants et des angles de vue étranges, Pierre commence à faire des erreurs. Il ne voit plus bien les chaises ou les réfrigérateurs.

Habituellement, pour réparer cela, on lui fait faire des milliers d'exercices de rattrapage sur des photos de cette maison spécifique. C'est long, coûteux, et cela risque de lui faire oublier tout ce qu'il savait déjà sur les autres objets (c'est ce qu'on appelle l'oubli catastrophique).

Sea2 (le titre de ce papier) propose une idée géniale et différente : au lieu de rééduquer Pierre, on lui donne un assistant qui sait le déplacer.

Voici comment cela fonctionne, expliqué simplement :

1. Le Concept : "Voir, Agir, S'adapter"

Au lieu de changer le cerveau de Pierre (le modèle de vision), on change comment il regarde les choses.

Le Problème : Pierre est bloqué dans un coin de la pièce. Il voit un canapé, mais il est caché derrière une table ou vu de trop loin.
La Solution : On lui donne un robot (un agent) qui tient la caméra. Ce robot a un cerveau très intelligent (un modèle de langage et de vision, ou VLM) qui agit comme un guide touristique.

2. L'Analogie du Guide Touristique

Imaginez que Pierre est un touriste aveugle qui doit trouver un objet précis, disons "le réfrigérateur près de la porte".

Sans le guide : Il avance au hasard. Il se cogne, il voit des murs, il ne trouve jamais le réfrigérateur.
Avec Sea2 : Le guide (l'agent) lui dit : "Attends, tu es trop loin. Tourne-toi à gauche, avance un peu, et regarde en haut. Ah ! Là, tu le vois parfaitement !"

Le guide ne modifie pas la vue de Pierre. Il se contente de bouger la caméra pour trouver l'angle parfait où l'objet est le plus clair, le moins caché et le plus facile à identifier.

3. Comment le guide apprend-il ? (Sans professeur !)

C'est la partie la plus magique. Le guide n'a pas de professeur qui lui dit "Bravo, c'est le bon angle" ou "Non, c'est raté" avec des étiquettes précises. Il apprend tout seul grâce à deux étapes :

Étape 1 : L'entraînement de base (Le manuel de survie)
Au début, on apprend au guide des règles simples : "Si tu ne vois rien, tourne. Si tu vois l'objet mais qu'il est petit, avance. Si l'objet est au centre, c'est bien." C'est comme apprendre à un enfant à marcher en lui tenant la main.
Étape 2 : L'apprentissage par essai-erreur (Le jeu de l'escalade)
Ensuite, on laisse le guide explorer la maison. À chaque fois qu'il bouge la caméra, il regarde ce que Pierre (le modèle de vision) voit.
- Si Pierre dit "Je suis sûr à 90% que c'est un réfrigérateur", le guide reçoit une petite récompense.
- Si Pierre dit "Je ne suis pas sûr, c'est flou", le guide reçoit une punition.
Le guide apprend ainsi, sans aucune étiquette humaine, à trouver les positions qui donnent le plus de confiance à Pierre. C'est comme un joueur de vidéo qui apprend à viser mieux en regardant simplement si son tir touche la cible ou non.

4. Pourquoi c'est révolutionnaire ?

Zéro étiquettes : On n'a pas besoin de dessiner des boîtes autour des objets ou de dire "c'est une chaise". Le système utilise simplement la "confiance" du modèle pour apprendre.
Pas de réapprentissage : Le modèle de vision (Pierre) reste figé, comme un livre de référence. On ne touche pas à son cerveau, donc il ne perd jamais ses connaissances.
Universel : Cela fonctionne pour n'importe quelle tâche : trouver un objet, le délimiter (segmentation), ou même estimer sa taille en 3D.

En résumé

Ce papier nous dit : "Ne réparez pas le moteur de la voiture (le modèle de vision) s'il ne fonctionne pas bien sur une nouvelle route. Apprenez simplement au chauffeur (l'agent) à mieux conduire et à choisir les meilleurs angles de vue."

Grâce à cette méthode, les performances des modèles de vision dans des environnements complexes (comme les maisons) ont bondi de manière spectaculaire (jusqu'à +27% de précision), simplement en changeant l'endroit d'où l'on regarde, sans toucher au modèle lui-même.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de perception visuelle pré-entraînés sur des ensembles de données à grande échelle (comme COCO ou des images web) excellent dans des domaines génériques, mais leur performance se dégrade considérablement lorsqu'ils sont déployés dans de nouveaux environnements "incarnés" (embodied), tels que les scènes intérieures. Cette dégradation est causée par des écarts de domaine (domain gaps) liés à la distribution des points de vue, aux motifs d'occlusion et aux sémantiques spatiales.

Les solutions conventionnelles consistent à affiner (fine-tuning) les modèles de perception sur les données de la tâche cible. Cependant, cette approche présente deux limitations majeures :

Oubli catastrophique : La perte des connaissances préalables acquises lors du pré-entraînement.
Coût prohibitif : La nécessité d'annotations spécifiques à la scène (masques de pixels, boîtes 3D, expressions de référence) qui sont difficiles et coûteuses à obtenir.

La question centrale posée par les auteurs est la suivante : Peut-on adapter la perception à de nouveaux domaines sans modifier les modèles eux-mêmes ?

2. Méthodologie : Le Framework Sea2

Les auteurs proposent un changement de paradigme nommé Sea2 (See, Act, Adapt). Au lieu d'adapter les modules de perception, ils adaptent la manière dont ils sont déployés en contrôlant intelligemment le point de vue d'un agent.

Principes Fondamentaux

Modules Gelés : Tous les modules de perception (détection, segmentation, estimation 3D) restent figés (frozen) durant tout le processus. Aucun paramètre de ces modèles n'est mis à jour.
Pas d'Annotations : L'entraînement de l'agent ne nécessite aucune étiquette de vérité terrain (ground-truth) pour les tâches de perception en aval.
Rétroaction Scalaire : L'agent apprend uniquement à partir d'un retour d'information scalaire (scores de confiance, cohérence géométrique) généré par les modules de perception gelés.

Architecture et Pipeline d'Entraînement

Le cœur du système est un Agent Guidé par un Modèle Vision-Language (VLM) qui agit comme un contrôleur de pose de caméra. L'entraînement s'effectue en deux étapes :

Phase 1 : Affinement Supervisé (SFT)
- Le VLM est entraîné sur des trajectoires d'exploration basées sur des règles heuristiques (recherche d'objet, centrage, ajustement de proximité).
- Cela aligne le VLM avec le raisonnement spatial et le format de contrôle nécessaire pour l'interaction incarnée, servant de "démarrage froid" stable.
Phase 2 : Apprentissage par Renforcement Non Supervisé (RL)
- Le VLM est affiné en utilisant l'algorithme GRPO (Group Relative Policy Optimization).
- Fonction de Récompense : La récompense est construite sans supervision externe, basée sur trois composantes :
  - Récompense de Format ( $r_f$ ) : Vérifie que la structure de sortie (raisonnement, type de tâche, action) est correcte.
  - Récompense de Confiance ( $r_c$ ) : Mesure l'augmentation du score de confiance du module de perception entre deux étapes.
  - Récompense Géométrique ( $r_g$ ) : Évalue la cohérence spatiale (superficie de la région prédite par rapport à l'image et alignement avec le centre de l'image).
- L'objectif est de maximiser la qualité cumulative des observations pour les modules gelés.

Fonctionnement de l'Agent

Pour une instruction naturelle (ex: "Segmentez le canapé près de la table"), le VLM :

Décompose l'instruction en métadonnées (type de tâche, description de l'objet).
Sélectionne le module de perception approprié.
Génère un raisonnement ("Thoughts") sur l'occlusion et la position.
Exécute une action discrète (avancer, tourner, regarder) pour ajuster la caméra vers un point de vue plus informatif.

3. Contributions Clés

Premier Framework VLM Plug-and-Play : Une approche d'adaptation active qui est compatible avec divers modèles de perception "hors de la boîte" (off-the-shelf) sans nécessiter de réentraînement des modèles de perception.
Pipeline RL Non Supervisé : Introduction d'une méthode d'apprentissage par renforcement basée sur des récompenses dérivées de la perception elle-même, éliminant le besoin d'annotations denses (masques, boîtes 3D).
Découplage Perception/Contrôle : Création d'un cadre modulaire où la politique de contrôle est apprise indépendamment des architectures de perception, permettant une transfert zéro-shot.
Performance sans Étiquettes : Démonstration qu'une sélection stratégique de points de vue peut compenser les pertes dues aux écarts de domaine sans aucune annotation humaine.

4. Résultats Expérimentaux

Les expériences ont été menées sur les environnements ReplicaCAD et HM3D (via le simulateur Habitat) pour trois tâches de perception visuelle :

Ancrage Visuel (Visual Grounding)
Segmentation
Estimation de Boîtes 3D

Performances sur ReplicaCAD (Améliorations par rapport à la ligne de base) :

Ancrage Visuel : +13,54 % (mAP moyen).
Segmentation : +15,92 % (IoU) et +13,59 % (Dice).
Estimation 3D : +27,68 % (IoU) et +25,35 % (Score de centrage).

Comparaison avec les Baselines :

Les politiques simples (avancer toujours, mouvement aléatoire) dégradent souvent les performances.
Les heuristiques fixes améliorent légèrement les résultats mais échouent face aux erreurs initiales de détection.
L'approche "Shortest Path" (qui connaît la position exacte de l'objet) ne surpasse pas Sea2, prouvant que simplement atteindre l'objet ne suffit pas ; il faut un point de vue optimal pour maximiser l'informativité visuelle.
L'utilisation directe d'un VLM sans entraînement spécifique (SFT+RL) donne des résultats inférieurs à l'initialisation, soulignant la nécessité du pipeline d'entraînement proposé.

5. Signification et Impact

Le travail Sea2 établit une nouvelle direction pour l'adaptation de domaine dans l'IA incarnée (Embodied AI). Il démontre que l'adaptation peut être résolue non pas en modifiant le "cerveau" (le modèle de perception), mais en optimisant les "yeux" (le point de vue de l'observation).

Efficacité des Données : Cette méthode rend possible le déploiement de modèles de perception puissants dans des environnements réels où les annotations sont rares ou inexistantes.
Robustesse : En gelant les modèles de perception, le système évite l'oubli catastrophique et conserve ses capacités de généralisation initiales.
Généralisation : La capacité à gérer des tâches ouvertes (open-ended) via des instructions en langage naturel et à s'adapter à différentes architectures de perception rend cette approche hautement évolutive pour les applications robotiques et de réalité augmentée.

En résumé, Sea2 prouve qu'un agent intelligent capable de "voir, agir et s'adapter" peut surmonter les limitations des écarts de domaine par une exploration active stratégique, offrant une alternative efficace et économique au fine-tuning traditionnel.