Intention-Conditioned Flow Occupancy Models

Each language version is independently generated for its own context, not a direct translation.

🌟 Le Concept : Apprendre à un robot à "comprendre" les intentions

Imaginez que vous voulez apprendre à un robot à faire des tâches complexes, comme cuisiner, ranger une chambre ou jouer au football. Traditionnellement, il faut lui montrer exactement quoi faire pour chaque situation, ce qui prend énormément de temps et de données.

Ce papier propose une nouvelle méthode appelée InFOM (Modèles d'Occupation de Flux Conditionnés par l'Intention). Pour faire simple, c'est comme donner au robot un super-pouvoir de "prédiction" basé sur la compréhension des intentions.

Voici comment cela fonctionne, étape par étape, avec des analogies :

1. Le Problème : Le Robot est perdu dans le chaos

Imaginez une bibliothèque remplie de millions de livres écrits par des milliers d'auteurs différents. Certains écrivent des romans d'horreur, d'autres de la poésie, d'autres des manuels de bricolage. Si vous essayez d'apprendre à lire en mélangeant tout ça sans savoir qui écrit quoi, vous allez devenir confus.

En robotique, c'est pareil. Les données d'entraînement sont souvent un mélange d'actions faites par différents utilisateurs avec des objectifs différents (un veut aller à gauche, l'autre à droite). Les méthodes actuelles essaient de prédire la prochaine action, mais elles oublient souvent pourquoi le robot a fait cette action (l'intention).

2. La Solution : Le "Détective des Intentions"

InFOM agit comme un détective très intelligent. Au lieu de juste regarder les actions (les pas du robot), il essaie de deviner l'intention cachée derrière chaque mouvement.

L'Analogie du Météo : Imaginez que vous regardez un ciel nuageux. Une méthode classique dirait : "Il va pleuvoir". InFOM, lui, dit : "Ah, ces nuages spécifiques signifient qu'il va pleuvoir parce que quelqu'un a ouvert une fenêtre (l'intention), tandis que ces autres nuages signifient qu'il va pleuvoir parce que l'orage arrive".
Le Latent Variable (La variable cachée) : C'est comme une étiquette invisible que le robot colle sur chaque action. Cette étiquette dit : "Action faite avec l'intention de ranger le jouet" ou "Action faite avec l'intention de manger".

3. La Magie : La "Carte des Possibles" (Flux et Occupation)

Une fois que le robot a compris l'intention, il ne se contente pas de répéter ce qu'il a vu. Il apprend à imaginer le futur.

L'Analogie du GPS : Si vous demandez à un GPS "Comment aller à la plage ?", il vous donne un itinéraire. Mais si vous lui demandez "Quels sont tous les endroits que je pourrais visiter si je veux aller à la plage ?", il vous montre une carte avec des milliers de chemins possibles.
InFOM utilise une technique mathématique appelée "Flow Matching" (Appariement de flux) pour créer cette carte. Il apprend à prédire : "Si je suis ici, et que mon intention est X, alors dans 10 secondes, je serai probablement là ou là ou là."
C'est comme si le robot apprenait à rêver de tous les futurs possibles avant de prendre une décision.

4. L'Entraînement : Deux Étapes Clés

Étape 1 : L'Apprentissage Sans Étiquette (Pré-entraînement)
Le robot regarde des heures de vidéos de gens qui font des trucs, sans savoir ce qu'ils veulent faire.

Il essaie de deviner l'intention cachée (le "pourquoi").
Il essaie de prédire où le robot va atterrir dans le futur en fonction de cette intention.
Résultat : Il construit une base de connaissances immense sur "comment le monde fonctionne selon les intentions".

Étape 2 : L'Ajustement Rapide (Fine-tuning)
Maintenant, vous dites au robot : "Ok, maintenant, je veux que tu prennes ce verre".

Au lieu de réapprendre tout depuis zéro, le robot consulte sa "carte des possibles".
Il dit : "Ah, pour prendre ce verre, l'intention est 'saisir'. Je regarde ma carte, je vois tous les chemins qui mènent à un verre saisi, et je choisis le meilleur."
C'est comme si un étudiant avait lu tous les livres de la bibliothèque (pré-entraînement) et qu'il n'avait plus qu'à appliquer ses connaissances à un examen spécifique (fine-tuning).

5. Pourquoi c'est mieux que les autres ?

Les autres méthodes sont comme des élèves qui apprennent par cœur les réponses. Si la question change un tout petit peu, ils sont perdus.

InFOM est comme un élève qui a compris la logique derrière les réponses.

Résultats : Sur 40 tâches différentes (de la marche de robots à la manipulation d'objets), cette méthode a réussi 36% de tâches en plus et a obtenu des scores de réussite bien supérieurs.
Robustesse : Même si les données d'entraînement étaient imparfaites ou mélangées, le robot a réussi à trier le bon du mauvais grâce à sa compréhension des intentions.

🚀 En Résumé

Imaginez que vous donnez à un robot une boîte de Lego géante mélangée, avec des instructions de construction de milliers de châteaux différents.

Les anciennes méthodes essaient de coller les pièces ensemble au hasard jusqu'à ce que ça ressemble à quelque chose.
InFOM regarde les pièces, devine quel type de château on veut construire (l'intention), et utilise une "machine à rêver" pour visualiser exactement comment assembler les pièces pour réussir, même s'il n'a jamais construit ce château précis avant.

C'est une avancée majeure vers des robots qui peuvent apprendre rapidement de nouvelles tâches en comprenant le "pourquoi" derrière les actions, et non juste le "comment".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le domaine de l'apprentissage par renforcement (RL) cherche à adopter le paradigme du pré-entraînement et du fine-tuning (similaire aux grands modèles de fondation en NLP et en vision). Cependant, le RL pose des défis uniques que les approches actuelles peinent à résoudre :

Dépendances temporelles à long terme : Les actions ont des conséquences lointaines, nécessitant un raisonnement sur l'avenir.
Hétérogénéité des intentions : Les données offline sont souvent collectées par différents utilisateurs ou agents exécutant des tâches variées sans étiquettes de récompense explicites. Les modèles actuels négligent souvent cette notion d'"intention" latente.
Limites des modèles existants : Les modèles du monde souffrent d'erreurs cumulatives sur les horizons longs, tandis que les modèles d'occupation (occupancy models) sont difficiles à entraîner et ignorent souvent les intentions de l'utilisateur.

L'objectif est de créer un modèle de fondation capable d'apprendre à partir de données non étiquetées (reward-free) contenant des comportements hétérogènes, puis de s'adapter efficacement à de nouvelles tâches spécifiques.

2. Méthodologie : InFOM

Les auteurs proposent InFOM (Intention-Conditioned Flow Occupancy Models), un cadre probabiliste combinant inférence variationnelle et modèles génératifs basés sur le Flow Matching.

A. Modélisation des Intentions Latentes

Le modèle suppose que le dataset non étiqueté $D$ est généré par une politique comportementale $\beta$ qui est un mélange de politiques conditionnées par des intentions latentes $z \in \mathcal{Z}$ .

Inférence Variationnelle : Un encodeur $p_\phi(z | s', a')$ infère l'intention $z$ à partir de la transition suivante $(s', a')$ . Cela repose sur l'hypothèse de cohérence : les transitions consécutives partagent la même intention.
Objectif : Maximiser la vraisemblance des états futurs $s_f$ en apprenant conjointement l'encodeur d'intention et le modèle d'occupation, via une borne inférieure de vraisemblance (ELBO) qui inclut une régularisation KL pour maintenir les intentions dans un espace latent structuré.

B. Modélisation de l'Occupation par Flow Matching

Au lieu de prédire directement les états futurs, InFOM apprend une mesure d'occupation d'état (state occupancy measure) conditionnée par l'intention.

Flow Matching : Utilisation d'un champ vectoriel dépendant du temps pour transformer une distribution de bruit en une distribution d'états futurs. Cela permet de modéliser des structures multimodales complexes (plusieurs futurs possibles pour une même intention).
TD Flows (Temporal Difference) : Pour intégrer la structure temporelle du RL, les auteurs adaptent le Flow Matching avec l'équation de Bellman. Ils utilisent une variante SARSA de la perte TD Flow, qui permet de "coudre" (stitch) des segments de trajectoires partageant des transitions, favorisant ainsi la généralisation combinatoire.

C. Fine-tuning et Amélioration de Politique Implicite (Implicit GPI)

Lors de la phase de fine-tuning sur une tâche avec récompense :

Estimation de Valeur Générative : On échantillonne des états futurs à partir du modèle d'occupation conditionné par des intentions $z$ , puis on calcule une estimation Monte Carlo de la fonction $Q_z(s, a)$ basée sur les récompenses futures.
GPI Implicite : L'amélioration de politique généralisée (GPI) classique nécessite de maximiser sur un ensemble fini d'intentions, ce qui est instable et sous-optimal pour un espace continu.
- InFOM remplace le "max" explicite par une perte d'expectile (upper expectile loss).
- Cela permet d'enseigner une fonction critique $Q(s, a)$ unique qui approxime implicitement le maximum sur l'espace infini des intentions, sans nécessiter de rétropropagation à travers le solveur d'ODE (ODE solver), assurant ainsi une stabilité numérique.
Extraction de Politique : Une politique est extraite en maximisant cette fonction $Q$ avec une régularisation de Behavioral Cloning pour éviter les actions hors distribution (OOD).

3. Contributions Clés

Modèle de fondation pour le RL : Première méthode à combiner pré-entraînement sur données hétérogènes et fine-tuning efficace en apprenant simultanément des représentations temporelles et des intentions latentes.
Flow Matching Conditionné par l'Intention : Introduction d'un modèle génératif expressif pour prédire les mesures d'occupation d'état futures, capable de capturer la multimodalité des trajectoires.
GPI Implicite via Expectile : Une nouvelle formulation pour l'amélioration de politique généralisée qui évite les instabilités du "max" sur un espace continu d'intentions et supprime le besoin de différenciation à travers les solveurs d'ODE.
Inférence d'Intention Non Supervisée : Capacité à découvrir et structurer les intentions cachées dans des données brutes sans étiquettes de tâches.

4. Résultats Expérimentaux

Les expériences ont été menées sur 36 tâches basées sur l'état (ExORL) et 4 tâches basées sur l'image (OGBench), couvrant la navigation et la manipulation robotique.

Performance Globale : InFOM surpasse 8 méthodes de base (baselines) incluant IQL, ReBRAC, MBPO, et des méthodes basées sur des représentations contrastives.
- Amélioration médiane des retours : 1.8x par rapport aux meilleures méthodes existantes.
- Taux de réussite : Augmentation de 36% sur les tâches de manipulation complexes.
Tâches Visuelles : InFOM surpasse les baselines de 31% sur les tâches utilisant des images RGB, démontrant sa capacité à raisonner directement à partir des pixels.
Analyse des Intentions : La visualisation (t-SNE) des intentions latentes montre que InFOM sépare clairement les comportements (ex: "prendre" vs "placer" un objet), là où les méthodes concurrentes (HILP, FB) mélangent ces intentions.
Robustesse : La méthode est robuste aux variations d'hyperparamètres et montre une convergence plus rapide lors du fine-tuning comparé aux méthodes qui ne pré-entraînent que des politiques de comportement (BC) ou des représentations statiques.

5. Signification et Impact

Ce travail marque une avancée significative vers des agents robotiques généralistes capables d'apprendre à partir de vastes ensembles de données hétérogènes (comme Open X-Embodiment).

Efficacité des échantillons : En apprenant une compréhension profonde des intentions et de la dynamique temporelle, le modèle nécessite beaucoup moins de données étiquetées pour s'adapter à de nouvelles tâches.
Gestion de la complexité : L'utilisation du Flow Matching permet de gérer la complexité des distributions futures mieux que les modèles de diffusion ou les approches autoregressives classiques.
Fondation pour le RL : InFOM propose une voie viable pour appliquer le paradigme des "Foundation Models" au RL, en résolvant le problème central du raisonnement temporel et de l'ambiguïté des intentions dans les données offline.

En résumé, InFOM démontre que l'apprentissage de modèles d'occupation conditionnés par des intentions latentes, couplé à une optimisation de politique implicite, permet de construire des agents RL plus robustes, plus efficaces et capables de généraliser à des tâches complexes non vues lors de l'entraînement.