Hierarchical Latent Action Model

Each language version is independently generated for its own context, not a direct translation.

Imagine que vous regardez une vidéo de quelqu'un qui prépare un gâteau. Si vous êtes un robot, vous ne voyez pas "préparer un gâteau", vous voyez une succession de mouvements : la main se lève, attrape la farine, verse, mélange, etc.

Le problème, c'est que la plupart des robots actuels sont comme des enfants qui apprennent à marcher : ils se concentrent uniquement sur le mouvement immédiat (lever le pied, poser le pied). Ils ont du mal à comprendre la "grande histoire" ou l'intention derrière ces mouvements, comme "mélanger les ingrédients" ou "mettre au four". De plus, apprendre à un robot demande des milliers d'heures d'experts humains qui lui disent exactement quoi faire à chaque seconde, ce qui est très cher et long.

Voici comment HiLAM (le modèle présenté dans ce papier) change la donne, expliqué simplement :

1. Le Problème : Regarder sans comprendre

Les robots actuels regardent les vidéos et essaient de deviner les mouvements (les "actions latentes") entre deux images. C'est bien pour savoir comment bouger un bras, mais c'est comme essayer de comprendre un livre en lisant seulement un mot à la fois. Vous manquez l'histoire globale. Les vidéos du monde réel contiennent des "compétences" (skills) qui durent longtemps, comme "aller chercher un objet" ou "ouvrir une porte", mais les robots actuels ne voient que les petits mouvements qui composent ces actions.

2. La Solution HiLAM : Le Chef et le Chef de Cuisine

HiLAM fonctionne comme une équipe de cuisine bien organisée avec deux niveaux de gestion :

Le niveau bas (Le Chef de Cuisine) : C'est un expert qui regarde les vidéos et identifie les petits mouvements de base. Il dit : "Ah, la main tourne, la main pousse". C'est ce qu'on appelle les actions latentes.
Le niveau haut (Le Chef d'Équipe) : C'est là que la magie opère. Au lieu de regarder chaque mouvement un par un, ce niveau observe le Chef de Cuisine et dit : "Attends, ces 10 mouvements de tourner et pousser forment une seule compétence : 'Mélanger la pâte'".

L'analogie du Lego :
Imaginez que les mouvements de base sont des briques Lego individuelles.

Les anciens modèles essayaient de construire un château en collant brique par brique sans jamais prendre de recul.
HiLAM, lui, assemble d'abord les briques en sous-ensembles (une tour, un mur, un toit) qu'il appelle des "compétences". Ensuite, il assemble ces sous-ensembles pour créer le château entier.

3. La Magie : Le "Découpage Dynamique" (Dynamic Chunking)

C'est la partie la plus intelligente. Habituellement, pour apprendre, on force les robots à regarder des vidéos de 5 secondes, puis 10 secondes, etc. Mais dans la vraie vie, "ouvrir une porte" peut prendre 2 secondes ou 10 secondes selon la personne.

HiLAM utilise une technique appelée découpage dynamique. Imaginez un film où le réalisateur ne coupe pas la scène à des moments fixes, mais décide de couper la scène exactement quand l'action change.

Si le robot voit quelqu'un marcher vers une table, puis s'arrêter pour attraper une tasse, HiLAM dit : "Stop ! C'est une compétence : 'Approcher'. Maintenant, nouvelle compétence : 'Attraper'".
Il le fait tout seul, sans qu'on lui dise où couper, en détectant les changements dans le mouvement.

4. Pourquoi c'est génial ? (Les Résultats)

Le papier montre que HiLAM apprend à partir de vidéos où personne n'a indiqué les actions. C'est comme si le robot regardait des vidéos YouTube de gens cuisinant, de gens jouant, et apprenait tout seul les règles du jeu.

Économie de données : Pour apprendre une nouvelle tâche complexe (comme assembler un meuble), HiLAM a besoin de beaucoup moins d'exemples que les autres robots. Avec seulement 10% des vidéos d'entraînement habituelles, il arrive à faire aussi bien que les autres avec 100%. C'est comme si un étudiant apprenait un cours entier en ne lisant que les résumés, mais en comprenant tout le reste.
Compréhension du temps : Il excelle dans les tâches longues (comme "aller chercher la clé, ouvrir la porte, aller dans la cuisine"). Il sait que ces étapes sont liées, alors que les autres robots s'égarent souvent au milieu du chemin.

En résumé

HiLAM est un robot qui apprend à regarder des vidéos sans avoir besoin d'un manuel d'instructions. Il a appris à :

Regarder les petits mouvements (les briques).
Les regrouper intelligemment en "actions globales" (les murs).
Utiliser ces groupes pour accomplir des tâches complexes beaucoup plus vite et avec moins d'entraînement.

C'est un pas de géant vers des robots qui comprennent non seulement comment bouger, mais pourquoi ils bougent, en observant simplement le monde qui les entoure.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier "Hierarchical Latent Action Model" (HiLAM), présenté à l'atelier ICLR 2026.

1. Problématique

L'apprentissage robotique repose de plus en plus sur de grandes quantités de données. Cependant, l'obtention de données étiquetées par des actions (action-labeled data) est coûteuse et limite la diversité des jeux de données. Les Modèles d'Actions Latentes (LAMs) ont émergé pour apprendre à partir de vidéos sans étiquettes d'actions en inférant des actions latentes entre les images.

Cependant, les modèles LAM existants présentent deux limitations majeures :

Horizon temporel court : Ils se concentrent sur des transitions de cadres à court terme et capturent principalement des mouvements de bas niveau, négligeant la structure temporelle à long terme.
Manque de structure hiérarchique : Les vidéos sans actions contiennent souvent des compétences de haut niveau (skills) étendues dans le temps, mais les modèles actuels échouent à les extraire. Les approches précédentes supposent souvent des fenêtres de longueur fixe ou des ensembles de compétences prédéfinis, ce qui est inadapté à la variabilité naturelle de la durée des compétences dans le monde réel.

L'objectif est donc d'extraire des compétences latentes (latent skills) de haut niveau à partir de vidéos non étiquetées, sans contrainte de longueur fixe ni besoin d'un ensemble de compétences pré-défini.

2. Méthodologie : HiLAM

Les auteurs proposent HiLAM, un modèle d'action latente hiérarchique qui découvre des compétences latentes en modélisant l'information temporelle à long terme. L'architecture repose sur deux phases principales :

A. Extraction et Encodage Hiérarchique

Extraction d'actions latentes de bas niveau : Un modèle d'inverse dynamique (IDM) pré-entraîné est utilisé pour extraire une séquence d'actions latentes de bas niveau ( $z^l$ ) à partir de vidéos d'observation seule.
Découpage Dynamique (Dynamic Chunking) : Pour capturer les dépendances à long terme, HiLAM utilise l'architecture H-Net. Ce mécanisme apprend à segmenter automatiquement la séquence d'actions latentes en "chunks" (morceaux) de longueur variable.
- Le modèle prédit des indicateurs de frontière ( $b_t$ ) basés sur la dissimilarité des caractéristiques entre tokens consécutifs.
- Les tokens aux frontières sont sélectionnés pour former une séquence résumée de niveau supérieur, représentant une compétence latente ( $z^h$ ).
- Ce processus est itératif (empilement de plusieurs étages), créant une représentation hiérarchique où les niveaux supérieurs opèrent sur des séquences de plus en plus courtes.

B. Objectifs d'Entraînement

Le modèle est entraîné avec une combinaison pondérée de trois pertes :

Prédiction de l'action latente suivante ( $L_{latent}$ ) : Prédire l'action latente suivante dans la séquence (approche "next-token prediction").
Supervision Visuelle ( $L_{rec}$ ) : Utilisation d'un modèle de dynamique directe (FDM) pré-entraîné pour reconstruire les cadres futurs à partir des actions latentes prédites. Cela garantit que les latents conservent les propriétés dynamiques du mouvement.
Régularisation de découpage ( $L_{ratio}$ ) : Empêche les motifs de découpage dégénérés et contrôle la longueur moyenne des chunks.

C. Apprentissage de la Politique Hiérarchique

Une fois les compétences extraites, un cadre de politique hiérarchique est entraîné :

Politique de Haut Niveau ( $\pi_h$ ) : Prédit la compétence latente cible ( $z^h_t$ ) à partir de l'observation actuelle et de l'instruction de tâche.
Politique de Bas Niveau ( $\pi_l$ ) : Prédit l'action latente primitive ( $z^l_t$ ) conditionnée par l'observation et la compétence prédite.
Affinement (Fine-tuning) : La politique de haut niveau est gelée, tandis que la politique de bas niveau est affinée sur des démonstrations expertes avec des actions réelles pour mapper l'espace latent à l'espace d'action réel.

3. Contributions Clés

HiLAM : Un modèle capable de découvrir des compétences latentes de haut niveau à partir de vidéos sans actions, sans hypothèse de longueur fixe ni de vocabulaire de compétences prédéfini.
Mécanisme de Découpage Dynamique : Adaptation de l'architecture H-Net pour segmenter automatiquement les séquences d'actions en compétences sémantiquement cohérentes de durée variable.
Efficacité des Données : Démonstration qu'un pré-entraînement sur des vidéos sans actions (humaines ou robotiques) améliore considérablement l'efficacité de l'apprentissage par renforcement ou par imitation lors de l'affinement sur des tâches cibles.
Interprétabilité : Le modèle préserve la nature "action-like" des latents, permettant de prédire des cadres futurs et de visualiser les frontières des compétences.

4. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark LIBERO (tâches de manipulation robotique) en utilisant des données d'entraînement provenant de vidéos humaines (Something-Something V2) et robotiques (Droid, BridgeV2).

Performance Globale : HiLAM surpasse systématiquement la baseline state-of-the-art (BAKU) sur toutes les suites de tâches (Spatial, Object, Goal, Long).
Efficacité des Données (LIBERO-Long) :
- Avec seulement 10% des démonstrations expertes pour l'affinement, HiLAM atteint un taux de réussite de 45%, contre 23% pour BAKU.
- Avec 50% des démonstrations, HiLAM atteint 84%, égalant les performances de BAKU entraîné avec 100% des données.
- Avec 100% des données, HiLAM atteint 94%, surpassant largement la baseline.
Études d'Ablation :
- L'utilisation de vidéos humaines pour le pré-entraînement s'est révélée légèrement plus efficace que les vidéos robotiques.
- L'architecture hiérarchique (utilisant les représentations de l'étage 2 pour les compétences et l'étage 0 pour les actions) est supérieure aux politiques plates (non hiérarchiques).
Qualité des Compétences : La visualisation des frontières prédites montre que le modèle regroupe correctement les séquences d'actions en compétences sémantiques (ex: "s'approcher du bol", "saisir le bol", "poser le bol"). La prédiction de cadres futurs confirme que les latents contiennent bien l'information dynamique nécessaire.

5. Signification et Limites

Signification :
HiLAM comble un fossé important en permettant l'extraction de compétences de haut niveau à partir de données non étiquetées, rendant l'apprentissage robotique beaucoup plus efficace en termes de données. La capacité à gérer des durées de compétences variables sans supervision est une avancée majeure par rapport aux méthodes précédentes basées sur des fenêtres fixes.

Limites et Travail Futur :

Environnements Simulés : Les expériences sont principalement réalisées dans des environnements simulés (LIBERO). Une validation sur des robots physiques est nécessaire.
Intégration du Langage : L'approche actuelle ne combine pas explicitement les instructions linguistiques avec la découverte de compétences dynamiques. Les auteurs suggèrent que l'intégration du langage (pour guider la découverte) et des signaux de mouvement (pour l'exécution) serait une direction prometteuse pour améliorer la généralisation.
Efficacité Calculatoire : Le modèle repose sur un IDM pré-entraîné pour l'extraction initiale. Un entraînement end-to-end complet pourrait offrir une compréhension plus profonde mais serait plus coûteux en calcul.