LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Each language version is independently generated for its own context, not a direct translation.

🎬 LAP : Le Chef Cuisinier qui parle pour mieux cuisiner

Imaginez que vous voulez apprendre à cuisiner un plat complexe en regardant une vidéo. Le but est de deviner les étapes intermédiaires entre le début (vos ingrédients bruts) et la fin (le plat prêt). C'est ce qu'on appelle la planification de procédure.

Jusqu'à présent, les intelligences artificielles (IA) essayaient de faire cela en regardant uniquement les images de la vidéo. Mais elles avaient un gros problème : la confusion visuelle.

🤔 Le Problème : "Ça ressemble à ça, mais ce n'est pas ça !"

Prenons l'exemple du papier :

Imaginez une vidéo où l'on ajoute du café moulu dans un filtre.
Imaginez une autre vidéo où l'on égalise la surface du café avec une cuillère.

Si vous regardez juste les images, les deux scènes sont presque identiques ! On voit une main, un filtre, du café, un fond de cuisine. Pour une IA qui ne regarde que les images, c'est comme essayer de distinguer deux jumeaux qui portent exactement le même t-shirt. C'est très difficile de savoir quelle action on est en train de faire.

💡 La Solution de LAP : "Parle-moi de ce que tu vois !"

L'équipe derrière LAP (Language-Aware Planning) a eu une idée géniale : au lieu de se fier uniquement aux yeux (les images), ils ont demandé à l'IA d'utiliser la langue (les mots).

Ils disent : "Les mots sont plus précis que les images. 'Ajouter du café' et 'Égaliser la surface' sont deux phrases très différentes, même si les images se ressemblent."

Voici comment leur système fonctionne, étape par étape, avec une analogie simple :

🛠️ Comment fonctionne LAP ? (Le processus en 3 actes)

1. Le Traducteur Magique (Le VLM)
Imaginez un expert culinaire très intelligent (un modèle de langage) qui regarde la vidéo.

Au lieu de juste dire "C'est du café", il décrit l'action avec beaucoup de détails : "On verse doucement le café moulu dans le filtre en papier" ou "On lisse la surface du café avec le dos d'une cuillère pour qu'elle soit plate".
LAP utilise une technique spéciale appelée "Professor Forcing". C'est comme un professeur qui force l'élève à apprendre non pas en répétant bêtement la leçon, mais en comprenant la logique pour ne pas se tromper quand le professeur n'est plus là. Cela permet de créer des descriptions de texte très précises et uniques pour chaque action.

2. Le Dictionnaire des Actions (Les "Embeddings")
Une fois que l'IA a transformé l'image en texte détaillé, elle convertit ces mots en une sorte de "code secret" (des vecteurs mathématiques).

L'analogie : Imaginez un grand magasin.
- Si vous mettez toutes les images dans le magasin, les rayons sont encombrés et tout se mélange (le café moulu ressemble à l'égalisation).
- Si vous mettez les descriptions textuelles dans le magasin, chaque action a son propre rayon bien rangé et distinct. "Ajouter du café" est dans un rayon, "Égaliser" est dans un autre. C'est beaucoup plus facile de trouver son chemin !

3. Le Chef d'Orchestre (Le Modèle de Diffusion)
Maintenant que l'IA a les codes secrets des actions de début et de fin, elle utilise un modèle appelé Diffusion (comme un sculpteur qui part d'un bloc de pierre informe pour révéler une statue).

Au lieu de sculpter à partir d'images floues, elle sculpte à partir des codes textuels précis.
Elle génère la séquence d'actions intermédiaires (le plan) en suivant ces instructions claires.

🏆 Les Résultats : Pourquoi c'est une révolution ?

Les chercheurs ont testé LAP sur trois grands défis (des bases de données de vidéos de cuisine et de bricolage).

Résultat : LAP a battu tous les records précédents (SOTA - State of the Art) avec une marge énorme.
Pourquoi ? Parce que dans le monde réel, les actions qui se ressemblent visuellement sont souvent très différentes dans leur intention. En passant par la langue, l'IA comprend l'intention derrière l'action, pas juste l'apparence.

🎭 Une petite anecdote drôle

Dans les tests, si l'IA ne comprenait pas le début ou la fin de la vidéo (elle répondait "Je ne sais pas"), elle se perdait complètement, comme un cuisinier sans recette. Mais si elle comprenait au moins le début ou la fin grâce au texte, elle arrivait souvent à deviner le reste du processus, même si l'image était floue. C'est la puissance du langage : il donne un contexte que l'image seule ne peut pas fournir.

En résumé

LAP est comme un assistant qui ne se contente pas de regarder ce que vous faites, mais qui écoute et décrit ce que vous faites avec des mots précis. En transformant les images ambiguës en descriptions claires, il permet à l'IA de planifier des tâches complexes (comme cuisiner ou réparer quelque chose) beaucoup mieux que jamais auparavant.

C'est la preuve que parfois, pour comprendre le monde, il vaut mieux parler que de simplement regarder.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier de recherche "LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos" (Planification consciente du langage pour la planification de procédures dans les vidéos pédagogiques).

1. Problématique et Contexte

La planification de procédures consiste à prédire une séquence d'actions intermédiaires qui transforment une observation visuelle de départ en une observation visuelle de but, à partir de vidéos pédagogiques.

Limitation des approches existantes : La majorité des méthodes actuelles reposent principalement sur les observations visuelles. Cependant, celles-ci souffrent d'une ambiguïté inhérente : des actions différentes peuvent sembler visuellement très similaires (par exemple, le fond, les objets et les mains peuvent être identiques pour "Ajouter du café" et "Niveler la surface"). Cela rend difficile pour un modèle de distinguer les actions uniquement sur la base de l'image.
Hypothèse centrale : Les auteurs postulent que les descriptions textuelles offrent une représentation plus distinctive dans l'espace latent que les embeddings visuels, car le langage permet de mieux capturer la sémantique spécifique de chaque action, réduisant ainsi l'ambiguïté.

2. Méthodologie : Le modèle LAP

Le modèle proposé, LAP (Language-Aware Planning), est une architecture hybride qui transforme le domaine visuel en domaine textuel pour la planification, utilisant des modèles de diffusion. Le processus se décompose en trois étapes principales :

A. Affinement des descriptions (Professor Forcing)

Pour éviter la confusion causée par des verbes ou noms communs (ex: "Ajouter" utilisé dans plusieurs actions), le modèle génère des descriptions textuelles élaborées.

Un Grand Modèle de Langage (LLM) pré-entraîné est utilisé pour paraphraser les étiquettes d'actions brèves en descriptions détaillées (en s'appuyant sur des instructions de type WikiHow).
Un Modèle de Langage Visuel (VLM) est affiné (fine-tuned) pour prédire ces descriptions élaborées à partir des vidéos.
Technique clé : L'affinement utilise le Professor Forcing. Contrairement au Teacher Forcing (qui utilise les vraies étiquettes pendant l'entraînement) ou au Free Running (qui utilise les prédictions précédentes), le Professor Forcing alterne aléatoirement entre les deux modes pendant l'entraînement. Un discriminateur est ajouté pour minimiser la distance de distribution entre les tokens générés dans les deux modes, assurant ainsi que le modèle reste robuste à l'inférence (où il ne peut pas voir la vérité terrain).

B. Transformation Vidéo vers Texte (Video-to-Text)

Le VLM affiné génère plusieurs descriptions textuelles pour les observations de départ ( $o_s$ ) et de but ( $o_g$ ).
Un mécanisme de sélection (basé sur le score ROUGE-1 par rapport aux descriptions de référence) choisit la description la plus représentative pour chaque action.
Un encodeur textuel (pré-entraîné sur HowTo100M) extrait les embeddings textuels ( $E_{\hat{a}_s}$ et $E_{\hat{a}_g}$ ) correspondants.

C. Planification par Modèles de Diffusion

La planification elle-même est effectuée par un modèle de Diffusion Probabiliste à Débruitage (DDPM).
Entrée du modèle : Le vecteur d'entrée $x_0$ combine les actions de départ et de but sous forme d'embeddings textuels, tandis que les actions intermédiaires sont initialisées à zéro (ou bruitées).
Processus : Le modèle apprend à débruiter la séquence d'actions intermédiaires en conditionnant la génération sur les embeddings textuels du début et de la fin. Contrairement aux approches précédentes qui bruitent tout, ici, la dimension des embeddings textuels (départ/but) reste fixe et non bruitée pour maintenir le contexte sémantique fort.

3. Contributions Clés

Nouvelle approche LAP : Introduction d'un modèle de planification qui utilise la richesse et la distinction du langage pour combler le fossé entre l'observation visuelle et la planification d'actions.
Performance SOTA : Atteinte d'états de l'art (SOTA) avec des marges significatives sur trois benchmarks majeurs (CrossTask, Coin, NIV) à travers plusieurs métriques et horizons temporels.
Preuve empirique de la supériorité textuelle : Démonstration que les embeddings textuels offrent une représentation plus distinctive dans l'espace latent que les observations visuelles, en particulier pour les tâches où la similarité visuelle est élevée.

4. Résultats Expérimentaux

Les expériences ont été menées sur les jeux de données CrossTask, Coin et NIV avec des horizons temporels ( $T$ ) allant de 3 à 6.

Métriques : Taux de réussite (SR - Success Rate), Précision moyenne (mAcc), et Intersection sur Union moyenne (mSIoU).
Performance globale : LAP surpasse systématiquement les méthodes de référence (PDPP, ActionDiffusion, SCHEMA, PlanLLM, etc.).
- Sur CrossTask ( $T=3$ ) : SR de 41.14% contre 33.9% pour le meilleur concurrent (PDPP).
- Sur Coin ( $T=3$ ) : SR de 44.43% contre 33.22% pour PlanLLM (qui bénéficie pourtant d'observations visuelles intermédiaires).
- Sur NIV ( $T=3$ ) : SR de 56.51%, surpassant le meilleur baseline de près de 19 points.
Analyse des ablations :
- Texte vs Visuel : Remplacer les embeddings textuels par des features visuelles (LAP-vo) entraîne une chute drastique des performances, confirmant que le texte est plus discriminatif.
- Professor Forcing : L'utilisation du Professor Forcing améliore significativement les performances par rapport au simple Teacher Forcing.
- Amélioration linguistique : L'utilisation de descriptions élaborées (via LLM) plutôt que des étiquettes brèves améliore la précision de la prédiction des actions de départ et de but.
- Visualisation : Les visualisations dans l'espace latent montrent que les embeddings textuels forment des clusters plus compacts et séparables que les features visuelles, qui sont souvent plus "encombrés" (cluttered).

5. Signification et Impact

Ce travail démontre que pour la planification de procédures complexes, le langage n'est pas seulement un complément, mais un vecteur de représentation supérieur aux données visuelles brutes dans certains contextes.

Résolution de l'ambiguïté : En transformant le problème visuel en problème textuel, le modèle contourne les limites de la similarité visuelle entre des actions distinctes.
Efficacité des modèles génératifs : L'intégration réussie des embeddings textuels dans un modèle de diffusion prouve que ces architectures peuvent gérer efficacement des séquences d'actions conditionnées par la sémantique.
Futur de l'interaction Humain-AI : Cette approche ouvre la voie à des systèmes d'IA plus robustes capables d'assister les humains dans des tâches réelles en comprenant non seulement ce qu'ils voient, mais aussi ce qu'ils disent et décrivent, réduisant ainsi les erreurs de planification dues à l'ambiguïté visuelle.

En résumé, LAP établit un nouveau standard en prouvant que l'incorporation consciente du langage (via des VLM et des LLM) dans le processus de planification est cruciale pour atteindre une haute précision dans la compréhension et la génération de séquences d'actions procédurales.