LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Ce papier présente LAP, un modèle de planification de procédures qui surpasse les méthodes existantes en exploitant la richesse des descriptions textuelles issues d'un modèle vision-langage pour générer des séquences d'actions plus précises dans les vidéos d'instruction.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry

Publié Wed, 11 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎬 LAP : Le Chef Cuisinier qui parle pour mieux cuisiner

Imaginez que vous voulez apprendre à cuisiner un plat complexe en regardant une vidéo. Le but est de deviner les étapes intermédiaires entre le début (vos ingrédients bruts) et la fin (le plat prêt). C'est ce qu'on appelle la planification de procédure.

Jusqu'à présent, les intelligences artificielles (IA) essayaient de faire cela en regardant uniquement les images de la vidéo. Mais elles avaient un gros problème : la confusion visuelle.

🤔 Le Problème : "Ça ressemble à ça, mais ce n'est pas ça !"

Prenons l'exemple du papier :

  • Imaginez une vidéo où l'on ajoute du café moulu dans un filtre.
  • Imaginez une autre vidéo où l'on égalise la surface du café avec une cuillère.

Si vous regardez juste les images, les deux scènes sont presque identiques ! On voit une main, un filtre, du café, un fond de cuisine. Pour une IA qui ne regarde que les images, c'est comme essayer de distinguer deux jumeaux qui portent exactement le même t-shirt. C'est très difficile de savoir quelle action on est en train de faire.

💡 La Solution de LAP : "Parle-moi de ce que tu vois !"

L'équipe derrière LAP (Language-Aware Planning) a eu une idée géniale : au lieu de se fier uniquement aux yeux (les images), ils ont demandé à l'IA d'utiliser la langue (les mots).

Ils disent : "Les mots sont plus précis que les images. 'Ajouter du café' et 'Égaliser la surface' sont deux phrases très différentes, même si les images se ressemblent."

Voici comment leur système fonctionne, étape par étape, avec une analogie simple :

🛠️ Comment fonctionne LAP ? (Le processus en 3 actes)

1. Le Traducteur Magique (Le VLM)
Imaginez un expert culinaire très intelligent (un modèle de langage) qui regarde la vidéo.

  • Au lieu de juste dire "C'est du café", il décrit l'action avec beaucoup de détails : "On verse doucement le café moulu dans le filtre en papier" ou "On lisse la surface du café avec le dos d'une cuillère pour qu'elle soit plate".
  • LAP utilise une technique spéciale appelée "Professor Forcing". C'est comme un professeur qui force l'élève à apprendre non pas en répétant bêtement la leçon, mais en comprenant la logique pour ne pas se tromper quand le professeur n'est plus là. Cela permet de créer des descriptions de texte très précises et uniques pour chaque action.

2. Le Dictionnaire des Actions (Les "Embeddings")
Une fois que l'IA a transformé l'image en texte détaillé, elle convertit ces mots en une sorte de "code secret" (des vecteurs mathématiques).

  • L'analogie : Imaginez un grand magasin.
    • Si vous mettez toutes les images dans le magasin, les rayons sont encombrés et tout se mélange (le café moulu ressemble à l'égalisation).
    • Si vous mettez les descriptions textuelles dans le magasin, chaque action a son propre rayon bien rangé et distinct. "Ajouter du café" est dans un rayon, "Égaliser" est dans un autre. C'est beaucoup plus facile de trouver son chemin !

3. Le Chef d'Orchestre (Le Modèle de Diffusion)
Maintenant que l'IA a les codes secrets des actions de début et de fin, elle utilise un modèle appelé Diffusion (comme un sculpteur qui part d'un bloc de pierre informe pour révéler une statue).

  • Au lieu de sculpter à partir d'images floues, elle sculpte à partir des codes textuels précis.
  • Elle génère la séquence d'actions intermédiaires (le plan) en suivant ces instructions claires.

🏆 Les Résultats : Pourquoi c'est une révolution ?

Les chercheurs ont testé LAP sur trois grands défis (des bases de données de vidéos de cuisine et de bricolage).

  • Résultat : LAP a battu tous les records précédents (SOTA - State of the Art) avec une marge énorme.
  • Pourquoi ? Parce que dans le monde réel, les actions qui se ressemblent visuellement sont souvent très différentes dans leur intention. En passant par la langue, l'IA comprend l'intention derrière l'action, pas juste l'apparence.

🎭 Une petite anecdote drôle

Dans les tests, si l'IA ne comprenait pas le début ou la fin de la vidéo (elle répondait "Je ne sais pas"), elle se perdait complètement, comme un cuisinier sans recette. Mais si elle comprenait au moins le début ou la fin grâce au texte, elle arrivait souvent à deviner le reste du processus, même si l'image était floue. C'est la puissance du langage : il donne un contexte que l'image seule ne peut pas fournir.

En résumé

LAP est comme un assistant qui ne se contente pas de regarder ce que vous faites, mais qui écoute et décrit ce que vous faites avec des mots précis. En transformant les images ambiguës en descriptions claires, il permet à l'IA de planifier des tâches complexes (comme cuisiner ou réparer quelque chose) beaucoup mieux que jamais auparavant.

C'est la preuve que parfois, pour comprendre le monde, il vaut mieux parler que de simplement regarder.