ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Apprendre à cuisiner sans recette

Imaginez que vous voulez apprendre à faire un sandwich, mais vous n'avez pas de recette. Vous avez juste deux photos :

La photo de départ : Du pain, de la dinde et de la laitue sur la table.
La photo de fin : Un sandwich prêt à être mangé.

Votre but est de deviner les étapes intermédiaires (mettre le pain, ajouter la dinde, ajouter la laitue, etc.).

Les anciennes méthodes d'intelligence artificielle (IA) essayaient de résoudre ce problème en "mangeant" des milliers de vidéos de recettes. Elles apprenaient par cœur (par mémorisation), comme un étudiant qui apprendrait un texte par cœur sans comprendre la logique.

Le problème : Cela demande énormément de temps, de puissance de calcul et de données. De plus, si on demande à l'IA de faire quelque chose qu'elle n'a jamais vu exactement, elle se trompe souvent ou invente des étapes impossibles (comme mettre la dinde avant d'avoir mis le premier morceau de pain).

💡 La Solution : ViterbiPlanNet (Le Chef avec un Guide)

Les auteurs de ce papier proposent une nouvelle approche, ViterbiPlanNet, qui fonctionne différemment. Au lieu de tout mémoriser, l'IA utilise un guide de logique qu'elle consulte en temps réel.

Voici l'analogie pour comprendre comment ça marche :

1. Le "Graphique de Connaissance Procédurale" (PKG) : La Carte au Trésor

Imaginez que vous avez une carte au trésor très détaillée.

Sur cette carte, chaque lieu est une action ("Mettre le pain", "Ajouter la dinde").
Les chemins entre les lieux indiquent ce qui est possible (on peut aller du pain à la dinde) et ce qui est interdit (on ne peut pas mettre la dinde sur le pain du haut avant d'avoir posé le pain du bas).
Cette carte est construite à partir de statistiques : "Dans 80 % des vidéos, après avoir mis le pain, on met la dinde".

2. Le "Viterbi Différentiable" : Le GPS Intelligent

C'est le cœur de l'invention.

Avant : Les IA utilisaient cette carte après avoir essayé de deviner la recette. C'était comme essayer de trouver son chemin à l'aveugle, puis corriger le tir à la fin.
Avec ViterbiPlanNet : L'IA intègre la carte directement dans son cerveau pendant qu'elle apprend.
- Imaginez un GPS qui ne vous dit pas seulement où aller, mais qui vous guide pas à pas en temps réel.
- L'IA regarde les photos de départ et d'arrivée, puis utilise le GPS (la carte) pour calculer le chemin le plus probable.
- Si l'IA fait une erreur, le GPS la corrige immédiatement, et l'IA apprend de cette correction. C'est comme si l'élève apprenait la logique de la cuisine en même temps qu'il pratiquait, guidé par un professeur.

🚀 Pourquoi c'est génial ? (Les Avantages)

Moins de "mémorisation", plus de logique :
Au lieu d'avoir un cerveau énorme (des milliards de paramètres) pour mémoriser chaque recette possible, ViterbiPlanNet est petit et léger. Il a besoin de beaucoup moins de données pour apprendre, car il ne mémorise pas la recette, il comprend la structure de la recette grâce à la carte.
Il ne se trompe pas sur l'ordre :
Grâce à la carte, l'IA ne proposera jamais d'ajouter la sauce sur le pain du haut avant d'avoir posé le pain du bas. Elle respecte la logique du monde réel.
Il s'adapte aux situations nouvelles :
Si vous lui demandez de faire un sandwich avec 5 étapes alors qu'il n'a appris qu'avec 3, il s'en sort bien. Comme il a compris la logique (la carte), il peut extrapoler, contrairement aux autres IA qui paniquent dès qu'on change la longueur de la tâche.

📊 En résumé : La course contre les géants

Les chercheurs ont testé leur méthode contre des géants de l'IA (comme les grands modèles de langage ou les modèles de diffusion qui sont énormes et coûteux).

Résultat : ViterbiPlanNet, avec sa petite taille et son approche logique, a gagné ou égalé les performances des géants.
L'analogie finale : C'est comme comparer un éléphant (les gros modèles) qui doit se souvenir de chaque pas pour traverser une forêt, à un petit écureuil (ViterbiPlanNet) qui possède une carte précise et un sens de l'orientation. L'écureuil arrive plus vite, dépense moins d'énergie et ne se perd pas, même dans une forêt qu'il ne connaît pas parfaitement.

🌟 Conclusion pour le grand public

Ce papier nous dit que pour faire faire des tâches complexes à une IA (comme guider un robot pour cuisiner ou réparer une voiture), il ne faut pas seulement lui donner plus de données. Il faut lui donner de la logique structurée. En intégrant cette logique directement dans le processus d'apprentissage, on obtient des IA plus intelligentes, plus rapides et plus économes en énergie.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le planification procédurale dans les vidéos d'instruction vise à prédire une séquence d'actions permettant de transformer un état visuel initial en un état visuel cible (but).

Limites des approches actuelles : Les méthodes récentes reposent souvent sur de grands modèles (Transformers, LLM, modèles de diffusion) qui apprennent implicitement les structures procédurales à partir de vastes quantités de données. Cela entraîne une faible efficacité échantillonnale (besoin de beaucoup de données), un coût computationnel élevé et une difficulté à généraliser à des horizons de planification non vus durant l'entraînement.
Défi central : Comment intégrer explicitement la connaissance procédurale (les règles de validité des transitions entre actions) dans le processus d'apprentissage pour guider le modèle, plutôt que de le laisser mémoriser ces règles implicitement ?

2. Méthodologie : ViterbiPlanNet

L'approche proposée, ViterbiPlanNet, est un cadre principiel qui intègre explicitement la connaissance procédurale via un Graphe de Connaissance Procédurale (PKG) et un Viterbi Différentiable (DVL).

A. Formalisation du problème

Le problème est modélisé comme un modèle graphique probabiliste où :

Les états latents sont les actions ( $a_t$ ).
Les observations sont les états visuels ( $v_t$ ), avec seulement l'état de départ ( $v_0$ ) et l'état d'arrivée ( $v_T$ ) observés.
L'objectif est de trouver la séquence d'actions $\pi^*$ maximisant la probabilité conjointe :
$\pi^* = \arg \max_{\pi} \prod_{t=1}^T P(a_t | a_{t-1}) \cdot P(v_t | a_t)$
Où $P(a_t | a_{t-1})$ représente les transitions (structure procédurale) et $P(v_t | a_t)$ les émissions (compatibilité visuelle).

B. Composants Clés

Graphe de Connaissance Procédurale (PKG) :
- Un graphe dirigé pré-calculé où les nœuds sont les actions et les arêtes pondérées par des probabilités de transition (estimées par co-occurrence dans les données d'entraînement).
- Il encode les contraintes structurelles (ex: on ne peut pas "ajouter la garniture" avant d'avoir "posé le pain").
Encodage Visuel et Probabilités d'Émission :
- Un réseau neuronal ( $f_{enc}$ ) extrait les caractéristiques des états de départ et d'arrivée.
- Un module ( $f_{emiss}$ ) prédit les probabilités d'émission $P(v_t | a_t)$ pour chaque action possible à chaque étape, basées sur les états visuels initiaux et finaux.
Couche Viterbi Différentiable (DVL) :
- C'est l'innovation centrale. L'algorithme de Viterbi classique utilise des opérations max et argmax non différentiables, empêchant la rétropropagation du gradient.
- Le DVL remplace ces opérations par des relaxations lisses (utilisant log-sum-exp et softmax) pour créer une version différentiable du décodage.
- Cela permet aux gradients de la fonction de perte de planification de remonter à travers le décodeur Viterbi jusqu'au réseau d'émission, forçant le modèle à apprendre des représentations visuelles compatibles avec la structure du graphe.

C. Entraînement

Le modèle est entraîné de bout en bout avec une fonction de perte composite :

$L_{plan}$ : Perte de planification (MSE) entre le plan "soft" prédit par le DVL et le plan ground-truth.
$L_{align}$ : Perte d'alignement visuel-sémantique (pour associer les embeddings visuels aux descriptions textuelles des états).
$L_{task}$ : Perte de classification de tâche (pour préserver la sémantique globale de la tâche).

3. Contributions Principales

ViterbiPlanNet : Un nouveau cadre qui intègre un PKG de manière end-to-end via une couche DVL. Cela permet d'apprendre des probabilités d'émission simples et efficaces en paramètres, plutôt que de mémoriser des règles procédurales complexes.
Protocole d'évaluation unifié : Les auteurs identifient des incohérences majeures dans la littérature (divisions de données, métriques, seeds). Ils proposent un protocole standardisé avec des évaluations statistiques rigoureuses (intervalles de confiance par bootstrap) pour comparer équitablement les méthodes.
Protocole de test "Cross-Horizon" : Une nouvelle méthode pour tester la robustesse des modèles en les entraînant sur des horizons longs (ex: T=6) et en les évaluant sur des horizons plus courts (T=3, 4, 5), vérifiant ainsi la capacité à généraliser la structure procédurale plutôt qu'à mémoriser des séquences spécifiques.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois benchmarks standards : CrossTask, COIN et NIV.

Performance Supérieure : ViterbiPlanNet atteint des performances de pointe (State-of-the-Art) en termes de Taux de Succès (SR), surpassant les méthodes basées sur la diffusion (PDPP, MTID), les LLM (PlanLLM) et les Transformers (SCHEMA).
Efficacité des Paramètres : Le modèle est extrêmement léger (~5-7M de paramètres), soit 2 à 3 ordres de grandeur de moins que les concurrents (ex: MTID a ~1,08 Milliard de paramètres, les LLM en ont des dizaines de milliards).
Efficacité Échantillonnale : Grâce à l'apprentissage guidé par le PKG, ViterbiPlanNet nécessite beaucoup moins de données d'entraînement pour atteindre des performances élevées par rapport aux modèles qui doivent mémoriser les procédures.
Robustesse Cross-Horizon : Le modèle démontre une cohérence supérieure lorsqu'il est testé sur des horizons plus courts que ceux utilisés pour l'entraînement, prouvant qu'il a appris la structure procédurale sous-jacente et non pas des motifs de séquence spécifiques.
Ablations : Les études montrent que l'amélioration provient de l'entraînement guidé par la structure (DVL durant l'entraînement) et non d'un simple post-traitement. L'utilisation du DVL en tant que simple post-traitement (sans entraînement guidé) est moins efficace.

5. Signification et Impact

Paradigme de changement : Le papier démontre que l'intégration explicite de connaissances structurées (graphes) dans le processus d'apprentissage profond est plus efficace que l'approche "brute force" des grands modèles.
Efficacité pour l'IA embarquée : La légèreté du modèle le rend candidat idéal pour des agents intelligents fonctionnant sur des dispositifs à ressources limitées (assistants portables, robots domestiques).
Rigueur Scientifique : En établissant un protocole d'évaluation unifié et en corrigeant les biais des travaux précédents, ce papier fournit une base solide et reproductible pour les recherches futures en planification procédurale.
Généralisation : La méthode s'avère robuste même avec des connaissances procédurales imparfaites ou partielles, suggérant une forte capacité de généralisation à des environnements complexes et variés.

En résumé, ViterbiPlanNet prouve que combiner l'apprentissage profond avec des algorithmes de décodage structurels différentiables permet de créer des planificateurs plus intelligents, plus efficaces et plus robustes que les approches purement basées sur l'apprentissage implicite massif.