On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Each language version is independently generated for its own context, not a direct translation.

🧊 Le Grand Défi : Apprendre à un Robot à Naviguer dans la Glace

Imaginez que vous apprenez à un robot à jouer à un jeu vidéo très simple : "La Glace Gelée".
Le but est simple : déplacer un personnage d'un point A à un point B sur une grille, en évitant les trous d'eau (qui font tomber le personnage).

Le problème ? Les robots actuels (les grands modèles d'intelligence artificielle) sont très forts pour mémoriser, mais très mauvais pour comprendre la logique derrière le jeu. Si vous leur montrez un jeu sur une petite carte (3x3), ils réussissent. Mais si vous leur donnez une carte plus grande (10x10) ou si le départ et l'arrivée sont plus loin, ils paniquent et échouent. Ils ont appris par cœur les petites cartes, mais ils n'ont pas compris comment naviguer.

🧠 L'Idée Géniale : Le "Monologue Interne" (Chain-of-Thought)

Les chercheurs ont essayé d'aider le robot en lui demandant de parler à voix haute avant de faire un mouvement. C'est ce qu'on appelle le "Chain-of-Thought" (Chaîne de Pensée).
Au lieu de dire juste "Je vais à droite", le robot doit dire : "Je regarde la carte, il y a un trou ici, donc je ne peux pas aller là. Je vais plutôt monter."

L'objectif de l'article est de voir si cette technique aide le robot à généraliser (c'est-à-dire à réussir sur des cartes qu'il n'a jamais vues, plus grandes ou plus complexes).

🔍 Ce qu'ils ont découvert (Les 3 Révélations)

Les chercheurs ont testé plein de façons différentes de présenter la carte et de faire parler le robot. Voici ce qu'ils ont trouvé :

1. Les Images ne sont pas toujours la solution 🖼️❌

On pensait que donner une image de la carte au robot serait le plus naturel. Faux !

L'analogie : C'est comme si vous appreniez à quelqu'un à conduire en lui montrant des photos de la route, mais sans lui expliquer les règles de circulation.
Résultat : Les robots qui utilisent des images pour la carte et le raisonnement font beaucoup plus d'erreurs que ceux qui utilisent du texte. Le texte est plus clair pour eux.

2. Le secret : Mélanger les ingrédients 🥣✨

C'est la découverte la plus surprenante. Le robot fonctionne mieux quand on lui donne un mélange de formats pour son "monologue interne".

La recette gagnante : Le robot doit d'abord expliquer sa stratégie en langage naturel (comme un humain qui réfléchit : "Je dois éviter le trou"), puis dessiner la nouvelle carte sous forme de grille de texte (un dessin fait de lettres et de points).
L'analogie : Imaginez un architecte qui vous explique son plan en parlant ("On met un mur ici"), puis qui vous montre le croquis à côté. Cette combinaison permet au robot de mieux visualiser le chemin, même sur des cartes géantes (10x10) qu'il n'a jamais vues.

3. Le robot apprend par "trucs", pas par "logique" 🧩

Même avec la meilleure méthode, le robot échoue encore souvent quand la carte devient trop différente de ce qu'il a appris.

Le constat : Le robot ne semble pas avoir appris l'algorithme de la navigation (comme un humain qui comprendrait les maths derrière). Il semble avoir appris à reconnaître des motifs.
L'analogie : C'est comme un élève qui a appris par cœur les réponses d'un examen de 3ème, mais qui échoue dès qu'on change un seul chiffre dans les questions de l'examen de 4ème. Il ne comprend pas la méthode, il a juste mémorisé les réponses.

🏆 Conclusion : Pourquoi c'est important ?

Ce papier nous dit deux choses essentielles :

La forme compte énormément : Pour qu'une IA apprenne à raisonner, la façon dont on lui présente les données (texte vs image, grille vs description) est cruciale. Le mélange "Explication + Grille" est la clé actuelle.
Il reste du travail : Même les meilleurs modèles actuels ne sont pas de vrais "penseurs". Ils sont de très bons "imitateurs". Pour qu'ils deviennent intelligents et capables de s'adapter à n'importe quelle situation (comme un humain), il faut encore améliorer la façon dont on les entraîne.

En résumé : Si vous voulez qu'un robot apprenne à naviguer dans un labyrinthe, ne lui montrez pas juste une photo. Donnez-lui une carte en texte et forcez-le à vous expliquer sa stratégie étape par étape en dessinant le chemin. C'est la seule façon de le rendre un peu plus intelligent ! 🚀

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'intégration du raisonnement (Chain-of-Thought ou CoT) dans les grands modèles de langage (LLM) et les modèles vision-langage (VLM) a considérablement amélioré leurs capacités. Cependant, la généralisation de ces modèles de raisonnement reste mal définie et mal comprise.

Hypothèse de travail : Les capacités de raisonnement actuelles reflètent-elles un véritable apprentissage algorithmique ou simplement une reconnaissance de motifs statistiques (pattern matching) ?
Objectif : Évaluer rigoureusement la capacité de généralisation hors distribution (OOD - Out-of-Distribution) des modèles de raisonnement sur une tâche de planification visuelle simple, en contrôlant précisément les facteurs de difficulté (taille de la carte, distance départ-arrivée, format des données).

2. Méthodologie

Environnement de test : FROZENLAKE

Les auteurs utilisent une tâche de navigation sur une grille (inspirée de FrozenLake de Wu et al., 2024).

Tâche : Un agent doit naviguer d'un point de départ à un trésor sur une grille, en évitant des obstacles (lacs).
Contrôle de la difficulté : La complexité est modulable via la taille de la carte ( $N \times N$ ), la distance $L_\infty$ entre le départ et l'arrivée, et la longueur de la solution optimale.
Données : Entraînement sur des cartes de 3x3 à 6x6. Tests sur des cartes plus grandes (7x7 à 10x10) et/ou avec des distances départ-arrivée plus grandes que celles vues durant l'entraînement.

Représentations des données et du raisonnement

L'étude compare plusieurs formats d'entrée et de traces de raisonnement (CoT) :

Entrées :
- Image (pixels bruts).
- Texte structuré : Description narrative, Tableau (Markdown), Grille ASCII (compacte).
Traces de raisonnement (CoT) :
- Aucun CoT : Réponse directe.
- Description : Narration textuelle des étapes.
- Tableau/Grille : Visualisation textuelle de la carte après chaque mouvement.
- Combinaisons : Grille + Description, Tableau + Description (le modèle décrit le mouvement puis met à jour la représentation visuelle textuelle).

Modèles et Entraînement

Base : Qwen2.5-VL-7B-Instruct.
Protocole : Supervised Fine-Tuning (SFT) sur 10 époques.
Comparaison : Les auteurs comparent leurs modèles avec des approches récentes comme Mirage (raisonnement dans un espace latent continu) et d'autres méthodes basées sur le renforcement.

3. Contributions Clés

Cadre d'évaluation rigoureux : Création d'un environnement contrôlé permettant de dissocier l'effet de la taille de la carte de celui de la distance départ-arrivée, ce qui est souvent confondu dans les benchmarks existants.
Analyse de l'impact du format : Démonstration que le format des traces de raisonnement (CoT) est un facteur critique pour la généralisation OOD, au-delà de la simple présence d'un raisonnement.
Supériorité des formats textuels structurés : Mise en évidence que les modèles purement textuels (utilisant des grilles ASCII) surpassent systématiquement les modèles multimodaux utilisant des images, même avec des techniques avancées de raisonnement latent.
Découverte du format hybride optimal : Identification que la combinaison d'une représentation visuelle textuelle (Grille/Tableau) et d'une description narrative offre la meilleure généralisation.

4. Résultats Principaux

Généralisation In-Distribution (ID)

Le raisonnement CoT améliore la performance sur les cartes de taille similaire à l'entraînement (3x3 à 6x6).
Les entrées textuelles surpassent les entrées images.
Le format combiné Grille + Description atteint la meilleure précision moyenne (91%) sur les données ID.

Généralisation Hors Distribution (OOD)

Échec général : La plupart des modèles voient leur performance chuter drastiquement (souvent < 10%) sur des cartes plus grandes (7x7+) ou avec des distances plus grandes, suggérant un apprentissage par mémorisation plutôt qu'algorithmique.
Résultat surprenant : Le modèle utilisant une entrée Grille et un CoT Grille + Description maintient une performance non triviale jusqu'à des cartes 10x10 (environ 41% de précision moyenne sur les cartes OOD avec $d_\infty \ge 6$ ).
Comparaison avec Mirage : Le modèle proposé (sans CoT complexe) surpasse Mirage Direct (qui utilise un raisonnement latent continu) sur les données ID. Le raisonnement continu de Mirage n'apporte aucun avantage sur cette tâche spécifique.
Distance Départ-But : Lorsque la distance $d_\infty$ dépasse 6 (hors distribution), les modèles sans CoT ou avec seulement une description tombent à ~0%. Seul le format hybride (Grille + Description) conserve une capacité de généralisation.

Analyse des traces

Les traces combinées (Grille + Description) sont plus longues en tokens mais ne sont pas nécessairement la cause de la performance ; c'est la structure de l'information (mise à jour visuelle explicite + raisonnement sémantique) qui compte.
L'entraînement prolongé (20-30 époques) n'améliore pas significativement la généralisation OOD, confirmant que le problème n'est pas le manque d'entraînement mais l'architecture du raisonnement.

5. Signification et Implications

Limites du raisonnement actuel : Les résultats confirment que les LLM actuels peinent à apprendre des algorithmes généraux de planification et tendent à mémoriser des motifs de distribution.
Importance de la représentation : La manière dont l'information est présentée (le format) est aussi cruciale que le modèle lui-même pour la généralisation. Une représentation textuelle compacte et structurée (Grille) permet un meilleur suivi de l'état du monde qu'une image brute ou une simple description.
Direction future : Pour atteindre une véritable généralisation OOD, il ne suffit pas d'ajouter du raisonnement ; il faut concevoir des formats de données qui forcent le modèle à simuler l'état du système (via des grilles/tableaux) tout en raisonnant sémantiquement.
Benchmark : L'environnement proposé devient un outil standard pour mesurer la véritable capacité d'apprentissage algorithmique des futurs modèles, au-delà de la simple performance sur des données d'entraînement.

En résumé, l'article démontre que pour des tâches de planification visuelle, la combinaison d'une représentation d'état structurée (grille) et d'un raisonnement narratif est la clé pour dépasser les limites de généralisation des LLMs, surpassant même des approches multimodales complexes ou basées sur l'espace latent.