Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot comment résoudre un casse-tête, comme le célèbre jeu du "taquin" (ces tuiles numérotées qu'il faut remettre dans l'ordre en glissant une case vide).

Jusqu'à présent, les chercheurs testaient ces robots avec des images très simples ou des jeux vidéo classiques (comme Pac-Man). Le problème ? C'était comme tester la capacité d'un élève à lire en lui donnant un livre où les mots changent de police, mais où le fond reste toujours le même. On ne savait pas vraiment si l'élève apprenait à lire (comprendre l'image) ou s'il apprenait juste à mémoriser les positions des mots.

Voici une explication simple de ce papier, qui propose une nouvelle façon de tester ces intelligences artificielles.

1. Le Nouveau Terrain de Jeu : "SPGym"

Les auteurs ont créé un nouveau laboratoire virtuel appelé SPGym (Sliding Puzzles Gym).

L'analogie du "Casse-tête à images changeantes" :
Imaginez un casse-tête classique. Au lieu d'avoir des chiffres de 1 à 8, chaque tuile est un petit morceau d'une photo.
- Le tour de magie : À chaque partie, on change la photo de fond. Parfois, c'est une photo de chat, parfois de voiture, parfois de paysage.
- La règle du jeu : Le robot doit remettre les tuiles dans l'ordre pour reconstituer l'image. Mais le plus important, c'est que les règles du jeu ne changent jamais. Glisser une tuile vers la droite, c'est toujours la même action physique. Seule l'image change.

C'est comme si vous appreniez à conduire une voiture. La route (l'image) change tout le temps (pluie, neige, désert, ville), mais le volant et les pédales (les règles) fonctionnent toujours pareil.

2. Pourquoi c'est important ? (Le problème des "Mémoriseurs")

Les chercheurs voulaient savoir : Est-ce que l'IA comprend vraiment ce qu'elle voit, ou est-ce qu'elle fait juste du "par cœur" ?

L'ancienne méthode : Si on donne toujours la même photo de chat au robot, il finit par apprendre par cœur : "Si je vois un œil en haut à gauche, je glisse la tuile vers la droite". Il ne comprend pas que c'est un œil, il a juste mémorisé un motif.
La méthode SPGym : En changeant constamment les photos (parfois 1 photo, parfois 100, parfois 10 000), on force le robot à arrêter de mémoriser et à commencer à comprendre la logique spatiale. Il doit apprendre à dire : "Peu importe si c'est un chat ou une voiture, cette tuile doit aller ici pour que l'image soit cohérente".

3. Ce qu'ils ont découvert (Les mauvaises nouvelles)

En testant les meilleurs robots actuels avec ce nouveau jeu, les chercheurs ont fait des découvertes surprenantes, un peu comme si on découvrait que nos meilleurs élèves échouaient quand on changeait la couleur de l'encre.

La mémoire à court terme : Plus il y avait de photos différentes, plus les robots devenaient mauvais. Ils semblaient "paniquer" face à la nouveauté.
Le paradoxe de la diversité : Curieusement, les robots entraînés avec peu de photos (par exemple, juste 5 photos de chats) apprenaient vite, mais ils échouaient complètement sur de nouvelles photos. À l'inverse, les robots entraînés avec beaucoup de photos (100 photos) apprenaient plus lentement et finissaient par échouer aussi.
La leçon : Les robots actuels ne "comprennent" pas vraiment les images. Ils mémorisent des motifs spécifiques. Dès qu'ils voient quelque chose de nouveau, ils sont perdus. C'est comme un enfant qui apprend à dire "Bonjour" à son professeur, mais qui ne sait pas dire bonjour à son voisin.

4. Qui a gagné ? (Les héros et les perdants)

Les chercheurs ont testé différentes "stratégies" d'apprentissage :

Le grand gagnant : DreamerV3. C'est un robot qui essaie de construire un "modèle du monde" dans sa tête. Il imagine ce qui va se passer avant de bouger. Il a mieux résisté au changement de photos, un peu comme un conducteur expérimenté qui sait conduire sous la pluie même s'il n'a jamais conduit sur cette route précise.
Les déçus : Beaucoup de méthodes sophistiquées, conçues pour apprendre à partir d'images, ont échoué. Elles étaient trop complexes et se perdaient dans les détails des images plutôt que de se concentrer sur la logique du jeu.
Le gagnant inattendu : Une méthode très simple appelée "Data Augmentation" (qui consiste à faire des versions floues ou en noir et blanc des images pour entraîner le robot). Parfois, la simplicité bat la complexité.

En résumé

Ce papier nous dit une chose cruciale : Nos intelligences artificielles actuelles sont de superbes mémoriseurs, mais de piètres généralisateurs.

Elles excellent dans les environnements qu'elles connaissent, mais dès qu'on leur présente un monde visuel nouveau et varié, elles s'effondrent. Le "SPGym" est donc un nouveau test de stress pour les chercheurs : il va les obliger à créer des robots qui ne se contentent pas de mémoriser des images, mais qui apprennent vraiment à voir et comprendre le monde, peu importe à quoi il ressemble.

C'est un peu comme passer d'un élève qui apprend par cœur un poème, à un élève qui comprend la poésie et peut en écrire de nouvelles, peu importe le sujet.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'apprentissage par renforcement (RL) visuel repose sur la capacité des agents à extraire des informations pertinentes de données brutes (pixels) pour généraliser à divers environnements. Cependant, les benchmarks existants (comme Atari ou DeepMind Control Suite) présentent une limitation majeure : ils mélangent la difficulté de l'apprentissage de représentations visuelles avec celle de l'optimisation de la politique et de la modélisation de la dynamique de l'environnement.

Il est difficile d'évaluer isolément la capacité d'un agent à apprendre de bonnes représentations visuelles, car une baisse de performance peut provenir d'un problème de politique, de dynamique ou de représentation. De plus, des benchmarks récents comme ProcGen modifient simultanément la complexité visuelle et la tâche, tandis que d'autres (comme Distracting Control Suite) introduisent des distracteurs non essentiels à la réussite de la tâche.

Le problème central est donc l'absence d'un outil permettant de scaler (augmenter) systématiquement la complexité visuelle tout en maintenant une dynamique d'environnement, un espace d'actions et une tâche strictement constants.

2. Méthodologie : Le Sliding Puzzles Gym (SPGym)

Les auteurs proposent SPGym, un nouveau benchmark open-source qui transforme le classique puzzle glissant (8-puzzle) en une tâche de RL visuel.

Conception et Principes Clés

Dynamique Fixe : Contrairement aux jeux traditionnels où la difficulté augmente avec la complexité des niveaux, SPGym maintient une dynamique de transition déterministe et identique. La tâche reste toujours : « réorganiser les tuiles pour restaurer l'image originale ».
Scalabilité de la Diversité Visuelle : La complexité est contrôlée via deux mécanismes orthogonaux :
1. Taille du Pool d'Images ( $p$ ) : À chaque épisode, une image est choisie aléatoirement dans un pool de $p$ images (ex: ImageNet). L'agent doit résoudre le puzzle pour cette image spécifique. Augmenter $p$ augmente la diversité visuelle sans changer la dynamique.
2. Taille de la Grille : Passage de $3\times3$ à $4\times4$ , augmentant l'espace d'états et la complexité de la recherche, mais sans changer la nature visuelle de l'observation.
Observations : L'agent reçoit une image composite formée de patches (fragments) d'une image source, disposés selon la configuration actuelle du puzzle. L'agent n'a pas accès à l'état interne (positions des tuiles), uniquement aux pixels.
Récompense : Basée sur la distance de Manhattan normalisée entre la position actuelle et la position cible de chaque tuile, fournissant un signal dense et bien formé.

Protocole Expérimental

Algorithmes Évalués : SAC (Soft Actor-Critic), PPO (Proximal Policy Optimization) et DreamerV3.
Variantes de Représentation : Comparaison de méthodes de pointe incluant l'augmentation de données (RAD), l'apprentissage contrastif (CURL), la prédiction auto-supervisée (SPR), l'apprentissage de métriques d'état (DBC), les auto-encodeurs (AE/VAE) et des modèles de monde (DreamerV3).
Métrique Principale : L'efficacité de l'échantillonnage (nombre d'étapes d'environnement nécessaires pour atteindre 80% de réussite).

3. Contributions Clés

Introduction de SPGym : Un benchmark conçu spécifiquement pour isoler et évaluer l'apprentissage de représentations visuelles en RL en contrôlant la diversité visuelle indépendamment de la dynamique de la tâche.
Analyse Empirique Étendue : Une évaluation systématique des méthodes de RL visuel modernes, révélant leurs limites fondamentales face à une diversité visuelle croissante.
Insights sur la Généralisation : Mise en évidence du fait que les agents actuels tendent à mémoriser des motifs visuels spécifiques plutôt qu'à apprendre des représentations véritablement généralisables, échouant même sur des images de test non vues (Out-of-Distribution - OOD) après un entraînement réussi sur le pool d'entraînement.

4. Résultats Principaux

A. Efficacité et Dégradation avec la Diversité

Dégradation Inévitable : Tous les algorithmes voient leur performance chuter à mesure que la taille du pool d'images augmente.
- PPO : Dégradation rapide, échouant dès un pool de 20 images.
- SAC : Performe mieux sur des pools moyens (jusqu'à 20-30), mais échoue sur des pools plus grands.
- DreamerV3 : Montre la plus grande robustesse, apprenant efficacement jusqu'à un pool de 50 images et montrant des signes d'apprentissage jusqu'à 100 images.
Performance des Méthodes Avancées : Curieusement, des techniques sophistiquées comme CURL, SPR, DBC et VAE sous-performent souvent des approches plus simples comme l'augmentation de données (RAD) ou même le SAC standard.
- Hypothèse : Les méthodes contrastives ou basées sur la prédiction temporelle supposent une certaine continuité ou similarité structurelle entre les états, ce qui est brisé par la diversité extrême des images de fond dans SPGym.

B. Généralisation (In-Distribution vs Out-of-Distribution)

Échec OOD (Hard) : Même les agents qui atteignent 100% de réussite sur leur pool d'entraînement échouent quasi-systématiquement (taux de réussite proche de 0%) sur des images totalement nouvelles (Hard OOD).
Corrélation Mémoire vs Généralisation : Il existe une forte corrélation négative entre la taille du pool d'entraînement et la capacité de généralisation. Paradoxalement, les agents entraînés sur de petits pools (moins diversifiés) sont parfois plus robustes aux perturbations simples (Easy OOD) car ils ont appris des invariances structurelles spécifiques à la tâche, mais ils ne généralisent pas à de nouveaux concepts visuels.
Analyse par Sondage Linéaire (Linear Probing) : La qualité des représentations apprises (mesurée par la précision d'un classifieur linéaire sur les états du puzzle) est fortement corrélée à l'efficacité de l'échantillonnage. Cela confirme que la capacité à extraire l'information spatiale pertinente est le goulot d'étranglement.

C. Impact de la Taille de la Grille

L'augmentation de la grille de $3\times3$ à $4\times4$ augmente drastiquement l'espace d'états ( $10^5$ vs $10^{13}$ ). DreamerV3 et SAC parviennent toujours à résoudre la tâche dans les limites de calcul, tandis que PPO échoue, soulignant l'importance de l'efficacité de l'échantillonnage pour les tâches à grand espace d'états.

5. Signification et Implications

Ce papier met en lumière des lacunes critiques dans les méthodes actuelles de RL visuel :

Limites de la Mémorisation : Les agents actuels semblent apprendre à mémoriser des associations visuelles spécifiques plutôt qu'à développer une compréhension visuelle abstraite et généralisable.
Inadéquation des Hypothèses : De nombreuses méthodes de représentation (contrastives, prédictives) reposent sur des hypothèses de continuité ou de similarité visuelle qui ne tiennent pas dans des environnements où la diversité visuelle est maximale mais la dynamique est fixe.
Nécessité de Nouveaux Approches : Le benchmark suggère que l'augmentation simple de la diversité des données d'entraînement ne suffit pas. Il faut développer des architectures ou des objectifs d'apprentissage qui séparent explicitement l'apprentissage de la représentation visuelle de l'apprentissage de la politique, ou qui intègrent des biais inductifs plus forts pour le raisonnement spatial.

Conclusion : SPGym s'impose comme un outil de diagnostic essentiel pour la communauté du RL, permettant d'identifier les faiblesses des agents face à la diversité visuelle et de guider le développement de systèmes décisionnels plus robustes et véritablement généralisables.