Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Het Probleem: De "Verkeerde" Test

Stel je voor dat je wilt testen hoe goed een auto kan rijden. Je zet hem op een racecircuit. Maar het circuit is zo complex dat je niet weet of de auto faalt omdat de motor (de software) slecht is, of omdat de banden (de visuele waarneming) niet goed zijn, of omdat de weg te glad is.

In de wereld van kunstmatige intelligentie (AI) is dit precies het probleem. We testen robots en software op complexe spelletjes (zoals Atari-games), maar we weten niet precies waarom ze slagen of falen. Is het omdat ze slim zijn, of omdat ze gewoon het spelletje hebben "uitgeleerd" zonder echt te begrijpen wat ze zien?

De Oplossing: Een Nieuw Speeltoestel (SPGym)

De auteurs van dit paper hebben een nieuw laboratoriumbedacht, genaamd SPGym (Sliding Puzzles Gym).

De Vergelijking:
Stel je voor dat je een sleutelhoutpuzzel hebt (zoals het bekende 8-blokkenpuzzel).

Normaal: De blokken hebben nummers (1, 2, 3...). De AI moet de nummers in de juiste volgorde zetten.
In SPGym: De nummers zijn weggegooid. In plaats daarvan zijn de blokken nu kleine stukjes van een foto.
- Soms is het een foto van een hond.
- Soms een foto van een auto.
- Soms een foto van een boom.

De AI moet de puzzel oplossen door de stukjes foto's in de juiste volgorde te leggen, zodat de hele foto weer heel is.

Het Geniale Trucje: De "Draaiknop" voor Moeilijkheid

Het echte knappe aan SPGym is dat de auteurs een draaiknop hebben bedacht om de moeilijkheid te regelen, zonder de regels van het spel te veranderen.

De Basis blijft hetzelfde: De regels zijn altijd hetzelfde: je kunt een blokje naar een leeg plekje schuiven. De logica van het spel verandert nooit.
De "Foto-pool" (De Draaiknop):
- Moeilijkheidsgraad 1: De AI krijgt te maken met één foto (bijvoorbeeld alleen honden). Hij moet de puzzel met honden oplossen. Dit is makkelijk; hij onthoudt gewoon hoe de hond eruitziet.
- Moeilijkheidsgraad 10: De AI krijgt 10 verschillende foto's (honden, auto's, bloemen, huizen...). Hij moet elke keer een willekeurige foto oplossen.
- Moeilijkheidsgraad 100: De AI krijgt 100 verschillende foto's.

De Metafoor:
Het is alsof je een student leert om een auto te besturen.

Eerst oefen je alleen op een weg met rode auto's.
Dan oefen je op een weg met rode, blauwe en groene auto's.
Dan oefen je op een weg met 100 verschillende soorten voertuigen.

Als de student faalt bij 100 voertuigen, weten we nu zeker dat het niet ligt aan het besturen van de auto (de logica), maar aan het herkennen en begrijpen van de verschillende voertuigen (de visuele representatie).

Wat hebben ze ontdekt? (De Verassende Resultaten)

De auteurs hebben de slimste AI-methoden van vandaag de dag op dit spelletje getest. De resultaten waren verrassend en een beetje zorgwekkend:

De "Basis" werkt vaak beter dan de "Geavanceerde":
Simpele trucjes, zoals het willekeurig veranderen van de kleuren van de foto's (data augmentatie), werkten vaak beter dan super-complexe methoden die speciaal zijn ontworpen om patronen te leren.
- Vergelijking: Het is alsof een student die gewoon veel oefent (simpele methode) beter scoort dan een student die een dure, ingewikkelde theorie heeft geleerd (geavanceerde methode), omdat de theorie te ingewikkeld is voor dit specifieke probleem.
Ze onthouden, ze begrijpen niet:
De meeste AI's bleken de puzzels niet echt te begrijpen. Ze onthouden gewoon hoe een specifieke foto eruitziet.
- Als je de AI traint op foto's van honden, kan hij die puzzel perfect oplossen.
- Maar als je hem een foto van een kat geeft (die hij nooit heeft gezien), faalt hij volledig.
- Vergelijking: Het is alsof je iemand leert een deur openen met een sleutel. Hij heeft de sleutel van zijn eigen huis onthouden. Maar als je hem een andere sleutel geeft, weet hij niet hoe hij die moet gebruiken, omdat hij niet begrijpt hoe een slot werkt.
Meer variatie maakt het soms erger:
Je zou denken: "Als ik de AI train op meer verschillende foto's, wordt hij dan slimmer?"
Nee. Hoe meer variatie (meer foto's), hoe slechter de meeste AI's presteerden. Ze raakten in de war en konden hun "herinnering" niet meer gebruiken.

Waarom is dit belangrijk?

Dit paper zegt eigenlijk: "We denken dat onze AI's slim zijn, maar ze zijn eigenlijk maar heel goed in het uit het hoofd leren van specifieke situaties."

Als we AI's willen bouwen die echt slim zijn en zich kunnen aanpassen aan de echte wereld (waar alles anders is dan tijdens het trainen), moeten we stoppen met alleen maar "meer data" te gooien. We moeten methoden vinden die AI's leren om de essentie van een situatie te begrijpen, in plaats van alleen de oppervlakte te onthouden.

Samenvattend:
SPGym is een nieuw, eerlijk testlab dat laat zien dat onze huidige robots nog niet echt "zien" zoals wij. Ze onthouden alleen. Om echt slimme robots te maken, moeten we ze leren om de wereld te begrijpen, niet alleen om foto's te memoriseren.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Effectief visueel representatieleren is cruciaal voor Reinforcement Learning (RL) agents om relevante informatie uit ruwe sensorische invoer (zoals pixels) te halen en te generaliseren over diverse omgevingen. Een groot probleem in het huidige veld is dat bestaande RL-benchmarks (zoals Atari of DeepMind Control Suite) het leren van representaties niet kunnen evalueren in isolatie van andere uitdagingen, zoals policy-optimalisatie of het modelleren van dynamica.

In bestaande benchmarks zijn visuele complexiteit en taakmoeilijkheid vaak verweven. Bijvoorbeeld:

ProcGen verandert zowel visuele als taakmoeilijkheid tegelijkertijd.
Distracting Control Suite introduceert visuele afleidingen die irrelevant zijn voor de taak en die agents veilig kunnen negeren.

Dit maakt het onmogelijk om systematisch te meten hoe goed een agent visuele representaties leert wanneer de visuele diversiteit toeneemt, terwijl de onderliggende taakdynamiek constant blijft. Er is een gebrek aan een benchmark die deze variabelen strikt kan scheiden.

Methodologie: Sliding Puzzles Gym (SPGym)

De auteurs introduceren SPGym, een nieuw open-source benchmark dat de klassieke 8-tegel puzzel transformeert naar een visuele RL-taak. Het kernidee is het vervangen van genummerde tegels door willekeurige afbeeldingspatches.

Belangrijkste ontwerpprincipes:

Gestructureerde Dynamica: De onderliggende dynamica van de puzzel (hoe tegels bewegen, de actie-ruimte, en de beloningsfunctie) blijven strikt constant, ongeacht de moeilijkheidsgraad. De beloning is gebaseerd op de Manhattan-afstand naar de doeltoestand.
Schalbare Visuele Complexiteit: De moeilijkheid wordt uitsluitend gecontroleerd door de visuele diversiteit te variëren. Dit gebeurt door de grootte van de "image pool" (de verzameling afbeeldingen waaruit de tegels worden gehaald) te vergroten.
- De agent moet de puzzel oplossen door een samengestelde afbeelding te reconstrueren.
- Bij elke trainingssessie wordt een pool van $p$ afbeeldingen geselecteerd. Per episode wordt willekeurig één afbeelding gekozen en in $H \times W$ patches verdeeld.
Onafhankelijke Schaling: De auteurs kunnen de visuele diversiteit (poolgrootte) verhogen zonder de state-ruimte, actie-ruimte of overgangsdynamica te veranderen. Dit isoleert de uitdaging van representatieleren.

Experimenteel Opzet:

Algoritmen: Er zijn drie hoofdsoorten RL-algoritmen getest: PPO (Proximal Policy Optimization), SAC (Soft Actor-Critic), en DreamerV3 (een model-based wereldmodel).
Representatiemethoden: Voor SAC zijn diverse state-of-the-art methoden getest, waaronder data augmentatie (RAD), contrastief leren (CURL), self-supervised prediction (SPR), bisimulation learning (DBC), en reconstructie-methode (AE/VAE).
Data: Afbeeldingen zijn gehaald van ImageNet-1k (validatie-set) en later ook van DiffusionDB (procedurally generated) om te verifiëren dat de resultaten niet dataset-specifiek zijn.
Meting: De hoofdmeter is sample efficiency: het aantal stappen dat nodig is om een succespercentage van 80% te bereiken.

Belangrijkste Bijdragen

SPGym Benchmark: Een nieuw, open-source framework dat visuele complexiteit systematisch schaalbaar maakt terwijl de omgevingstaken constant blijven.
Empirische Analyse: Een uitgebreide evaluatie van state-of-the-art methoden die kritieke beperkingen blootlegt in hun vermogen om diverse visuele invoer te verwerken.
Inzichten in Generalisatie: Het paper toont aan dat huidige methoden vaak "memoriseren" in plaats van te generaliseren, en dat complexere representatiemethoden vaak onderpresteren ten opzichte van eenvoudigere benaderingen zoals data augmentatie.

Resultaten en Bevindingen

1. Prestaties per Algoritme:

DreamerV3 presteerde het meest robuust. Het wereldmodel-architectuur (met een decoder voor reconstructie) bleek het beste bestand tegen toenemende visuele diversiteit. Zelfs bij een poolgrootte van 100 kon DreamerV3 nog leren, terwijl andere methoden faalden.
SAC met Data Augmentatie (RAD) presteerde verrassend goed en vaak beter dan geavanceerde methoden zoals CURL of SPR. Eenvoudige augmentaties (grijstinten + kanaal-shuffling) bleken effectiever dan complexe auxiliary loss-functies.
PPO degradeerde snel bij toenemende poolgrootte en faalde vaak al bij een poolgrootte van 20.
Geavanceerde Methoden: Methoden zoals CURL, SPR, DBC en VAE presteerden vaak slechter dan de standaard SAC-baseline, vooral bij grotere pools. Dit suggereert dat hun aannames (zoals gladde latent space of instance discrimination) niet goed aansluiten bij de discontinue aard van de puzzel en de visuele variatie.

2. Generalisatie en Memoriseren:

In-Distribution vs. Out-of-Distribution (OOD): Agents die de training goed presteerden, faalden bijna volledig bij het testen op volledig nieuwe afbeeldingen (Hard OOD), zelfs als ze getraind waren op grote en diverse pools.
Memoriseren: De resultaten suggereren dat agents specifieke visuele patronen memoriseren in plaats van fundamentele, generaliseerbare representaties van de ruimtelijke relaties te leren.
Paradoxale Generalisatie: Agents getraind op kleinere, minder diverse pools presteerden soms beter op "Easy OOD" (geaugmenteerde training-afbeeldingen) dan agents getraind op grote pools. Dit suggereert dat kleine pools de agent dwingen om taak-specifieke invarianties te leren, terwijl grote pools leiden tot overfitting op specifieke visuele content.

3. Linear Probing:
Er werd een sterke negatieve correlatie gevonden tussen de kwaliteit van de geleerde representaties (gemeten via linear probing op de encoder) en de sample efficiency. Agents die betere ruimtelijke informatie in hun latent space hadden, leerden de taak sneller.

4. Schaalbaarheid:

Het vergroten van de puzzelgrootte (van 3x3 naar 4x4) verhoogde de complexiteit van de zoekruimte drastisch, maar DreamerV3 en SAC konden dit nog aan.
Het vergroten van de visuele poolgrootte was echter de grootste uitdaging voor representatieleren, waarbij DreamerV3 de enige was die significant bleef presteren bij zeer grote pools.

Betekenis en Conclusie

De paper concludeert dat er fundamentele beperkingen zijn in huidige visuele RL-methoden. De complexiteit van het leren van representaties uit ruwe pixels wordt vaak onderschat.

Kritiek op bestaande methoden: Veel geavanceerde representatiemethoden, die succesvol waren in andere domeinen, werken niet optimaal in SPGym. Dit wijst op een mismatch tussen de aannames van deze methoden (bijv. gladde overgangen in latent space) en de realiteit van visuele RL-taken met hoge diversiteit.
Richting voor toekomstig onderzoek: Er is behoefte aan methoden die expliciet generalisatie bevorderen in plaats van memorisatie. De auteurs suggereren dat architecturen die visuele representatie en policy-leren beter scheiden, of methoden die sterkere inductieve biases voor visueel redeneren gebruiken, nodig zijn.
SPGym als tool: SPGym biedt een waardevol, gecontroleerd experimenteel veld om de voortgang in robuuste, generaliseerbare beslissingsystemen te meten en te sturen. Het benadrukt dat het simpelweg vergroten van de trainingsdata-diversiteit niet genoeg is met huidige algoritmen.