Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, wie man ein Puzzle löst. Normalerweise gibt man dem Roboter die Puzzle-Teile als einfache Zahlen oder Symbole. Aber in der echten Welt sieht die Welt nicht aus wie Zahlen – sie sieht aus wie Bilder, Farben und Texturen.

Das ist das Problem, das diese Forscher angehen: Wie lernt ein Roboter, die Welt zu "verstehen", wenn er nur Bilder sieht, und nicht nur Zahlen?

Hier ist eine einfache Erklärung der Arbeit "Sliding Puzzles Gym" (SPGym), als wäre es eine Geschichte:

1. Das Problem: Der verkleidete Lehrer

Bisherige Tests für künstliche Intelligenz (KI) waren wie ein Lehrer, der einem Schüler Mathe beibringt, aber gleichzeitig auch die Schultasche des Schülers prüft. Wenn der Schüler schlecht abschneidet, weiß man nicht: Hat er die Matheaufgabe nicht verstanden, oder war seine Schultasche zu schwer?

In der KI-Forschung war es schwer zu testen, ob eine KI wirklich gut darin ist, Bilder zu verstehen (Repräsentation lernen), oder ob sie einfach nur gut darin ist, die Spielregeln zu lernen. Die beiden Dinge waren immer vermischt.

2. Die Lösung: Ein Puzzle-Trainingslager (SPGym)

Die Forscher haben ein neues Trainingslager namens SPGym gebaut. Stell dir das wie ein riesiges Puzzle-Spiel vor, bei dem die Teile keine Zahlen sind, sondern Fotos.

Das Grundspiel bleibt gleich: Es ist immer dasselbe 8-Teile-Puzzle (wie ein klassisches Schiebespiel). Die Regeln, wie man die Teile schiebt, ändern sich nie.
Das Bild ändert sich: Das einzige, was sich ändert, ist das Foto, das auf den Puzzleteilen zu sehen ist.
- Level 1: Alle Teile zeigen das gleiche Foto von einer Katze. Das ist leicht.
- Level 10: Die Teile zeigen 10 verschiedene Fotos von Tieren. Das ist schwerer.
- Level 100: Die Teile zeigen 100 verschiedene Fotos von Autos, Landschaften und Menschen. Das ist extrem schwer.

Der Clou: Da die Spielregeln (wie man schiebt) immer gleich bleiben, können die Forscher genau messen, wie sehr die KI unter der Vielfalt der Bilder leidet. Wenn die KI bei 100 Bildern scheitert, liegt es nicht daran, dass sie die Regeln vergessen hat, sondern daran, dass sie die Bilder nicht gut genug "versteht".

3. Das Experiment: Die KI-Studenten

Die Forscher haben verschiedene KI-Methoden (die "Studenten") in dieses Trainingslager geschickt, um zu sehen, wer am besten lernt.

Der einfache Lerner (Daten-Augmentation): Dieser Student hat gelernt, Bilder zu drehen, zu graustufen oder Farben zu mischen, um flexibler zu werden. Er hat überraschend gut abgeschnitten! Es war wie ein Student, der einfach lernt, "die Welt ist chaotisch, also ignoriere die Details und achte auf die Form".
Die komplexen Genies (Fortgeschrittene Methoden): Es gab viele hochkomplexe KI-Methoden, die versuchten, tiefe mathematische Muster in den Bildern zu finden. Die meisten davon haben schlechter abgeschnitten als der einfache Lerner. Sie waren wie Studenten, die zu viel nachdachten und sich in den Details der Bilder verloren, statt das große Ganze zu sehen.
Der Welt-Modellierer (DreamerV3): Ein besonders cleverer Ansatz, der versucht, eine Vorhersage zu treffen ("Was passiert als Nächstes?"). Dieser Student war der Beste. Er konnte auch bei sehr vielen verschiedenen Bildern noch gut lernen.

4. Die schockierende Entdeckung: Auswendiglernen vs. Verstehen

Das Wichtigste, was die Forscher herausfanden, ist eine traurige Wahrheit über die aktuelle KI:

Die KIs haben die Bilder oft nur auswendig gelernt, statt sie wirklich zu verstehen.

Wenn sie mit 5 Bildern trainiert wurden, konnten sie diese 5 Bilder perfekt lösen.
Aber wenn man ihnen ein ganz neues Bild zeigte, das sie noch nie gesehen hatten, waren sie komplett verloren. Sie schafften es fast nie, das Puzzle mit einem neuen Bild zu lösen.

Die Analogie: Stell dir vor, du hast gelernt, ein Auto zu fahren, indem du nur eine einzige Straße im Kopf hast. Du kennst jede Kurve auswendig. Wenn du aber auf eine neue Straße fährst, weißt du nicht, wie man lenkt. Die KIs in diesem Test waren wie dieser Fahrer: Sie kannten die "Straße" (die Trainingsbilder), aber sie konnten nicht auf eine neue "Straße" (neue Bilder) umsteigen.

5. Warum ist das wichtig?

Diese Arbeit ist wie ein Warnsignal für die KI-Forschung. Sie zeigt uns:

Unsere aktuellen Methoden sind oft zu starr. Sie lernen Muster auswendig, anstatt die Welt wirklich zu verstehen.
Einfach mehr Bilder zu zeigen, hilft nicht unbedingt. Wenn die KI nicht die richtigen Werkzeuge hat, um Bilder zu verarbeiten, bringt ihr 10.000 Bilder nichts.
Wir brauchen neue Wege, damit KIs generalisieren können – also das Gelernte auf völlig neue Situationen anwenden können, ohne neu lernen zu müssen.

Zusammenfassend:
Die Forscher haben ein Puzzle-Spiel gebaut, bei dem die Schwierigkeit nur durch die Vielfalt der Bilder steigt. Sie haben gezeigt, dass viele moderne KI-Methoden bei dieser Aufgabe scheitern, weil sie Bilder nur auswendig lernen und nicht wirklich verstehen. Es ist ein Aufruf, KI-Systeme zu bauen, die so flexibel sind wie ein menschlicher Mensch, der sofort erkennt, dass ein neuer Schlüssel genauso funktioniert wie ein alter, auch wenn er anders aussieht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Im Bereich des visuellen Reinforcement Learning (RL) ist das Lernen aussagekräftiger Repräsentationen aus rohen Pixeleingaben entscheidend für die Generalisierungsfähigkeit von Agenten. Bestehende Benchmarks (wie Atari oder DeepMind Control Suite) evaluieren jedoch die Gesamtleistung des Agenten, wobei Repräsentationslernen, Policy-Optimierung und Umgebungs-Dynamik untrennbar miteinander verflochten sind.

Lücke: Es fehlt ein Benchmark, der die Fähigkeit zur Repräsentationslernen isoliert von anderen Lernherausforderungen systematisch bewerten kann.
Herausforderung: Aktuelle spezialisierte Benchmarks (z. B. ProcGen oder Distracting Control Suite) variieren oft gleichzeitig visuelle und task-spezifische Schwierigkeiten oder fügen irrelevante Ablenkungen hinzu, was eine präzise Messung des reinen visuellen Lernens erschwert.

2. Methodik: Sliding Puzzles Gym (SPGym)

Die Autoren stellen SPGym vor, ein Open-Source-Benchmark, der das klassische 8-Fliesen-Puzzle (Sliding Tile Puzzle) in eine visuelle RL-Aufgabe transformiert.

Design-Prinzipien:
1. Konstante Dynamik: Die Umgebungs-Dynamik, der Aktionsraum und die Belohnungsfunktion bleiben über alle Experimente hinweg unverändert.
2. Skalierbare visuelle Komplexität: Die Schwierigkeit wird ausschließlich durch die Variation der visuellen Eingaben gesteuert.
  - Fliesen: Anstelle von nummerierten Kacheln werden zufällige Bildausschnitte (Image Patches) verwendet.
  - Pool-Größe: Zu Beginn eines Trainingslaufs wird ein Pool von $p$ Bildern aus einem Datensatz (z. B. ImageNet-1k) gezogen. Pro Episode wird ein Bild zufällig ausgewählt, in $H \times W$ Patches zerlegt und als Puzzle angeordnet.
3. Feste Aufgabe: Das Ziel bleibt immer die Rekonstruktion des ursprünglichen Bildes durch Verschieben der Kacheln.
Formalisierung:
- Das Problem wird als teilweise beobachtbarer Markov-Entscheidungsprozess (POMDP) modelliert.
- Der Agent hat keinen Zugriff auf den internen Zustand $s$ , sondern nur auf die visuelle Beobachtung $o$ .
- Belohnung: Dichte Belohnung basierend auf der normalisierten Manhattan-Distanz zwischen aktueller und Zielposition der Kacheln.
- Skalierung: Die Komplexität wird durch zwei Mechanismen erhöht:
  1. Erhöhung der Bildpool-Größe (steigende visuelle Diversität bei gleichbleibendem Zustandsraum).
  2. Erhöhung der Gittergröße (z. B. von $3 \times 3$ auf $4 \times 4$ ), was den Zustandsraum exponentiell vergrößert.

3. Schlüsselbeiträge

Einführung von SPGym: Ein neuer Benchmark, der es ermöglicht, visuelle Komplexität systematisch zu skalieren, während die Umgebungs-Dynamik konstant bleibt. Dies isoliert die Herausforderung des Repräsentationslernens.
Umfassende empirische Analyse: Evaluation von State-of-the-Art-Methoden (PPO, SAC, DreamerV3) und deren Varianten (mit Data Augmentation, Contrastive Learning, World Models etc.).
Fundamentale Erkenntnisse: Aufdeckung kritischer Grenzen aktueller Methoden beim Umgang mit visueller Diversität und Generalisierung, insbesondere die Tendenz zu „Auswendiglernen" (Memorization) statt echtem Verständnis.

4. Ergebnisse

Die Experimente umfassten verschiedene Algorithmen (PPO, SAC, DreamerV3) und Repräsentationslern-Techniken (RAD, CURL, SPR, DBC, AE/VAE, Pretraining) mit Bildpools von 1 bis 100 Bildern.

Leistungsfähigkeit der Algorithmen:
- DreamerV3 zeigte die robusteste Skalierung und behielt auch bei großen Bildpools (bis 50–100 Bilder) eine hohe Leistung bei. Dies unterstreicht die Effektivität von Weltmodellen und rekonstruktiven Zielen für dieses Szenario.
- SAC mit Data Augmentation (RAD) performte überraschend gut und oft besser als komplexere Methoden, was darauf hindeutet, dass einfache Regularisierung effektiver sein kann als spezialisierte auxiliary tasks.
- Komplexe Methoden (CURL, SPR, VAE, DBC) schnitten oft schlechter ab als einfache Baselines oder SAC. Die Autoren führen dies auf Fehlanpassungen zurück (z. B. Annahme glatter Latent-Spaces bei diskreten Kachelbewegungen oder Fokus auf globale statt lokale Merkmale).
Generalisierung (In-Distribution vs. Out-of-Distribution):
- In-Distribution: Agenten lernten die Aufgabe mit den Trainingsbildern erfolgreich.
- Easy OOD (Augmentierte Trainingsbilder): Die Leistung sank bereits bei leichten Störungen, und zwar stärker, je größer der Trainingspool war.
- Hard OOD (Völlig neue Bilder): Agenten scheiterten fast vollständig (nahezu 0 % Erfolg), selbst wenn sie auf großen, diversen Pools trainiert wurden.
- Schlussfolgerung: Aktuelle RL-Methoden neigen dazu, spezifische visuelle Muster zu memorieren, anstatt generalisierbare Repräsentationen zu lernen, die strukturelle Invarianzen des Puzzles erfassen.
Korrelation Repräsentationsqualität & Leistung:
- Eine starke negative Korrelation ( $r \approx -0.81$ ) wurde zwischen der Sample-Effizienz und der Genauigkeit eines „Linear Probes" (ein einfacher Klassifikator auf den gelernten Encodern) gefunden. Dies bestätigt, dass die Qualität der visuellen Repräsentation direkt die Lerngeschwindigkeit bestimmt.
Einfluss der Pool-Größe:
- Paradoxerweise führte das Training auf größeren, diverseren Pools oft zu einer schlechteren Generalisierung auf einfache Störungen, was darauf hindeutet, dass Agenten auf kleineren Pools spezifischere, robustere Invarianzen für die Aufgabe lernen.

5. Bedeutung und Implikationen

Diagnostisches Werkzeug: SPGym dient als effektives Diagnoseinstrument, um zu identifizieren, welche RL-Ansätze tatsächlich robuste visuelle Repräsentationen lernen und welche lediglich auf spezifischen Trainingsdaten überanpassen.
Kritik am Status Quo: Die Ergebnisse zeigen, dass viele fortschrittliche Repräsentationslern-Techniken (die in anderen Domänen erfolgreich sind) in diesem kontrollierten, aber visuell diversen Setting versagen. Dies deutet auf fundamentale Lücken im Verständnis von visueller Generalisierung in RL hin.
Zukünftige Richtungen: Die Arbeit fordert neue Ansätze, die über reines Memorieren hinausgehen, z. B. durch stärkere induktive Biases für visuelles Reasoning, bessere Trennung von Repräsentations- und Policy-Lernen oder Regularisierungstechniken, die Memorierung explizit unterdrücken.
Skalierbarkeit: Der Benchmark ist erweiterbar (z. B. durch prozedural generierte Bilder oder größere Gitter), was ihn zu einem wertvollen Werkzeug für die Entwicklung robuster, generalisierbarer KI-Agenten macht.

Zusammenfassend etabliert SPGym einen neuen Standard für die Bewertung von visuellem RL, indem es die Komplexität der Repräsentation isoliert und zeigt, dass aktuelle Methoden bei echter visueller Diversität und Generalisierung noch erhebliche Defizite aufweisen.