Visual Planning: Let's Think Only with Images

Each language version is independently generated for its own context, not a direct translation.

🎨 Die Idee: "Denken mit Bildern statt mit Worten"

Stell dir vor, du musst einem Freund den Weg durch ein riesiges Labyrinth erklären.

Der alte Weg (Text-basiert): Du müsstest ihm sagen: "Gehe drei Schritte geradeaus, dann links, dann wieder zwei Schritte, aber pass auf, da ist eine Mauer..." Das ist mühsam. Oft vergisst man Details, oder die Beschreibung wird so lang, dass man den Überblick verliert. Das ist so, als würde man versuchen, ein Bild mit Worten zu malen – es funktioniert, aber es ist nicht die natürlichste Art.
Der neue Weg (Visual Planning): Stell dir vor, du zeichnest einfach eine kleine Skizze, wie der Weg aussieht. Du zeigst dem Freund einen Pfeil, dann einen anderen, dann einen weiteren. Du musst gar nichts sagen. Das Bild "denkt" für sich selbst.

Genau das machen die Forscher in diesem Papier. Sie sagen: "Warum sollen Computer für räumliche Aufgaben (wie Labyrinthe oder Navigation) erst alles in Text umwandeln? Warum können sie nicht direkt mit Bildern planen?"

🤖 Die Helden: Ein Maler ohne Sprache

Normalerweise sind die besten KI-Modelle (wie die großen Sprachmodelle) wie Super-Redakteure. Sie können alles in Worten beschreiben, aber wenn es um komplexe räumliche Logik geht, stolpern sie oft über ihre eigenen Worte.

Die Forscher haben sich ein spezielles Modell ausgesucht, das nur Bilder "kennt". Es hat nie einen einzigen Buchstaben gelernt. Es ist wie ein genialer Maler, der keine Sprache spricht.

Es sieht eine Start-Situation (ein Bild).
Es malt das nächste Bild, das passieren würde, wenn man einen Schritt macht.
Dann malt es das Bild nach dem nächsten Schritt.
Am Ende hat es eine Reihe von Bildern, die den perfekten Weg durch das Labyrinth zeigen – ohne ein einziges Wort zu verwenden.

🏆 Der Trainer: Wie man aus einem Maler einen Gewinner macht (VPRL)

Ein rohes Modell kann zwar Bilder malen, aber es weiß nicht unbedingt, wie man gewinnt. Es könnte einfach wild hin und her malen. Um es schlau zu machen, haben die Forscher eine spezielle Trainingsmethode namens VPRL (Visual Planning via Reinforcement Learning) entwickelt.

Stell dir das Training wie ein Videospiel vor:

Phase 1 (Das Üben): Das Modell darf einfach herumprobieren. Es malt zufällige Wege. Manche sind blöd, manche sind okay. Es lernt einfach, wie man überhaupt Bilder hintereinander malt.
Phase 2 (Der Wettkampf): Jetzt kommt der Trainer (der Belohnungs-Algorithmus).
- Wenn das Modell einen Schritt malt, der näher zum Ziel führt, gibt es einen Sternchen (Belohnung).
- Wenn es gegen eine Wand läuft oder in ein Loch fällt, gibt es einen roten Blitz (Strafe).
- Das Modell lernt durch tausende Versuche: "Aha! Wenn ich so male, bekomme ich Sterne. Wenn ich so male, bekomme ich Blitze."

Das Ergebnis? Das Modell lernt, den perfekten Weg direkt in Bildern zu "sehen" und zu planen.

🧊 Die Prüfung: Eis, Labyrinthe und Roboter

Die Forscher haben ihr System an drei Aufgaben getestet:

Frozen Lake: Ein Roboter muss über ein gefrorenes See laufen, ohne in die Löcher zu fallen.
Maze: Ein klassisches Labyrinth.
Mini-Behavior: Ein Roboter muss einen Drucker aufnehmen und auf einen Tisch legen.

Das Ergebnis war überraschend:
Die Modelle, die nur mit Text arbeiteten (selbst die sehr großen, teuren Modelle von Google), scheiterten oft oder gaben lange, verworrene Erklärungen, die falsch waren. Sie versuchten, das Bild in Worte zu übersetzen, und dabei ging die Logik verloren.

Das neue Bild-Modell hingegen war viel besser. Es schaffte die Aufgaben fast perfekt. Es war wie ein Mensch, der intuitiv den Weg sieht, statt ihn erst in einem Wörterbuch nachschlagen zu müssen.

💡 Warum ist das wichtig?

Dies ist ein großer Schritt für die Zukunft der KI:

Effizienz: Manchmal ist ein Bild einfach besser als tausend Worte.
Roboter: Wenn ein Roboter durch ein Haus läuft, muss er nicht erst überlegen: "Ich gehe jetzt links." Er sieht einfach die nächste Position. Das ist schneller und natürlicher.
Neue Denkweise: Es zeigt uns, dass Intelligenz nicht unbedingt in Sprache stecken muss. Man kann auch "mit Bildern denken".

Zusammengefasst: Die Forscher haben gezeigt, dass KI Aufgaben, die räumliches Denken erfordern, viel besser löst, wenn sie aufhört, alles in Text zu übersetzen, und stattdessen einfach weitermalt, bis sie das Ziel erreicht. Ein echter "Bild-Planer" statt eines "Wort-Redakteurs".

Each language version is independently generated for its own context, not a direct translation.

Titel: Visual Planning: Let's Think Only with Images

Veröffentlicht bei: ICLR 2026
Autoren: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić (University of Cambridge & Google)

1. Problemstellung

Trotz der erheblichen Fortschritte bei Large Language Models (LLMs) und Multimodalen Large Language Models (MLLMs) basieren diese Modelle bei der Lösung komplexer Aufgaben fast ausschließlich auf textbasiertem Denken (Chain-of-Thought), selbst wenn visuelle Eingaben vorliegen.

Das Kernproblem: Bei Aufgaben, die stark von räumlichen, geometrischen oder physikalischen Dynamiken abhängen (z. B. Navigation durch ein Labyrinth, Planung von Routen), führt die Notwendigkeit, visuelle Informationen zunächst in Text zu übersetzen („Grounding"), zu einer Modality Gap (Modell-Lücke).
Folgen: Diese Übersetzung ist oft ungenau, ineffizient und führt zu Informationsverlusten. Verbalisierte Beschreibungen können komplexe räumliche Beziehungen oft nicht präzise genug abbilden, was die Leistung von MLLMs bei visuellen Planungsaufgaben begrenzt.
Hypothese: Sprache ist nicht immer das natürlichste oder effektivste Medium für das Denken. Modelle sollten in der Lage sein, Planung direkt im visuellen Raum durchzuführen, ohne textuelle Vermittlung.

2. Methodik: Visual Planning & VPRL

Die Autoren schlagen ein neues Paradigma vor, das Visual Planning genannt wird, und entwickeln ein entsprechendes Trainingsframework namens VPRL (Visual Planning via Reinforcement Learning).

A. Das Visual Planning Paradigma

Prinzip: Anstatt textliche Rationale zu generieren, wird die Planung als Sequenz von Bildern ausgeführt.
Ablauf: Gegeben ein Startbild $v_0$ , generiert das Modell autoregressiv eine Folge von Zwischenzuständen $\hat{T} = (\hat{v}_1, \dots, \hat{v}_n)$ .
Unterschied zu bestehenden Ansätzen:
- Traditionell: Bild $\to$ Text-Beschreibung $\to$ Text-Plan $\to$ Antwort.
- Visual Planning: Bild $\to$ Bild (Zustand $t+1$ ) $\to$ Bild (Zustand $t+2$ ) $\dots$ $\to$ Zielbild.
- Die Aktionen sind implizit in den Übergängen zwischen den visuellen Zuständen kodiert.

B. Das VPRL-Training Framework

Um ein solches Modell zu trainieren, nutzen die Autoren Large Vision Models (LVM), die ausschließlich auf Bild- und Videodaten trainiert wurden (ohne Textdaten), um sprachliche Verzerrungen auszuschließen. Das Training erfolgt in zwei Stufen mittels Group Relative Policy Optimization (GRPO):

Stufe 1: Policy Initialisierung (Exploration)
- Das Modell wird auf zufälligen Trajektorien (Random Walks) im simulierten Umfeld trainiert.
- Ziel: Sicherstellen, dass das Modell gültige Sequenzen von visuellen Zuständen generieren kann und eine hohe Entropie (Explorationsfähigkeit) beibehält, um nicht in suboptimalen Verhaltensweisen zu kollabieren.
- Dies dient als „Warm-up", um die Generierungsqualität zu verbessern, ohne auf optimale Pfade zu optimieren.
Stufe 2: Reinforcement Learning (Optimierung)
- Das Modell generiert Gruppen von Kandidaten-Antworten (nächste visuelle Zustände).
- Reward Design: Ein Belohnungssystem bewertet die generierten Zustände basierend auf:
  - Gültigkeit (Validity): Verletzt der Übergang physikalische Constraints (z. B. Wanddurchgang)?
  - Fortschritt (Progress): Nähert sich der neue Zustand dem Ziel an?
- Reward-Funktion:
  - Optimaler Fortschritt: $+1$
  - Gültig, aber kein Fortschritt: $0$
  - Ungültig (z. B. Kollision): $-5$ (starkes Penalty)
- Das Modell wird durch GRPO optimiert, um die relative Vorteilhaftigkeit der Aktionen innerhalb der Gruppe zu maximieren.

3. Experimente und Ergebnisse

Benchmarks

Die Methode wurde auf drei visuellen Navigationsaufgaben getestet:

FROZENLAKE: Gitterbasierte Navigation ohne in Löcher zu fallen.
MAZE: Durchqueren eines Labyrinths von Start (grün) zu Ziel (rot).
MINIBEHAVIOR: Komplexere Aufgabe mit „Pick" und „Drop" Aktionen (Drucker aufnehmen und auf Tisch legen).

Vergleichsbaselines

Proprietäre Modelle (Gemini 2.0 Flash, Gemini 2.5 Pro) mit Text-CoT.
Open-Source Modelle (Qwen 2.5-VL) mit SFT (Supervised Fine-Tuning) und RL.
Textbasierte Varianten mit verschiedenen Darstellungen (ASCII, Koordinaten).

Ergebnisse

Überlegene Leistung: VPRL erreicht auf allen Aufgaben die besten Ergebnisse.
- Im Durchschnitt übertrifft VPRL textbasierte SFT-Methoden um 27 % in der Exact-Match-Rate (EM).
- Auf FROZENLAKE erreicht VPRL eine EM von 91,6 % und eine Progress Rate (PR) von 93,2 %.
Generalisierung: VPRL zeigt eine deutlich stärkere Generalisierung auf Out-of-Distribution (OOD) Szenarien (z. B. größere Gittergrößen) als SFT-Methoden. Während die Leistung textbasierter Modelle bei steigender Komplexität (größere Gitter) stark einbricht, bleibt VPRL robust.
Reduktion von Fehlern: VPRL reduziert den Anteil von Fehlern, die durch ungültige Aktionen (z. B. Durchlaufen von Wänden) verursacht werden, um mindestens 24 % im Vergleich zu VPFT (Visual Planning via Fine-Tuning).
Text vs. Bild: Textbasierte RL-Ansätze scheiterten oft daran, visuelle Informationen korrekt in Text zu übersetzen (Modality Gap), was zu inkonsistenten Layout-Beschreibungen und falschen Planungen führte.

4. Wichtige Beiträge

Neues Paradigma: Einführung von Visual Planning, dem ersten Ansatz, der Planung rein durch visuelle Repräsentationen (Bildsequenzen) ohne textuelle Vermittlung durchführt.
VPRL Framework: Entwicklung eines zweistufigen RL-Frameworks, das GRPO nutzt, um Large Vision Models für sequenzielle Bildgenerierung im Kontext der Planung zu trainieren.
Empirischer Nachweis: Demonstration, dass visuelles Denken in räumlichen Aufgaben textbasiertem Denken überlegen ist, insbesondere bei der Generalisierung und der Vermeidung von „Halluzinationen" durch den Modality Gap.
Ressource: Öffentliche Bereitstellung von Code und Daten zur Reproduzierbarkeit.

5. Bedeutung und Ausblick

Paradigmenwechsel: Die Arbeit hinterfragt die Annahme, dass Sprache das universelle Medium für das „Denken" von KI-Modellen sein muss. Sie zeigt, dass für visuell-räumliche Aufgaben ein rein visuelles Denken effizienter und robuster sein kann.
Anwendungsbereiche: Das Konzept ist besonders relevant für Robotik, autonome Navigation und Assistenzsysteme, wo Wahrnehmung und Entscheidungsfindung eng gekoppelt sind und schnelle, intuitive Reaktionen erforderlich sind.
Zukunft: Die Autoren sehen Potenzial für hybride Systeme, die sowohl verbale als auch nicht-verbale (visuelle) Reasoning-Pfade kombinieren, um menschähnlichere und leistungsfähigere KI-Systeme zu schaffen.

Fazit: Das Paper beweist, dass Modelle in der Lage sind, komplexe Planungsprobleme rein visuell zu lösen und dass dieser Ansatz, unterstützt durch Reinforcement Learning, signifikant bessere Ergebnisse liefert als traditionelle textbasierte Methoden, insbesondere bei Aufgaben, die stark von räumlicher Intuition abhängen.