Agentic Planning with Reasoning for Image Styling via Offline RL

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest ein langweiliges Bürofoto in eine magische Wüsten-Oase verwandeln. Du schreibst einfach: „Mach daraus eine Wüste."

Das Problem? Ein einfaches KI-Modell hört das oft nur halbherzig. Es könnte das Büro verschwinden lassen, aber die Wüste sieht aus wie ein Spielzeug, oder die Kakteen sind plötzlich im Wohnzimmer. Es fehlt die Struktur.

Diese Forschungspapiere von Adobe Research (veröffentlicht im März 2026) stellen eine Lösung vor, die wir „Agentic Planning with Reasoning" nennen können. Auf Deutsch: „Agenten-Planung mit Nachdenken".

Hier ist die Idee, einfach erklärt:

1. Das Problem: Der „Blinde Maler"

Stell dir vor, du hast einen Maler, der sehr schnell ist, aber keine Ahnung von Komposition hat. Wenn du ihm sagst „Mach es winterlich", könnte er den ganzen Raum weiß anmalen, aber das Fenster verschwinden lassen. Er versucht alles auf einmal in einem Schritt zu machen. Das funktioniert bei einfachen Dingen, aber bei komplexen Aufgaben (wie „Winterwunderland mit magischem Schneefall, aber das Haus muss erhalten bleiben") versagt er oft.

2. Die Lösung: Der Architekt mit Bauplan

Die Autoren sagen: „Lass uns dem Maler nicht einfach einen Befehl geben. Lass uns ihm einen Architekten vor die Nase setzen."

Dieser „Architekt" (ein kleines KI-Modell) macht Folgendes, bevor er den Pinsel ansetzt:

Schritt 1: Die Bestandsaufnahme. Er schaut sich das Bild genau an und schreibt eine Liste: „Hier ist ein Büro, es ist mittags, das Licht ist hart, es gibt keine Pflanzen."
Schritt 2: Der Bauplan mit Begründung. Er denkt laut nach: „Okay, um eine Wüste zu machen, muss ich zuerst die Zeit des Tages ändern (auf Mittagssonne), dann die Jahreszeit (auf Sommer/Wüste) und schließlich den Boden austauschen."
- Wichtig: Er erklärt warum er jeden Schritt macht. Das ist wie ein Koch, der sagt: „Ich schneide erst die Zwiebeln, weil sie sonst das Öl verbraten lassen."
Schritt 3: Die präzise Anweisung. Aus diesem Plan erstellt er eine supergenaue Anleitung für den Maler: „Ersetze den Boden durch Sand, füge Kakteen hinzu, ändere das Licht auf warmes Gold."
Schritt 4: Die Ausführung. Der eigentliche Maler (ein festes, unveränderliches KI-Modell) führt diese präzise Anweisung aus.

3. Der Trick: Lernen durch „Belohnung" (Offline RL)

Wie lernt dieser Architekt, gute Pläne zu machen? Die Forscher haben ein cleveres Trainingssystem entwickelt, das sie „Offline Reinforcement Learning" nennen.

Stell dir vor, der Architekt hat in der Vergangenheit 10.000 Versuche gemacht, Bilder zu verändern.

Manche Versuche waren Katastrophen (das Haus war weg).
Manche waren okay.
Manche waren Meisterwerke.

Anstatt alle Versuche gleich zu behandeln, nutzt die neue Methode eine Gewichtung:

RW (Reward-Weighted): Das System sagt: „Die Versuche, die toll waren, sind doppelt so wichtig wie die, die nur okay waren." Es lernt stark von den Erfolgen, ignoriert aber die Katastrophen nicht komplett, sondern gewichtet sie einfach weniger.
SW (Standardized Reward-Weighted): Das ist noch schlauer. Es vergleicht jeden Versuch mit dem Durchschnitt. „War dieser Plan besser als der typische Durchschnitt? Wenn ja, lerne daraus besonders intensiv!"

Es ist wie beim Sporttraining: Ein Trainer, der nicht nur sagt „Gut gemacht" oder „Schlecht", sondern genau analysiert, welche Bewegung in einem perfekten Sprung besser war als in einem durchschnittlichen, und daraufhin die Muskeln gezielt trainiert.

4. Warum ist das so cool?

Klein ist stark: Die Forscher haben Modelle mit nur 4 oder 8 Milliarden Parametern (vergleichsweise klein) trainiert. Diese kleinen Modelle sind in der Lage, bessere Bilder zu erstellen als riesige, teure KI-Modelle (wie GPT-4o), die nur „blind" raten.
Verständlichkeit: Da das Modell seinen Plan und seine Gedanken (Reasoning) aufschreiben muss, wissen wir genau, warum es etwas geändert hat. Es ist kein schwarzer Kasten mehr.
Kontrolle: Du kannst Dinge retten, die du behalten willst (z. B. „Behalte das Sofa, aber mach den Rest zur Wüste"), weil der Planer genau weiß, welche Werkzeuge er nacheinander einsetzen muss.

Zusammenfassung in einer Metapher

Stell dir vor, du willst ein Haus umbauen.

Die alte Methode (Direct Prompting): Du schreist dem Bauarbeiter zu: „Mach das Haus zu einer Burg!" Der Bauarbeiter rennt los und hämmert wild drauflos. Das Ergebnis ist chaotisch.
Die neue Methode (Agentic Planning): Du beauftragst zuerst einen Architekten. Der Architekten analysiert das Haus, zeichnet einen detaillierten Plan mit Begründungen („Wir müssen das Dach erst abnehmen, bevor wir die Zinnen bauen"), und gibt dann eine präzise Liste an den Bauarbeiter weiter. Das Ergebnis ist eine perfekte Burg, und du weißt genau, wie sie entstanden ist.

Die Forschung zeigt: Wenn KI erst einmal nachdenkt und plant, bevor sie handelt, werden die Ergebnisse nicht nur besser, sondern auch vorhersehbarer und kontrollierbarer – und das mit weniger Rechenleistung als gedacht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Ziel der Arbeit ist die Transformation von Bildern basierend auf komplexen, hochleveligen ästhetischen Absichten (z. B. „Verwandle dies in eine Winterwunderland-Szene zur goldenen Stunde mit magischem Schneefall").

Herausforderung: Herkömmliche, prompt-basierte Bildbearbeitungsmethoden (Direct Prompt-Based Editing) scheitern oft bei komplexen, mehrdimensionalen Transformationen. Natürlichsprachige Prompts sind häufig vage und subjektiv, was zu Inkonsistenzen, falscher Farbwiedergabe und strukturellen Artefakten führt. Modelle verstehen nicht explizit, welche visuellen Attribute in welcher Reihenfolge geändert werden müssen, um konkurrierende Anforderungen (z. B. „Schnee hinzufügen" aber „Architektur erhalten") auszugleichen.
Lücke: Es fehlt an strukturierten Planungsmechanismen, die komplexe Styling-Ziele in interpretierbare, sequenzielle Aktionen zerlegen, sowie an hochwertigen Datensätzen, die explizite Tool-basierte Planung mit Begründungen (Reasoning) enthalten.

2. Methodik: Agentic Planning Framework

Die Autoren schlagen einen tool-basierten agentic RL-Nachtrainierungsansatz (Offline RL) vor, der die Bildbearbeitung in einen Planungsprozess (Planning) und einen Ausführungsprozess (Execution) trennt.

A. Vierstufige Pipeline

Strukturierte Kontextextraktion: Ein Vision-Language-Modell extrahiert einen expliziten Text-Code ( $c_i$ ) über den aktuellen visuellen Zustand des Bildes über 10 Dimensionen (z. B. Ort, Architektur, Tageszeit, Jahreszeit, Wetter, Stimmung, Farbgrading, künstlerisches Medium, atmosphärische Effekte).
Aktionenplanung mit Chain-of-Thought (CoT): Das Modell generiert eine Sequenz von Werkzeugaufrufen (Tools), die das Ziel erreichen. Jeder Schritt besteht aus:
- Begründung (Reasoning): Eine explizite Erklärung, warum dieses Tool gewählt wurde.
- Aktion (Action): Ein symbolischer Tool-Call mit Parametern (z. B. time_of_day(golden-hour)).
Synthese der präzisen Anweisung: Die Tool-Sequenz wird in eine detaillierte, natürliche Sprache-Anweisung ( $\hat{e}_i$ ) umgewandelt.
Rendering: Ein eingefrorenes (frozen) Black-Box-Bildbearbeitungsmodell (Qwen-Image-Edit) führt die Anweisung aus.

B. Compositional Tool Library

Es wurde eine Bibliothek mit orthogonalen primitiven Transformationen entwickelt (z. B. 10–30 verschiedene Tools), die unabhängig voneinander wirken, aber kombiniert komplexe Szenarien ermöglichen. Dies ermöglicht eine präzise Kontrolle über einzelne visuelle Dimensionen.

C. Synthetische Datengenerierung

Da keine existierenden Datensätze Tool-basierte Planung mit Reasoning bieten, generierten die Autoren drei große synthetische Datensätze (je ~10.000 Trajektorien) mittels eines „Teacher-Student"-Paradigmas:

Teacher: Ein starkes Modell (Qwen3-VL-8B) generiert die Trajektorien (Kontext, Plan, Reasoning, Anweisung).
Evaluation: Das Teacher-Modell bewertet jede Trajektorie auf einer Skala von 0–5 basierend auf 17 Qualitätsdimensionen (Zielerreichung, Ästhetik, räumliche Konsistenz etc.).
Datensätze:
- Simple: 1–2 Schritte (atomare Transformationen).
- Regular: 3–5 Schritte (kompositionelle Transformationen, z. B. Interior Design).
- Complex: 3–5 Schritte mit strengen Erhaltungsbedingungen und 83 verschiedenen Themen.

D. Offline RL Trainingsmethoden

Das Kernstück ist das Training kleinerer Studenten-Modelle (Qwen3-VL 4B/8B) auf diesen Daten unter Berücksichtigung der Qualitäts-Rewards:

Supervised Learning (SL): Ignoriert Rewards; behandelt alle Daten gleich (Baseline).
Reward-Filtered (R): Filtert nur Trajektorien mit hohem Reward ( $r \ge 4.0$ ) heraus (verwirft ~35% der Daten).
Reward-Weighted (RW): Gewichtet den Gradienten jedes Samples proportional zu seinem Reward-Score ( $w(r) = \max\{r-3.0, 0\}$ ). Behält alle Daten bei, betont aber hochwertige Beispiele.
Standardized Reward-Weighted (SW): Erweitert RW durch Z-Score-Normalisierung der Rewards vor der Gewichtung. Dies reduziert die Varianz der Gradienten und stabilisiert das Training über Datensätze mit unterschiedlichen Reward-Verteilungen hinweg.
Direct Preference Optimization (DPO): Lernt aus Paaren von „gewählten" (hoher Reward) und „abgelehnten" (niedriger Reward) Trajektorien ohne explizites Reward-Modell.

3. Schlüsselbeiträge

Tool-basiertes Agentic Framework: Eine vollständige Pipeline, die compositional Tool-Libraries, strukturierte Dokumentendarstellungen und per-Schritt-Reasoning kombiniert, um komplexe Styling-Aufgaben zu zerlegen.
Großskalige Synthetische Datensätze: Die Erstellung und Veröffentlichung von drei Datensätzen (Simple, Regular, Complex) mit ~30.000 Trajektorien, die explizite Reasoning-Ketten und Qualitäts-Scores enthalten.
Neue Offline RL Algorithmen: Die Einführung und Validierung von Reward-Weighted (RW) und Standardized Reward-Weighted (SW) Fine-Tuning-Methoden, die nachweislich besser funktionieren als reines Filtern oder DPO in bestimmten Szenarien.
Umfassende Evaluation: Demonstration, dass kompakte Open-Source-Modelle (4B/8B Parameter) durch strukturierte Planung und Reward-aware Training die Leistung von deutlich größeren, geschlossenen Modellen (wie GPT-4o Zero-Shot) in Bezug auf Bildqualität übertreffen können.

4. Ergebnisse

Die Evaluation erfolgte auf 12 Konfigurationen (3 Datensätze × 2 Modellgrößen × 2 Modalitäten: Text-only vs. Vision-Language) unter Verwendung von GPT-4o als automatischem Richter und menschlicher Validierung.

Überlegenheit der Planungsmethoden: Die „Edit-Only"-Baseline (direkte Prompting ohne Planung) schnitt bei komplexen Aufgaben deutlich schlechter ab (Lücken von 1,3 bis 7,3 Punkten), was die Notwendigkeit strukturierter Planung unterstreicht.
Leistung der RL-Methoden:
- SW (Standardized Reward-Weighted) war bei textbasierten, komplexen kompositionellen Aufgaben am besten (z. B. 78,77 Punkte auf Regular Text-4B).
- RW (Reward-Weighted) dominierte bei einfachen visuellen Aufgaben (79,33 Punkte auf Simple Vision-4B).
- DPO zeigte die beste Leistung bei sehr diversen Themen (Regular Vision-8B mit 85,41 Punkten).
Vergleich mit GPT-4o: Die trainierten 4B/8B-Modelle übertrafen das GPT-4o Zero-Shot-Baseline in 10 von 11 Konfigurationen in Bezug auf die Bildqualität, obwohl sie um Größenordnungen weniger Parameter haben.
Qualität des Reasoning: Modelle, die mit Reward-aware Methoden trainiert wurden, generierten deutlich detailliertere, kontextbewusstere und logischere Begründungen (Chain-of-Thought) als Baseline-Modelle. Dies korrelierte stark mit der finalen Bildqualität.
Menschliche Validierung: Eine Studie mit 3.000 Samples zeigte eine Pass-Rate von 77% für die synthetischen Daten, was die Qualität des Teacher-Modells und der Generierungspipeline bestätigt.

5. Bedeutung und Ausblick

Paradigmenwechsel: Die Arbeit zeigt, dass für komplexe kreative Aufgaben nicht einfach nur größere Modelle, sondern strukturierte Planung mit explizitem Reasoning entscheidend ist.
Effizienz: Durch Offline RL und Reward-Weighting können kleine, effiziente Modelle trainiert werden, die spezialisierte Aufgaben besser lösen als riesige allgemeine Modelle. Dies senkt die Kosten für Inferenz und ermöglicht den Einsatz auf lokaler Hardware.
Transparenz: Der Ansatz macht den Entscheidungsprozess der KI interpretierbar (durch die Tool-Sequenzen und Begründungen), was im Gegensatz zu „Black-Box"-Direktbearbeitung steht und Vertrauen schafft.
Zukunft: Die Autoren sehen Potenzial in der Erweiterung auf Video-Bearbeitung (temporale Konsistenz) und die Skalierung auf noch größere Tool-Bibliotheken.

Zusammenfassend demonstriert das Paper, dass die Kombination aus agentic Planning, Chain-of-Thought Reasoning und Offline RL mit Reward-Weighting einen robusten Weg darstellt, um KI-Systeme für präzise, komplexe und kontrollierbare Bildbearbeitung zu trainieren.