RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

Each language version is independently generated for its own context, not a direct translation.

📸 Das Problem: Der „Magier", der keine Sprache spricht

Stell dir vor, du hast ein wunderschönes Foto gemacht – vielleicht einen Sonnenuntergang oder ein Porträt. Du möchtest es bearbeiten, aber nicht einfach nur einen Filter draufklatschen. Du willst sagen: „Mach es so, als wäre es ein epischer, stimmungsvoller Ozean mit dramatischem Kino-Licht."

Das ist für normale Bildbearbeitungsprogramme (wie Photoshop oder Lightroom) schwierig. Sie verstehen keine Sätze, sondern nur Zahlen: „Erhöhe den Kontrast um 15", „Mache die Temperatur wärmer".

Bisherige KI-Modelle waren wie blinde Maler. Sie konnten zwar Bilder malen, aber wenn man sie bat, ein bestehendes Foto zu bearbeiten, veränderten sie oft das Gesicht der Person oder den Hintergrund komplett (wie ein ungeduldiger Koch, der das ganze Gericht neu erfindet, statt nur die Gewürze anzupassen). Andere Modelle waren wie sture Roboter, die nur genau das taten, was in einer Anleitung stand, aber keine kreative Intuition hatten.

🚀 Die Lösung: RETOUCHIQ – Der „Fotografen-Assistent"

Die Forscher von Adobe und der UC Santa Barbara haben RETOUCHIQ entwickelt. Stell dir das wie einen super-intelligenten Fotografen-Assistenten vor, der drei Dinge kann:

Er versteht deine Sprache: Er hört dir zu, wenn du sagst: „Ich möchte, dass die Blumen lebendiger und frischer wirken."
Er denkt nach (wie ein Profi): Bevor er etwas tut, überlegt er: „Okay, um die Blumen lebendiger zu machen, muss ich die Sättigung leicht erhöhen und vielleicht einen Hauch mehr Schärfe hinzufügen." Er schreibt sich diese Gedanken auf.
Er bedient die Werkzeuge: Er öffnet das Profi-Programm (wie Lightroom) und dreht die Regler genau so, wie er es sich überlegt hat.

🎓 Wie lernt er das? (Die zwei Phasen)

Damit dieser Assistent wirklich gut wird, hat er zwei Lernphasen durchlaufen:

Phase 1: Der Schulunterricht (Supervised Fine-Tuning)

Zuerst hat der Assistent Tausende von Beispielen gesehen: Ein Originalfoto, ein bearbeitetes Foto und die Notizen des Fotografen, der es gemacht hat.

Die Analogie: Es ist wie ein Lehrling, der einem Meister über die Schulter schaut. Der Meister sagt: „Ich mache das Foto wärmer, weil der Abendsonne fehlt." Der Lehrling merkt sich: „Aha, wenn der Kunde 'warme Abendstimmung' will, drehe ich den Regler 'Temperatur' nach rechts."

Phase 2: Der Meister-Coach (Reinforcement Learning mit dem „Generalist Reward")

Hier wird es spannend. Normalerweise lernt eine KI, indem man ihr sagt: „Das Ergebnis sieht genau wie das Original aus – gut!" oder „Das sieht anders aus – schlecht!"
Aber bei Kunst und Fotos gibt es kein einziges „richtiges" Ergebnis. Ein Foto kann auf hundert verschiedene Arten „schön" sein. Wenn die KI nur auf ein festes Ziel hinarbeitet, wird sie steif und langweilig.

Die Innovation von RETOUCHIQ:
Statt eines starren Maßstabs haben sie einen „Generalist Reward Model" (einen allgemeinen Belohnungs-Coach) entwickelt.

Die Analogie: Stell dir vor, du hast einen sehr erfahrenen Kunstkritiker (den Coach). Du zeigst ihm dein bearbeitetes Foto und sagst: „Ich wollte es stimmungsvoll machen."
Der Coach schaut sich das Bild an und denkt nicht: „Passt es zu Bild X?"
Sondern er fragt sich: „Wie gut passt das Bild zu deiner Beschreibung? Ist es wirklich stimmungsvoll? Ist der Himmel dramatisch genug?"
Er erstellt sich seine eigene Checkliste für dieses spezifische Bild (z.B. „Himmel muss dunkelblau sein", „Wellen müssen glänzen") und gibt dir eine Punktzahl.

Wenn die Punktzahl niedrig ist, versucht die KI es nochmal und überlegt anders. So lernt sie, nicht nur Regeln zu befolgen, sondern Geschmack zu entwickeln.

🛠️ Das Geheimnis: PGRT (Der „Echte" Trainer)

Ein kleines Problem gab es noch: Der Coach wurde zuerst an künstlich „verdorbenen" Bildern trainiert (als hätte jemand die Regler zufällig verstellt). Aber die KI von RETOUCHIQ macht oft sehr komplexe, kombinierte Änderungen. Der Coach war also verwirrt, wenn er echte Ergebnisse der KI sah.

Die Lösung hieß PGRT (Policy-Guided Reward Training).

Die Analogie: Der Coach hat gelernt, nur an „künstlichen Fehlern" zu üben. Aber um wirklich gut zu werden, hat man ihn gezwungen, sich die echten Versuche der KI anzusehen. Er hat gelernt, die Nuancen zwischen einem „guten Versuch" und einem „perfekten Versuch" der KI selbst zu erkennen. So wurde er zum perfekten Trainer für genau diese Art von KI.

🏆 Das Ergebnis

Wenn man RETOUCHIQ mit anderen Systemen vergleicht:

Diffusions-Modelle (die Bilder neu erfinden) verzerren oft Gesichter.
Normale Chatbots (wie GPT-5) wissen oft nicht, welche Regler sie drehen müssen.
RETOUCHIQ hingegen behält das Originalfoto bei, verändert aber die Stimmung genau so, wie du es wolltest – mit dem Gefühl eines professionellen Fotografen.

Zusammengefasst:
RETOUCHIQ ist wie ein KI-Assistent, der nicht nur deine Worte versteht, sondern auch die Kunst der Fotografie. Er denkt nach, nutzt Profi-Werkzeuge und hat einen intelligenten Coach an der Seite, der ihm hilft, nicht nur „richtig", sondern auch schön zu arbeiten.

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

📸 Das Problem: Der „Magier", der keine Sprache spricht

🚀 Die Lösung: RETOUCHIQ – Der „Fotografen-Assistent"

🎓 Wie lernt er das? (Die zwei Phasen)

Phase 1: Der Schulunterricht (Supervised Fine-Tuning)

Phase 2: Der Meister-Coach (Reinforcement Learning mit dem „Generalist Reward")

🛠️ Das Geheimnis: PGRT (Der „Echte" Trainer)

🏆 Das Ergebnis

Titel: RETOUCHIQ: MLLM-Agenten für instruktionsbasierte Bildretusche mit Generalist Reward

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

📸 Das Problem: Der „Magier", der keine Sprache spricht

🚀 Die Lösung: RETOUCHIQ – Der „Fotografen-Assistent"

🎓 Wie lernt er das? (Die zwei Phasen)

Phase 1: Der Schulunterricht (Supervised Fine-Tuning)

Phase 2: Der Meister-Coach (Reinforcement Learning mit dem „Generalist Reward")

🛠️ Das Geheimnis: PGRT (Der „Echte" Trainer)

🏆 Das Ergebnis

Titel: RETOUCHIQ: MLLM-Agenten für instruktionsbasierte Bildretusche mit Generalist Reward

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration