Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

Die Arbeit stellt ViPO vor, eine Erweiterung des Group Relative Policy Optimization (GRPO)-Verfahrens, die durch die Umwandlung von skalaren Belohnungen in räumlich und zeitlich strukturierte Vorteilskarten eine feinere, pixelgenaue Optimierung von Bild- und Videogenerierungsmodellen ermöglicht und so die Ausrichtung an menschlichen Präferenzen verbessert.

Ziqi Ni, Yuanzhi Liang, Rui Li, Yi Zhou, Haibin Huang, Chi Zhang, Xuelong Li

Veröffentlicht 2026-02-25
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Chefkoch, der einen neuen Kochlehrling (den KI-Modell) trainiert, um wunderschöne Bilder und Videos zu „kochen".

Bisher lief das Training so ab: Der Lehrling serviert dir ein Gericht (ein Bild). Du schmeckst es und sagst: „Das schmeckt 7 von 10 Punkten." Der Lehrling weiß also nur, dass das gesamte Gericht gut oder schlecht war. Er weiß aber nicht, ob die Soße zu salzig war, ob das Gemüse knusprig ist oder ob die Dekoration auf dem Teller schief sitzt. Er versucht, das ganze Gericht auf einmal zu verbessern, und dabei kann er versehentlich die guten Teile verderben, nur um die schlechten zu reparieren.

Das ist das Problem, das die Forscher mit ihrer neuen Methode ViPO lösen wollen.

Hier ist die einfache Erklärung, wie es funktioniert:

1. Das alte Problem: Der „Einheits-Tipp"

Die bisherigen Methoden (wie GRPO) gaben dem KI-Modell nur einen einzigen Zahlwert als Feedback für das ganze Bild.

  • Analogie: Stell dir vor, du gibst einem Maler nur einen einzigen Tipp für ein ganzes Gemälde: „Das Bild ist etwas zu bunt."
  • Das Ergebnis: Der Maler versucht, alles im Bild weniger bunt zu machen. Dabei werden vielleicht die schönen, wichtigen Details (wie das Gesicht einer Person) grau und langweilig, nur weil der Hintergrund zu laut war. Er weiß nicht, wo genau er nachbessern soll.

2. Die neue Lösung: ViPO (Der „Detail-Experte")

Die Forscher haben eine neue Technik namens ViPO entwickelt. Sie funktioniert wie ein sehr aufmerksamer Kunstkritiker, der nicht nur das ganze Bild betrachtet, sondern mit einem Lupe durch das Bild wandert.

  • Der „Perzeptive Struktur-Modul" (PSM): Das ist das Herzstück. Stell dir das wie eine intelligente Brille vor, die die KI aufsetzt. Diese Brille weiß genau, was für Menschen wichtig ist.

    • Sie sieht: „Aha! Hier ist das Gesicht des Mannes – das ist wichtig, das muss perfekt sein!"
    • Sie sieht: „Und hier ist der Hintergrund – der ist etwas unruhig, aber nicht so kritisch."
    • Sie sieht: „Oh, da ist ein seltsamer Fleck am Bein des Pferdes – das ist ein Fehler, den wir sofort fixen müssen!"
  • Die „Karte der Vorlieben": Anstatt nur eine Zahl zu geben, erstellt diese Brille eine Wärmekarte (eine Art Landkarte) über das Bild.

    • Auf dieser Karte sind die wichtigen Stellen (Gesichter, Bewegungen, Hauptobjekte) rot markiert (sehr wichtig!).
    • Die unwichtigen Stellen (einfacher Himmel, leere Wände) sind blau markiert (weniger wichtig).

3. Wie das Training jetzt läuft

Wenn der KI-Lehrling jetzt ein Bild malt, passiert Folgendes:

  1. Die KI macht das Bild.
  2. Die „Brille" (ViPO) legt die Wärmekarte darüber.
  3. Der Chefkoch (das Belohnungssystem) sagt: „Das Bild ist insgesamt gut, aber wir müssen hier (auf dem roten Bereich) besonders hart nachbessern und dort (auf dem blauen Bereich) nur ein bisschen."

Der große Vorteil:
Die KI lernt jetzt, sich auf die Details zu konzentrieren, die für uns Menschen wirklich zählen.

  • Wenn ein Tanzvideo gemacht wird, lernt die KI, dass die Bewegungen der Tänzer (wichtig!) perfekt sein müssen, während der Hintergrund (weniger wichtig) ruhig bleiben darf.
  • Wenn ein Bild eines Mannes mit einem Rote-Bete-Gemüse gemacht wird (ein Beispiel aus dem Papier), merkt die KI: „Der Mann muss realistisch aussehen, und er muss das Gemüse halten, nicht nur daneben stehen." Das alte System hätte vielleicht nur das Gemüse rot gemacht und den Mann vergessen.

Zusammenfassung in einem Satz

ViPO verwandelt den groben Tipp „Das Bild ist okay" in eine präzise Anleitung: „Mach das Gesicht schöner, korrigiere den Arm, aber lass den Hintergrund so, wie er ist."

Das Ergebnis:
Die Bilder und Videos sehen nicht nur „besser" aus, sondern sie fühlen sich natürlicher und kohärenter an. Fehler wie doppelte Beine bei Pferden oder seltsam platzierte Objekte verschwinden, weil die KI genau weiß, wo sie ihre Energie hinlenken muss. Es ist der Unterschied zwischen einem Maler, der einfach alles übermalt, und einem Meister, der mit der Pinzette die letzten Details perfektioniert.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →