Unified Reward Model for Multimodal Understanding and Generation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind der Chef einer riesigen Film- und Kunstfabrik. In dieser Fabrik gibt es zwei Abteilungen: Die eine erfindet Bilder und Videos (Generierung), die andere schaut sich Bilder und Videos an und versteht sie (Verständnis).

Das Problem bisher war: Die Fabrik hatte viele verschiedene, spezialisierte Prüfer. Ein Prüfer war nur gut darin, zu sagen, ob ein gemaltes Bild schön ist. Ein anderer Prüfer war nur gut darin, zu verstehen, was auf einem Video zu sehen ist. Wenn ein neuer Film oder ein neues Bild entstand, mussten Sie es erst zum Bild-Prüfer und dann zum Video-Prüfer schicken. Das war langsam, teuer und die Prüfer konnten sich nicht untereinander helfen.

Die Lösung: „UnifiedReward" – Der Allround-Super-Prüfer

Dieses Papier stellt einen neuen, revolutionären Prüfer vor, den wir „UnifiedReward" nennen. Er ist wie ein Schweizer Taschenmesser unter den KI-Prüfern. Er kann alles: Er bewertet nicht nur, ob ein Bild oder Video gut ist, sondern versteht auch, was darauf passiert. Und das Beste: Er lernt aus beidem gleichzeitig.

Hier ist die Geschichte, wie das funktioniert, einfach erklärt:

1. Das große Training (Der „Schulungs-Urlaub")

Stellen Sie sich vor, unser neuer Prüfer muss eine Ausbildung machen. Normalerweise würde er nur in einer Klasse für „Bilder" oder nur in einer für „Videos" lernen.
Aber bei UnifiedReward passiert etwas Magisches: Wir schicken ihn in eine Super-Schule, wo er gleichzeitig lernt:

Wie man ein schönes Bild bewertet.
Wie man einen Film versteht.
Wie man erkennt, ob ein Video-Clip logisch ist.

Die Analogie: Es ist wie ein Koch, der nicht nur Pizza, sondern auch Sushi und Desserts lernt. Wenn er lernt, wie man frische Zutaten für Sushi auswählt (Verständnis), wird er automatisch besser darin, frische Zutaten für eine Pizza auszuwählen (Erstellung). Das Wissen aus einem Bereich hilft dem anderen. Das nennt die Wissenschaft „synergetischen Effekt".

2. Die neue Methode: Der „Zwei-Schritte-Filter"

Früher haben KI-Modelle einfach nur geraten, was gut ist. UnifiedReward macht es anders. Er nutzt einen cleveren Zwei-Schritte-Filter, um die besten Ergebnisse auszuwählen:

Schritt 1: Der Duell-Modus (Pair Ranking).
Stellen Sie sich ein Box-Match vor. Der Prüfer sieht zwei Bilder (oder Videos) nebeneinander und sagt: „Aha, Bild A ist besser als Bild B." Er sortiert also die Gewinner von den Verlierern.
Schritt 2: Der Punktest-Modus (Point Sifting).
Jetzt nimmt er die Gewinner aus dem Box-Match und gibt ihnen eine genaue Note von 1 bis 100. Er schaut sich die Verlierer auch an und gibt ihnen eine Note.
Am Ende wählt er das absolut beste Bild (die höchste Note) und das absolut schlechteste Bild (die tiefste Note) aus.

Warum ist das wichtig?
Stellen Sie sich vor, Sie wollen die besten Schüler für ein Stipendium auswählen. Wenn Sie nur sagen „Wer ist besser?", ist das okay. Aber wenn Sie auch sagen „Wie viel besser ist er?", finden Sie die absoluten Spitzenreiter viel genauer. Dieser Filter sorgt dafür, dass die KI nur mit den allerbesten Beispielen lernt.

3. Die Anwendung: Die KI wird schlauer

Sobald der Prüfer (UnifiedReward) fertig trainiert ist, hilft er den eigentlichen Künstlern (den KI-Modellen, die Bilder und Videos erstellen):

Für die Bild-Künstler: Der Prüfer schaut sich die Bilder an, die die KI erstellt, und sagt: „Das hier ist toll, das hier ist schrecklich." Die KI lernt daraus und macht beim nächsten Mal mehr davon, was der Prüfer mag.
Für die Video-Künstler: Gleiches Spiel. Die KI lernt, wie man bessere Filme macht, die den Menschen gefallen.

Das Ergebnis: Ein Team, das stärker ist als die Summe seiner Teile

Das Papier zeigt, dass dieser Ansatz funktioniert. Weil der Prüfer alles auf einmal lernt, wird er in jedem Bereich besser.

Weil er versteht, wie ein Video aufgebaut ist, bewertet er Bilder genauer.
Weil er weiß, wie ein Bild aussehen muss, bewertet er Videos besser.

Zusammenfassend:
Statt viele kleine, spezialisierte Prüfer zu haben, die sich nicht kennen, haben wir jetzt einen einzigartigen Super-Prüfer. Er trainiert mit einer riesigen Menge an menschlichen Meinungen, lernt aus allen Bereichen gleichzeitig und hilft dann den KI-Künstlern, genau das zu produzieren, was wir Menschen wirklich mögen. Es ist wie ein Dirigent, der nicht nur die Geige, sondern das ganze Orchester versteht und so dafür sorgt, dass die Musik perfekt klingt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Aktuelle Fortschritte in der Ausrichtung von KI-Modellen auf menschliche Präferenzen (Human Preference Alignment) haben die Multimodale Generierung und das Verständnis erheblich verbessert. Der gängige Ansatz besteht darin, Belohnungsmodelle (Reward Models) zu trainieren, die als Überwachungssignale für die Präferenzoptimierung dienen.

Die Autoren identifizieren jedoch zwei wesentliche Einschränkungen bestehender Ansätze:

Fehlende Generalisierbarkeit: Bestehende Belohnungsmodelle sind oft auf spezifische Aufgaben zugeschnitten (z. B. nur Bildgenerierung oder nur Videoverständnis). Dies schränkt ihre Anpassungsfähigkeit an diverse visuelle Anwendungen ein.
Verpasste Synergieeffekte: Visuelle Aufgaben sind inhärent miteinander verbunden. Es wird argumentiert, dass ein gemeinsames Lernen mehrerer Aufgaben (z. B. Bildverständnis und Bildgenerierung) einen synergistischen Effekt erzeugen könnte: Ein besseres Bildverständnis könnte die Bewertung der Bildgenerierung verbessern, und umgekehrt könnte eine verfeinerte Bildbewertung die Videobewertung durch präzisere Einzelbildanalysen stärken. Bisher fehlt jedoch ein umfassender Ansatz, der diese Aufgaben vereint.

2. Methodik: UnifiedReward

Das Paper stellt UNIFIEDREWARD vor, das erste einheitliche Belohnungsmodell, das sowohl für das multimodale Verständnis als auch für die Generierung von Bildern und Videos konzipiert ist. Der Ansatz umfasst drei Hauptphasen:

A. Aufbau eines einheitlichen Präferenz-Datensatzes

Um ein solches Modell zu trainieren, wurde ein großer, einheitlicher menschlicher Präferenz-Datensatz mit ca. 236.000 Stichproben erstellt. Dieser deckt vier Bereiche ab:

Bildgenerierung (Image Generation)
Bildverständnis (Image Understanding)
Videogenerierung (Video Generation)
Videoverständnis (Video Understanding)

Der Datensatz integriert und verarbeitet existierende Datenquellen (z. B. EvalMuse, HPD, LLaVA-Critic, VideoDPO) und enthält sowohl Pairwise Ranking-Daten (welches Ergebnis ist besser?) als auch Pointwise Scoring-Daten (Bewertung auf einer Skala).

B. Training des Unified Reward Models

Architektur: Als Basis dient ein vortrainiertes Vision-Language Model (VLM), spezifisch LLaVA-OneVision 7B (und zur Robustheitsprüfung Qwen2.5-VL).
Trainingsstrategie: Anstatt die Bewertungsfähigkeit von Grund auf neu zu lernen, wird diese als zusätzliche diskriminative Fähigkeit in das bestehende visuelle Verständnis integriert.
Input/Output: Das Modell wird so trainiert, dass es je nach Eingabe (Bild/Video + Prompt oder Frage + Antwort) entweder eine Punktzahl (Pointwise) oder eine Rangfolge (Pairwise) vorhersagt. Es lernt auch, Begründungen für seine Bewertungen zu generieren, wenn diese im Trainingsdaten vorhanden sind.

C. Zwei-Stufen-Strategie zur Konstruktion von Präferenzdaten

Ein zentraler Beitrag ist die Methode, wie hochwertige Trainingsdaten für die Ausrichtung anderer Modelle generiert werden. Anstatt sich auf eine einzige Bewertungsmethode zu verlassen, nutzt UnifiedReward eine zweistufige Filterung:

Pair Ranking (Paarweise Rangfolge): Aus $N$ generierten Ausgaben werden Paare gebildet und vom Reward-Modell verglichen. Die besseren Ausgaben werden in eine „Chosen"-Liste, die schlechteren in eine „Rejected"-Liste sortiert.
Point Sifting (Punktbasierte Filterung): Innerhalb dieser Listen werden den Ausgaben Punktzahlen zugewiesen. Das endgültige Präferenzpaar für das Training besteht aus dem Element mit der höchsten Punktzahl aus der „Chosen"-Liste und dem Element mit der niedrigsten Punktzahl aus der „Rejected"-Liste.
Dieser Ansatz kombiniert relative Vergleiche mit absoluten Qualitätsbewertungen, um robustere Signale zu erhalten.

D. Ausrichtung der Modelle (Alignment)

Die so konstruierten Präferenzdaten werden verwendet, um sowohl VLMs (für Verständnis) als auch Diffusionsmodelle (für Generierung) mittels Direct Preference Optimization (DPO) an menschliche Präferenzen anzupassen.

3. Wichtige Beiträge

UnifiedReward: Das erste einheitliche Belohnungsmodell, das Bild- und Videogenerierung sowie -verständnis in einem einzigen Framework bewertet.
Skalierbarer Datensatz: Erstellung eines großen, einheitlichen Datensatzes, der Lücken in der Verfügbarkeit von multimodalen Präferenzdaten schließt.
Zweistufige Datenkonstruktion: Eine neue Pipeline (Pair Ranking + Point Sifting) zur automatischen Generierung hochwertiger Präferenzdaten.
Nachweis der Synergie: Experimenteller Beweis, dass das gemeinsame Lernen verschiedener visueller Aufgaben die Leistung in allen Domänen verbessert.

4. Ergebnisse

Die Experimente zeigen konsistente Verbesserungen in allen getesteten Domänen:

Belohnungsmodell-Benchmarks: UnifiedReward übertrifft spezialisierte SOTA-Modelle (wie LLaVA-Critic, ImageReward, VideoReward) in Benchmarks für Bild- und Videobewertung (z. B. VLRewardBench, GenAI-Bench). Besonders bemerkenswert ist die hohe Leistung bei Videogenerierung, obwohl der Trainingsdatensatz für diese Aufgabe relativ klein war – ein Beweis für den Synergieeffekt.
Verbesserung durch DPO:
- Verständnis: Modelle wie LLaVA-OneVision und LLaVA-Video zeigten signifikante Verbesserungen in Benchmarks wie LLaVABench, MMBench und Video-MME im Vergleich zu Baselines, die mit anderen Reward-Modellen trainiert wurden.
- Generierung: Sowohl bei Bildgenerierung (SDXL-Turbo) als auch bei Videogenerierung (T2V-Turbo) führte die Ausrichtung mit UnifiedReward zu besseren Ergebnissen in Metriken wie Ästhetik, Semantik und Qualität (VBench).
Robustheit: Die Methode funktioniert auch auf anderen Backbone-Architekturen (z. B. Qwen2.5-VL) und bei anderen Optimierungsmethoden (z. B. GRPO auf FLUX.1-dev) zuverlässig.
Ablationsstudien: Die Studie zeigt, dass die Leistungssteigerung nicht nur auf mehr Trainingsdaten zurückzuführen ist (Budget-Matched-Control), sondern auf den positiven Transfer zwischen den Aufgaben. Ein Ungleichgewicht in den Trainingsdaten kann jedoch die Leistung der unterrepräsentierten Aufgaben beeinträchtigen.

5. Bedeutung

Die Arbeit demonstriert, dass die Trennung von Belohnungsmodellen für verschiedene visuelle Aufgaben suboptimal ist. Durch die Schaffung eines einheitlichen Modells wird nicht nur die Effizienz erhöht (ein Modell für alle Aufgaben), sondern es entsteht ein synergetischer Effekt, bei dem das Verständnis einer Aufgabe die Bewertung einer anderen verbessert.

Dieser Ansatz ermöglicht eine skalierbare und generalisierbare Ausrichtung von multimodalen KI-Modellen, reduziert die Abhängigkeit von teuren menschlichen Annotationen und setzt einen neuen Standard für die Entwicklung robusterer und leistungsfähigerer visueller KI-Systeme.