Composition-Grounded Data Synthesis for Visual Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem sehr intelligenten, aber noch etwas unerfahrenen Schüler beibringen, wie man komplexe Rätsel löst – zum Beispiel Diagramme zu lesen oder Webseiten zu verstehen. Das Problem ist: Du hast nur drei fertige Rätsel und die Lösungen dazu, aber du willst, dass der Schüler tausende von neuen, schwierigen Aufgaben meistern kann.

Normalerweise müsstest du für jede neue Aufgabe einen Menschen fragen, die Lösung zu schreiben. Das ist teuer und langsam. Die Autoren dieses Papers (COGS) haben eine clevere Methode entwickelt, um genau das zu lösen.

Hier ist die Erklärung in einfachen Worten, mit ein paar kreativen Vergleichen:

1. Das Problem: Der Schüler hat nur ein paar Baupläne

Künstliche Intelligenzen (die sogenannten MLLMs) sind heute schon sehr gut darin, Bilder zu sehen und Texte zu verstehen. Aber wenn es darum geht, zu denken und zu schlussfolgern (z. B. "Wenn ich diese Zahl von jener abziehe, was passiert dann?"), stolpern sie oft. Besonders bei künstlichen Bildern wie Diagrammen oder Webseiten gibt es kaum große Sammlungen von Menschen, die solche Denkaufgaben gelöst haben.

Es ist, als hättest du einen genialen Koch, der nur drei Rezepte kennt. Du willst, dass er tausende neue Gerichte kochen kann, aber du hast keine neuen Rezepte geschrieben.

2. Die Lösung: COGS – Das "Zerlegen und Neu-Zusammenbauen"-Werkzeug

Die Forscher nennen ihre Methode COGS. Das funktioniert wie ein genialer LEGO-Set-Designer:

Schritt 1: Zerlegen (Die LEGO-Steine finden)
Statt das ganze Rätsel als einen großen, unzerstörbaren Block zu betrachten, nimmt COGS ein paar der wenigen vorhandenen Beispiele und zerlegt sie in winzige, einfache Schritte.
- Beispiel: Eine komplexe Frage wie "Wie viel Prozent mehr haben die Männer als die Frauen, wenn wir die Gruppe X ausschließen?" wird zerlegt in:
  1. Wahrnehmen: "Wie viele Männer sind da?"
  2. Wahrnehmen: "Wie viele Frauen sind da?"
  3. Rechnen: "Subtrahiere die Zahlen."
  4. Vergleichen: "Wie viel Prozent ist das?"
Diese kleinen Schritte nennt die Autoren "Faktoren" (Factors). Sie sind wie einzelne LEGO-Steine.
Schritt 2: Neu-Zusammenbauen (Neue Gebäude bauen)
Jetzt haben sie einen Korb voller dieser kleinen LEGO-Steine (die Faktoren). Sie nehmen ein ganz neues Bild (z. B. ein Diagramm, das sie noch nie gesehen haben) und bauen daraus völlig neue Fragen, indem sie die alten Steine neu kombinieren.
- Sie können den "Rechen-Stein" mit einem "Vergleichs-Stein" und einem neuen Bild verbinden.
- Das Ergebnis: Aus wenigen ursprünglichen Beispielen entstehen tausende neue, einzigartige Aufgaben. Der Schüler lernt nicht nur die alten Fragen auswendig, sondern versteht das Prinzip des Bauens.
Schritt 3: Der Lehrer gibt sofort Feedback (Der Prozess-Reward)
Das ist der wichtigste Trick. Wenn der Schüler eine neue Aufgabe löst, bekommt er nicht nur am Ende ein "Richtig" oder "Falsch".
- Da die Aufgabe in kleine Schritte zerlegt wurde, kann der Lehrer sagen: "Der erste Schritt (Zahlen finden) war super! Der zweite Schritt (Subtrahieren) war falsch."
- Das ist wie beim Lernen eines Musikstücks: Wenn du nur am Ende hörst, ob das Lied gut klingt, weißt du nicht, wo du falsch gespielt hast. Wenn du aber jeden Takt kontrollierst, kannst du dich perfekt verbessern.

3. Warum ist das so toll? (Die Ergebnisse)

Die Forscher haben das an Diagrammen und Webseiten getestet. Das Ergebnis war beeindruckend:

Besser als die Großen: Der trainierte Schüler (die KI) wurde besser als viele riesige, teure Modelle, die von Firmen wie OpenAI oder Google stammen.
Kein Auswendiglernen: Der Schüler hat nicht einfach die alten Fragen gelernt. Er konnte die Tricks auf völlig neue Bilder anwenden. Das nennt man "Generalisierung".
Mischung macht stark: Wenn sie verschiedene Arten von Bildern (z. B. Diagramme und Webseiten) gemischt haben, wurde der Schüler noch schlauer. Es ist, als würde man jemanden nicht nur in Mathe, sondern auch in Logik und Sprachverständnis gleichzeitig unterrichten – die Fähigkeiten helfen sich gegenseitig.

Zusammenfassung in einem Satz

COGS ist wie ein genialer Lehrer, der aus wenigen Beispielen die Grundbausteine des Denkens extrahiert, damit eine KI daraus unendlich viele neue Aufgaben basteln kann und dabei jeden einzelnen Denk-Schritt perfektioniert, statt nur das Endergebnis zu raten.

Das Paper zeigt also, dass man nicht zwingend Millionen von menschlichen Antworten braucht, um eine KI schlau zu machen – man braucht nur ein paar gute Beispiele und den richtigen Weg, sie zu zerlegen und neu zu mischen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vorgefertigte multimodale Large Language Models (MLLMs) zeigen zwar starke Leistungen bei vielen multimodalen Aufgaben, stoßen jedoch in Domänen an Grenzen, in denen das Sammeln von annotierten Daten für komplexe Schlussfolgerungen (Reasoning) schwierig ist. Dies betrifft insbesondere künstliche Bildbereiche wie Diagramme, gerenderte Dokumente und Webseiten. Obwohl diese Bilder im Internet reichlich vorhanden sind, fehlen große, menschlich annotierte Datensätze mit Fragen, die tiefgehende visuelle Schlussfolgerungen erfordern. Das Ziel der Arbeit ist es, MLLMs mit diesen fehlenden Fähigkeiten auszustatten, indem nur eine kleine Menge an „Seed"-Fragen (Startfragen) in der Zieldomäne verwendet wird, um daraus große Mengen synthetischer Trainingsdaten zu generieren.

2. Methodik: COGS Framework

Das vorgestellte Framework COGS (COmposition-Grounded data Synthesis) ist ein dateneffizienter Ansatz, der auf dem Prinzip der Kompositionalität basiert. Es zerlegt komplexe Fragen in primitive Faktoren und setzt diese neu zusammen, um neue Fragen zu generieren. Der Prozess läuft in drei Hauptphasen ab:

A. Zerlegung der Seed-Daten (Decomposition)

Ausgehend von einem kleinen Satz an Seed-Fragen in der Zieldomäne wird jede Frage von einem MLLM in eine Reihe interpretierbarer Faktoren zerlegt.

Diese Faktoren werden in zwei Kategorien unterteilt:
- Wahrnehmungsfaktoren (Perception): Z.B. das Ablesen einer Zahl aus einem Diagramm oder das Lokalisieren eines Elements auf einer Webseite.
- Schlussfolgerungsfaktoren (Reasoning): Z.B. Logik, Arithmetik oder räumliches Denken.
Das Modell generiert für jeden Faktor eine Unterkategorie (z. B. „Berechnung", „Zählen") und eine entsprechende Teilfrage (Subquestion), die die Rolle dieses Faktors beschreibt.
Alle entdeckten Faktoren werden aggregiert, um einen Faktor-Pool ( $F$ ) zu bilden, der die latente Struktur komplexer Fragen repräsentiert.

B. Generierung durch Faktor-Rekomposition (Recomposition)

In dieser Phase werden neue Fragen generiert, indem zufällige Teilmengen aus dem Faktor-Pool $F$ mit neuen, ungelabelten Bildern (z. B. aus dem Internet) kombiniert werden.

Ein MLLM wird angewiesen, basierend auf den ausgewählten Faktoren und dem neuen Bild neue Teilfragen zu generieren.
Diese Teilfragen werden zu einer kohärenten Gesamtfrage zusammengesetzt.
Wichtig: Das System generiert nicht nur die finale Frage-Antwort-Paarung, sondern auch die zugehörigen Teilfragen und deren Antworten. Dies ermöglicht eine feingranulare Überwachung des Denkprozesses.
In Domänen wie Diagrammen wird zusätzlich auf Metadaten (z. B. zugrunde liegende Datentabellen) zurückgegriffen, um die Genauigkeit der Antworten zu erhöhen.

C. Reinforcement Learning Fine-Tuning (RLFT)

Das finale Stadium besteht im Feinabstimmen eines vortrainierten MLLM (basierend auf Qwen2.5-VL-7B) mittels Group Relative Policy Optimization (GRPO).

Belohnungsmodell (Reward Modeling): Ein entscheidender Vorteil von COGS ist die Verfügbarkeit von Teilfragen. Anstatt nur das Endergebnis zu bewerten, werden Prozessbelohnungen (Process Rewards) eingeführt.
Das Paper vergleicht drei Reward-Modelle:
1. StandardRM: Bewertet nur die Richtigkeit der finalen Antwort.
2. ProcessRM-sum: Kombiniert finale Antwort mit der durchschnittlichen Richtigkeit der Teilantworten.
3. ProcessRM-max: Priorisiert die finale Antwort, gibt aber Belohnungssignale, wenn die Zwischenschritte korrekt sind.
Theoretische Einsicht: Die Autoren zeigen theoretisch und empirisch, dass ProcessRM-max die Reihenfolge der Politiken (Policy Orders) besser erhält als die Summenmethode, da die Summenmethode durch Rauschen in den Teilbelohnungen verzerrt werden kann.

3. Wichtige Beiträge

Daten-effizientes Bootstrapping: COGS ermöglicht es, aus einer sehr kleinen Menge an Seed-Fragen (z. B. 33% eines Testsets) große, diverse und qualitativ hochwertige synthetische Datensätze zu erzeugen, ohne manuelle Annotationen für die neuen Bilder zu benötigen.
Kompositionelle Generalisierung: Durch die Zerlegung in primitive Faktoren und deren Neu-Kombination lernt das Modell generalisierbare Schlussfolgerungsfähigkeiten statt spezifisches Auswendiglernen (Overfitting) auf einen bestimmten Datensatz.
Prozessbasiertes RL: Die Einführung von Faktor-level Prozessbelohnungen verbessert das Training signifikant, insbesondere bei mehrstufigen Schlussfolgerungen, indem es Fehlerakkumulation in den Zwischenschritten reduziert.
Domänenübergreifende Anwendbarkeit: Das Framework wurde erfolgreich auf zwei sehr unterschiedliche Domänen angewendet: Diagramm-Reasoning (ChartQAPro, MMC) und Webseiten-GUI-Reasoning (VisualWebBench).

4. Ergebnisse

Die Experimente zeigen deutliche Verbesserungen gegenüber dem Basis-Modell und anderen State-of-the-Art-Ansätzen:

ChartQAPro (Diagramme): COGS erreichte eine Gesamtgenauigkeit von 52,02%, was eine signifikante Steigerung gegenüber dem Basis-Modell (47,36%) und anderen Data-Synthesis-Methoden darstellt. Die größten Gewinne wurden bei Fragen mit hohem Schlussfolgerungsbedarf und komplexen, mehrstufigen Fragen erzielt.
Cross-Dataset Transfer: Beim Training mit einer Mischung aus zwei Datensätzen (ChartQAPro + MMC) zeigte das Modell eine positive Übertragung (Positive Transfer). Die Faktor-Level-Mischung (Kombination der Faktorenpools beider Datensätze vor der Rekombination) erwies sich als überlegen gegenüber einer reinen Daten-Level-Mischung, da sie gemeinsame Strukturen besser nutzt.
VisualWebBench (Webseiten): Das Framework generalisierte erfolgreich auf Webseiten-Reasoning und erreichte mit 88,04% die beste Leistung unter allen nicht-proprietären Modellen.
Ablationsstudien:
- Die Größe des Seed-Datensatzes korreliert positiv mit der Leistung; bereits 33% der Daten reichen für signifikante Verbesserungen aus.
- Das ProcessRM-max Reward-Modell übertraf sowohl das Standard-Modell als auch das Summen-Modell.
- Das Modell profitierte besonders von Fragen mit mehreren Faktoren (Multi-Hop-Reasoning), wobei die Genauigkeit bei Fragen mit 5+ Faktoren stark anstieg.

5. Bedeutung und Ausblick

COGS adressiert ein zentrales Problem im Bereich der multimodalen KI: den Mangel an hochwertigen Reasoning-Daten für spezifische, künstliche Domänen. Der Ansatz demonstriert, dass durch die Ausnutzung der kompositionellen Struktur von Fragen (Faktorisierung) skalierbare synthetische Daten generiert werden können, die MLLMs befähigen, komplexe visuelle Schlussfolgerungen zu treffen.

Die Arbeit legt nahe, dass zukünftige Forschungsschwerpunkte darin liegen sollten:

Die Erweiterung auf lange Kontexte (z. B. ganze Dokumente statt einzelner Diagramme).
Die Integration dieser Synthesemethoden in die Pre-Training-Phase von MLLMs.
Die Untersuchung der Übertragbarkeit dieser Fähigkeiten auf Downstream-Aufgaben wie das Editieren von Chart-Code oder die Steuerung von Web-Agenten.

Zusammenfassend bietet COGS einen principled (prinzipiengeleiteten) Weg, um die Reasoning-Fähigkeiten von MLLMs in datenarmen Domänen durch dateneffiziente, kompositionelle Synthese und prozessorientiertes Reinforcement Learning zu steigern.

Composition-Grounded Data Synthesis for Visual Reasoning

1. Das Problem: Der Schüler hat nur ein paar Baupläne

2. Die Lösung: COGS – Das "Zerlegen und Neu-Zusammenbauen"-Werkzeug

3. Warum ist das so toll? (Die Ergebnisse)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: COGS Framework

A. Zerlegung der Seed-Daten (Decomposition)

B. Generierung durch Faktor-Rekomposition (Recomposition)

C. Reinforcement Learning Fine-Tuning (RLFT)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Faster Stochastic Algorithms for Minimax Optimization under Polyak--Łojasiewicz Conditions

Tensor Completion Leveraging Graph Information: A Dynamic Regularization Approach with Statistical Guarantees

Federated Multi-Agent Mapping for Planetary Exploration

Random Scaling and Momentum for Non-smooth Non-convex Optimization

Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing