From Synthetic Scenes to Real Performance: Enhancing Spatial Reasoning in VLMs

Each language version is independently generated for its own context, not a direct translation.

Von der Spielwiese zur echten Welt: Wie wir KI beim „Räumlichen Sehen" helfen

Stell dir vor, du möchtest einem kleinen Kind beibringen, wo sich Dinge im Raum befinden. Du könntest es einfach auf die Straße schicken und hoffen, dass es durch Zufall lernt, wo ein Auto steht und wo ein Baum. Das Problem dabei: Das Kind könnte denken, „Autos stehen immer in der Mitte der Straße" oder „Bäume sind immer links". Wenn es dann auf eine Situation trifft, die anders aussieht, ist es verwirrt.

Genau das ist das Problem bei modernen KI-Modellen (den sogenannten Vision-Language-Modellen), die Bilder und Sprache verstehen sollen. Sie werden oft mit echten Fotos aus dem Internet trainiert. Diese Fotos sind aber voller „Fehler" und Vorurteile: Vielleicht sind die meisten Hunde auf den Fotos in der Mitte zu sehen, oder die meisten Autos fahren auf der rechten Seite. Die KI lernt dann nicht wirklich, wo etwas ist, sondern nur, wo es meistens ist. Sie macht sich die Abkürzung (die „Spur") statt das Prinzip zu merken.

Die Autoren dieses Papers haben eine clevere Lösung gefunden, die man sich wie den Bau einer perfekten Spielwiese vorstellen kann.

1. Die perfekte Spielwiese (Synthetische Daten)

Statt die KI mit chaotischen echten Fotos zu füttern, haben die Forscher eine künstliche, aber perfekt organisierte Welt erschaffen.

Das Szenario: Stell dir ein riesiges Schachbrett vor (ein 9x9-Gitter).
Die Übung: Auf dieses Brett werden zufällig verschiedene Objekte gelegt: rote Kreise, blaue Quadrate, kleine Sterne, große Dreiecke.
Der Clou: Die Forscher haben dafür gesorgt, dass jedes mögliche Szenario genau einmal vorkommt. Ein roter Kreis ist genauso oft oben links wie unten rechts. Ein blauer Stern ist genauso oft klein wie groß.

Es ist wie ein Trainer, der seinem Sportler nicht nur sagt: „Lauf immer nach rechts, weil das der Weg zum Tor ist", sondern der ihm zeigt: „Lauf nach links, nach rechts, nach oben, nach unten – und zwar in jedem Winkel und mit jedem Schuh."

2. Der Test: Von der Spielwiese auf die Straße

Nachdem die KI auf dieser perfekten Spielwiese trainiert wurde, warf man sie in die echte Welt.

Die echte Welt: Hier gibt es keine perfekten Gitter. Es gibt volle Straßen, viele Autos, Menschen, die überlappen, und Lichtverhältnisse, die alles verzerren.
Das Ergebnis: Die KI, die auf der perfekten Spielwiese trainiert wurde, war plötzlich viel besser darin, echte Objekte auf echten Fotos zu lokalisieren als Modelle, die direkt mit echten Fotos trainiert wurden.

Warum? Weil die KI auf der Spielwiese gelernt hatte, wirklich zu verstehen, was „links" oder „Mitte" bedeutet, anstatt nur zu raten, wo ein Objekt wahrscheinlich ist. Sie hatte keine „faulen Abkürzungen" gelernt.

3. Die überraschende Erkenntnis: Weniger ist mehr

Ein besonders spannendes Ergebnis war: Mehr Daten sind nicht immer besser.

Wenn man die KI mit allen verfügbaren echten Fotos trainiert hat (ungefähr 160.000 Stück), wurde sie sogar schlechter! Sie hat sich in den Chaos der echten Welt verirrt und die Muster nicht mehr erkannt.
Wenn man sie aber nur mit einer kleinen, aber perfekt ausgewogenen Menge an künstlichen Bildern trainiert hat (nur ca. 1.300 Bilder), war sie viel schlauer.

Das ist wie beim Lernen für eine Prüfung: Wenn du 1000 alte Klausuren auswendig lernst, die alle zufällig die gleichen Fehler enthalten, wirst du bei der echten Prüfung scheitern. Wenn du aber nur 100 Aufgaben löst, die jeden denkbaren Fall perfekt abdecken, verstehst du das Prinzip und bestehst jede Prüfung.

Zusammenfassung in einem Satz

Die Forscher haben gezeigt, dass man KI-Modelle nicht mit mehr „Müll" (unordentlichen echten Daten) füttern muss, sondern mit weniger, aber perfekt strukturiertem Training, damit sie die Welt wirklich verstehen und nicht nur Raten.

Die Moral der Geschichte: Um jemanden wirklich klug zu machen, braucht man nicht mehr Informationen, sondern bessere, ausgewogenere Beispiele.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language Models (VLMs) zeigen zwar beeindruckende Leistungen in vielen Downstream-Aufgaben, leiden jedoch unter gravierenden Mängeln beim Verständnis der Struktur und Semantik visueller Szenen, insbesondere beim räumlichen Reasoning.

Herausforderungen bei Real-Daten: Der aktuelle Standard, Modelle durch Feinabstimmung (Fine-Tuning) auf annotierten Real-Datensätzen zu verbessern, führt oft zu Überanpassung (Overfitting) an Datenverzerrungen (Bias), Annotationsfehlern und unausgewogenen Verteilungen. Modelle lernen stattdessen „Spurious Correlations" (zufällige Korrelationen), z. B. dass Objekte meist in der Bildmitte stehen, anstatt ihre tatsächliche Position zu verstehen.
Limitationen synthetischer Daten: Bisherige Ansätze zur Nutzung synthetischer Daten fehlten oft an Kontrolle über die Verteilungsbias oder litten unter Halluzinationen und Inkonsistenzen bei der Generierung durch KI-Modelle.
Folge: Dies führt zu einer scheinbaren Leistungssteigerung auf Benchmarks, die jedoch nicht auf echte Generalisierungsfähigkeit zurückzuführen ist und in realen Anwendungen zu katastrophalen Fehlern führen kann.

2. Methodik

Die Autoren schlagen einen kontrollierten Ansatz vor, der die Feinabstimmung von VLMs auf ausgewogenen, synthetischen Daten neu gestaltet, um das räumliche Reasoning zu isolieren und zu verbessern.

Aufgabe: Die Untersuchung konzentriert sich auf die „Absolute Position"-Aufgabe. Bilder werden in ein $3 \times 3$ -Gitter unterteilt, und das Modell muss die Position eines Zielobjekts (z. B. „Wo ist der rote Kreis?") bestimmen.
Datengenerierung (Synthetisch):
- Nutzung des CIVET-Frameworks zur Erzeugung von Daten mit vollständiger Abdeckung und ohne Annotationsfehler.
- Systematische Variation von Attributen: Farbe (6 Optionen), Form (4 Optionen), Größe (2 Optionen) und Position (in einem feinen $9 \times 9$ -Raster innerhalb der Szenen).
- Trainings- vs. Testdaten: Das Trainingssynthese-Dataset verwendet spezifische Kombinationen von Farben und Formen, die im Testset nicht vorkommen, um sicherzustellen, dass das Modell das räumliche Konzept lernt und nicht nur Muster auswendig lernt.
- Größe: Das Trainingsset umfasst ca. 1.300 ausgewogene Bild-Frage-Paare.
Real-Daten-Validierung:
- Zur Überprüfung der Transferierbarkeit wurde ein Datensatz aus COCO abgeleitet, der die gleiche Aufgabe stellt, aber reale Szenen mit Unordnung, variierenden Objektgrößen und verzerrten Verteilungen enthält.
- Zwei Evaluierungsszenarien: Unmatched (Training auf Synthetik, Test auf COCO) und Matched (Training und Test auf COCO).
Modelle: Es wurden fünf repräsentative VLMs getestet, darunter Dual-Encoder-Modelle (CLIP) und Encoder-Decoder-Architekturen (LLaVA-NeXT, LLaVA-OneVision, Molmo, Qwen2-VL).
Fine-Tuning: Verwendung von LoRA (Low-Rank Adaptation) für die Feinabstimmung.

3. Wichtige Beiträge und Erkenntnisse

A. Verbesserung des Reasonings durch synthetische Daten (RQ1)

Beseitigung von Bias: Vor dem Fine-Tuning zeigen alle Modelle starke räumliche Verzerrungen (z. B. Tendenz zur oberen Bildhälfte oder zur Mitte). Nach dem Training auf den kontrollierten synthetischen Daten erreichen die Modelle eine nahezu perfekte Genauigkeit (bis zu 100 %) auf dem synthetischen Testset.
Robustheit: Die Leistung ist über verschiedene Trainingsläufe hinweg extrem stabil und zeigt minimale Varianz.
Dateneffizienz: Modelle erreichen ihre maximale Leistung bereits mit nur 10 % der synthetischen Trainingsdaten. Weitere Daten bringen kaum noch Gewinn (abnehmende Grenzerträge).

B. Transferierbarkeit in die reale Welt (RQ2)

Signifikanter Transfer: Die durch synthetische Daten erlernten Fähigkeiten transferieren effektiv auf reale COCO-Bilder. Modelle, die auf synthetischen Daten trainiert wurden, verbesserten ihre Genauigkeit auf COCO um ca. 13–21 Prozentpunkte im Vergleich zum Basis-Modell.
Das Paradoxon der Datenmenge:
- Das Fine-Tuning auf dem vollständigen COCO-Trainingsset (ca. 161.000 Samples) führte zu einem katastrophalen Leistungsabfall (teilweise auf 0 % Genauigkeit). Die Real-Daten scheinen zu viel Rauschen und Bias zu enthalten, um die räumliche Struktur zu lernen.
- Selbst ein ausgewogenes Subset von COCO (gleiche Größe wie das synthetische Set) führte zu besseren Ergebnissen als das vollständige Set, konnte aber die Robustheit und Konsistenz der synthetischen Methode nicht vollständig erreichen.
Architektur-Unterschiede: Encoder-Decoder-Modelle (wie LLaVA, Molmo, Qwen) profitierten stark. Das Dual-Encoder-Modell CLIP zeigte hingegen kaum Verbesserungen durch synthetisches Fine-Tuning, was auf Limitationen dieser Architektur für diese spezifische Aufgabe hindeutet.

C. Einfluss von Szenenkomplexität

Die Einführung von Distraktoren (zusätzliche, irrelevante Objekte) in die synthetischen Trainingsdaten verbesserte die Transferleistung auf COCO für die meisten Modelle, solange die Komplexität moderat blieb (3 Distraktoren). Zu viele Distraktoren (5) führten jedoch wieder zu Leistungsabfällen.

D. Repräsentationsanalyse

Eine Layer-für-Layer-Analyse zeigte, dass das Fine-Tuning die internen Repräsentationen des Modells so verändert, dass räumliches Reasoning bereits in den frühen Schichten des Sprachmodells (LLM) stark verbessert wird. Diese verbesserten Repräsentationen transferieren auch auf die komplexeren COCO-Daten, wenn auch mit etwas geringerer Stabilität.

4. Signifikanz und Fazit

Das Paper demonstriert, dass Qualität, Balance und Kontrolle in Trainingsdaten wichtiger sind als reine Datenmenge.

Paradigmenwechsel: Statt auf riesige, verzerrte Real-Datensätze zu setzen, kann ein kleiner, kontrollierter synthetischer Datensatz die räumlichen Reasoning-Fähigkeiten von VLMs fundamental verbessern und diese Fähigkeiten robust auf reale Szenen übertragen.
Diagnose-Werkzeug: Synthetische Daten dienen nicht nur dem Training, sondern auch der Diagnose von Modellgrenzen und der Isolierung von Reasoning-Fähigkeiten von störenden Datenartefakten.
Zukunftsperspektive: Dieser Ansatz bietet einen Weg, VLMs zu entwickeln, die nicht nur auf Benchmarks gut abschneiden, sondern auch verlässlich und transparent in visuellen Domänen reasoning können. Die Autoren schlagen vor, diese Methode auf andere Reasoning-Dimensionen (kausale, relationale) zu erweitern.

Zusammenfassend: Die Studie beweist, dass Fine-Tuning auf ausgewogenen synthetischen Daten die räumliche Reasoning-Fähigkeit von VLMs signifikant steigert und diese Verbesserungen besser auf reale Daten übertragen werden als durch das Training auf großen, unausgewogenen Real-Datensätzen.