Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Der "Bongard-Test"

Stell dir vor, du sitzt in einer Prüfung. Vor dir liegen zwei Schubladen.

In der linken Schublade liegen 6 Bilder.
In der rechten Schublade liegen auch 6 Bilder.

Die Aufgabe ist einfach: Was ist der Unterschied?
Auf der linken Seite sind vielleicht alle Bilder von Hunden, auf der rechten von Katzen. Oder auf der linken Seite zeigen alle Bilder etwas, das nach links schaut, und auf der rechten etwas, das nach rechts schaut.

Das ist ein sogenannter Bongard-Test. Für Menschen ist das oft ein Kinderspiel. Wir erkennen Muster sofort. Für Computer ist das jedoch eine der härtesten Nüsse, die es zu knacken gibt.

Das Problem: Computer sind "oberflächlich"

Früher haben Forscher diese Tests mit einfachen Strichmännchen gemacht. Das war zu einfach. Dann kamen echte Fotos. Aber die Computer haben sich dabei oft getäuscht. Sie haben gesagt: "Ah, links sind viele Bäume, rechts sind keine." Dabei war die eigentliche Regel vielleicht: "Links sind Bäume im Herbst, rechts im Winter."

Die Computer schauen oft nur auf das Offensichtliche (die "groben" Details) und übersehen die feinen, abstrakten Regeln, die das Gehirn eines Menschen sofort versteht.

Die Lösung: Ein riesiges Trainingslager mit KI-gemalten Bildern

Die Autoren dieses Papers (aus Warschau) hatten eine geniale Idee: Warum warten, bis jemand 5.000 echte Fotos macht? Wir malen sie einfach!

Sie haben einen neuen Datensatz namens Bongard-RWR+ erschaffen. Das klingt kompliziert, ist aber im Grunde wie eine KI-Fabrik:

Der Maler (Text-to-Image): Sie haben eine KI (Flux.1-dev) beauftragt, Bilder zu malen. Aber nicht einfach so. Sie haben ihr gesagt: "Malt mir 100 Bilder, auf denen eine Treppe nach oben führt" (linke Schublade) und "100 Bilder, auf denen eine Treppe nach unten führt" (rechte Schublade).
Der Kritiker (Menschen): Da KIs manchmal halluzinieren (z. B. malen sie eine Treppe, die in eine Wolke führt), haben echte Menschen alle Bilder geprüft. Nur die perfekten Bilder kamen in den Test.
Das Ergebnis: Aus nur 60 alten Vorlagen haben sie 5.400 neue, einzigartige Rätsel gezaubert. Das ist wie aus einem einzigen Rezept 5.000 verschiedene, aber perfekte Kuchen zu backen.

Der Test: Können die neuen KI-Genies das Rätsel lösen?

Jetzt haben die Forscher die stärksten KI-Modelle der Welt (wie GPT-4-Vision, Claude, LLaVA) vor diese 5.400 Rätsel gestellt. Sie haben verschiedene Aufgaben gegeben:

"Welches Bild gehört links und welches rechts?"
"Was ist die Regel?" (in Worten beschreiben).

Das Ergebnis war ernüchternd, aber wichtig:

Die Groben schaffen es: Wenn die Regel einfach ist (z. B. "Links sind große Tiere, rechts kleine"), schaffen die KIs das ziemlich gut.
Die Feinen scheitern: Sobald es um feine Details geht (z. B. "Links sind Linien, die sich kreuzen, rechts nicht" oder "Links schauen die Augen nach links, rechts nach rechts"), geraten die KIs ins Wanken. Sie liegen oft nur so richtig daneben wie ein Zufallsgenerator.

Die Metapher: Der Schüler und der Lehrer

Man kann sich das so vorstellen:
Die aktuellen KI-Modelle sind wie Schüler, die auswendig gelernt haben. Wenn sie ein Bild von einem Hund sehen, wissen sie: "Das ist ein Hund." Aber wenn man sie fragt: "Was haben diese 6 Hunde gemeinsam, das die 6 Katzen auf der anderen Seite nicht haben?", dann raten sie. Sie verstehen das Prinzip dahinter nicht wirklich. Sie sehen nur die Oberfläche.

Die Forscher zeigen uns mit diesem Papier: Unsere KIs sind noch nicht wirklich "klug" im Sinne von abstraktem Denken. Sie können Bilder sehen, aber sie können die tieferen Regeln des Universums (oder zumindest von Bildern) noch nicht wirklich verstehen.

Warum ist das wichtig?

Ein neuer Maßstab: Mit 5.400 Rätseln haben die Forscher endlich ein Werkzeug, um zu testen, ob eine KI wirklich "denkt" oder nur "rät".
Die Zukunft: Es zeigt uns, wo wir noch arbeiten müssen. Wir brauchen KIs, die nicht nur Bilder erkennen, sondern die Logik hinter den Bildern verstehen.
Ehrlichkeit: Es ist gut zu wissen, wo die Grenzen liegen. Solange KIs diese feinen Bongard-Rätsel nicht lösen können, sind sie noch nicht so schlau wie ein menschliches Kind, das Muster erkennt.

Kurz gesagt: Die Forscher haben eine riesige Fabrik für Bild-Rätsel gebaut, um die KIs auf die Probe zu stellen. Und die KIs haben gezeigt: Sie sind gut im Sehen, aber noch ziemlich schlecht im Verstehen der kleinen, feinen Details.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Hintergrund:
Bongard-Probleme (BPs) sind ein etablierter Test für abstraktes visuelles Reasoning (AVR). Dabei muss ein Modell aus zwei Seiten mit je sechs Bildern eine abstrakte Regel ableiten, die die linke von der rechten Seite unterscheidet, und diese in natürlicher Sprache beschreiben.

Lücken in bestehenden Benchmarks:

Synthetische Daten: Frühere Datensätze (z. B. Bongard-LOGO) nutzten synthetische Schwarz-Weiß-Zeichnungen, die die Komplexität realer Szenen nicht abbilden.
Oberflächliche Realitätsnähe: Neuere Datensätze mit echten Bildern (z. B. Bongard HOI, Bongard-OpenWorld) fokussieren sich oft auf grobkörnige Konzepte (z. B. „Mensch fährt Auto"), die für moderne Modelle zu einfach sind.
Skalierbarkeitsproblem: Der Datensatz Bongard-RWR (Małkiński et al., 2025) adressierte abstrakte Konzepte in realen Bildern, wurde jedoch manuell erstellt und umfasst nur 60 Instanzen. Dies限制了 (limitiert) die Robustheit der Evaluation und die Generalisierungsfähigkeit von Modellen.

Ziel:
Die Autoren wollen einen skalierbaren, großen Datensatz erstellen, der abstrakte Konzepte aus synthetischen BPs durch realistische, feinkörnige Bilder darstellt, um die Grenzen aktueller Vision-Language-Modelle (VLMs) beim visuellen Reasoning zu testen.

2. Methodik: Der Generierungs-Pipeline

Um die Skalierbarkeit zu erreichen, entwickelten die Autoren eine semi-automatische Pipeline, die Vision-Language-Modelle (VLMs) und Text-to-Image-Modelle (T2I) kombiniert, um 5.400 neue Bongard-Probleme zu generieren.

Der Workflow (basierend auf Abbildung 3):

Ausgangspunkt: Nutzung der 60 manuell erstellten Bongard-RWR-Matrizen als Grundgerüst.
Beschreibung (Image-to-Text, I2T):
- Für jedes Bild in den originalen Matrizen wird mit Pixtral-12B eine positive Beschreibung (die das Konzept korrekt erfasst) und eine negative Beschreibung (die das Konzept vermeidet) generiert.
Augmentierung (Text-to-Text, T2T):
- Jede positive Beschreibung wird mit einem T2T-Modell in $N=15$ diverse, aber konzeptgetreue Varianten umgewandelt, um die visuelle Vielfalt zu erhöhen.
Bildgenerierung (Text-to-Image, T2I):
- Mit dem Modell Flux.1-dev werden aus den augmentierten Beschreibungen (und den negativen Prompts als Guidance) neue Bilder (512x512 px) synthetisiert.
Manuelle Verifizierung:
- Ein kritischer Schritt: Experten prüfen die generierten Bilder manuell. Bilder, die das Konzept nicht korrekt abbilden oder Elemente der Gegenseite enthalten, werden verworfen.
- Ergebnis: Ca. 30,2 % der generierten Bilder wurden verworfen, was die Notwendigkeit menschlicher Aufsicht unterstreicht.
Matrizen-Konstruktion:
- Aus den validierten Bildern werden neue Matrizen gebildet. Dabei wird durch Minimierung der Ähnlichkeit der ViT-L/14-Embeddings innerhalb einer Seite für maximale visuelle Diversität gesorgt.
- Pro ursprüngliches Bongard-RWR-Problem (54 davon waren erfolgreich) wurden 100 neue Instanzen erstellt.

Datensatz-Varianten:

Bongard-RWR+/GS: Graustufen-Version zur Isolierung des Farbeinflusses.
Bongard-RWR+/LP: Varianten mit unterschiedlicher Anzahl von Beispielen pro Seite ( $P=2$ bis $6$) und reduzierter Bildentfernung, um den Effekt von Few-Shot-Learning zu testen.

3. Aufgabenformulierungen (Task Formulations)

Der Datensatz unterstützt sechs verschiedene Evaluierungs-Szenarien (Abbildung 4):

Image-to-Side (I1S): Klassifikation eines einzelnen Testbildes auf die linke oder rechte Seite.
Images-to-Sides (I2S): Zuordnung eines Bildpaares (je eines pro Klasse) zu den richtigen Seiten.
Description-to-Side (D1S/D2S): Klassifikation basierend auf Textbeschreibungen der Bilder (statt der Bilder selbst), um den Einfluss des Captioning-Schritts zu testen.
Concept Selection (CS): Mehrklassen-Klassifikation, bei der das Modell das richtige Konzept aus einer Menge von $K$ Kandidaten ( $K \in \{2, 4, 8, 16\}$ ) auswählen muss.
Concept Generation (CG): Freie Textgenerierung der zugrundeliegenden Regel.

4. Experimente und Ergebnisse

Evaluierte Modelle:
Es wurden vier state-of-the-art Open-Source-VLMs getestet:

InternVL2.5 (78B Parameter)
Qwen2-VL (72B)
LLaVA-Next (110B)
MiniCPM-o 2.6 (8B)
Zusätzlich: DeepSeek-R1 (70B, nur Text) und ein Similarity Classifier (SC) als Baseline.

Hauptergebnisse:

Leistung bei grobkörnigen vs. feinkörnigen Konzepten:
- Modelle können grobe Konzepte (z. B. Größe, Anzahl, Form) teilweise erkennen (z. B. 91 % Genauigkeit bei $K=2$ für InternVL2.5).
- Bei feinkörnigen Konzepten (z. B. Kontur, Rotation, Winkel) bricht die Leistung jedoch stark ein (oft unter 50 %). Modelle scheitern an subtilen geometrischen Nuancen.
Vergleich mit Zufall:
- In den Bild-zu-Seite-Aufgaben (I1S/I2S) liegen viele Modelle nahe am Zufallsniveau oder sogar darunter.
- Ein einfacher Similarity Classifier (basierend auf Embedding-Ähnlichkeit) übertraf in I1S/I2S alle VLMs, was darauf hindeutet, dass VLMs keine robusten konzeptionellen Unterscheidungen treffen, sondern oft auf oberflächliche Merkmale reagieren.
Skalierungseffekte:
- Die Leistung steigt mit der Modellgröße, aber selbst die größten Modelle (110B+) scheitern in komplexen Szenarien.
- Die Anzahl der Beispiele ( $P$ ) hilft einigen Modellen (InternVL2.5, Qwen2-VL), andere (LLaVA, MiniCPM) profitieren nicht konsistent.
Bedeutung von Farbe und Bildqualität:
- Graustufen-Bilder führten oft zu besseren Ergebnissen, da Farbe als Ablenkung wirkt.
- Die Verwendung von generierten Bildern (Bongard-RWR+) zeigte eine fast perfekte Korrelation ( $r > 0.99$ ) zur Leistung auf echten Bildern (Bongard-RWR), was die Validität des generativen Ansatzes bestätigt.
Textgenerierung (CG):
- Die Fähigkeit, die Regel in natürlicher Sprache zu formulieren, ist extrem schwach. Die BLEU- und BERTScore-Werte waren sehr niedrig, und manuelle Inspektionen zeigten, dass Modelle die Konzepte oft falsch beschreiben oder auf Oberflächenmerkmale zurückgreifen.

5. Wichtige Beiträge

Pipeline-Entwicklung: Entwicklung einer semi-automatischen Pipeline zur Generierung realistischer Bilder abstrakter Konzepte unter Nutzung von I2T, T2T und T2I Modellen.
Bongard-RWR+ Datensatz: Vorstellung eines neuen Benchmarks mit 5.400 Instanzen, der abstrakte Konzepte in realistischen Bildern darstellt und damit deutlich größer und diverser ist als Vorgänger.
Umfassende Evaluation: Systematische Analyse von VLMs über verschiedene Aufgabenformulierungen (Klassifikation, Auswahl, Generierung) und Ablationen (Modellgröße, Farbe, Diversität).
Erkenntnis über Limitierungen: Der Nachweis, dass aktuelle VLMs zwar grobe Muster erkennen, aber bei feinkörnigem, abstraktem visuellen Reasoning (insbesondere bei geometrischen Nuancen und Mehrbild-Kontexten) signifikante Defizite aufweisen.

6. Bedeutung und Fazit

Das Paper zeigt, dass die aktuellen Fortschritte in der Multimodalität (VLMs) noch nicht ausreichen, um menschliches abstraktes Reasoning in komplexen, few-shot Szenarien nachzubilden. Während Modelle bei einfachen Klassifikationsaufgaben oder groben Konzepten gut abschneiden, scheitern sie an der Integration von visuellen Details zu einem konsistenten abstrakten Konzept.

Bongard-RWR+ dient als wichtiger, skalierbarer Teststein für die Community, um:

Die Grenzen aktueller Modelle zu quantifizieren.
Die Entwicklung von Architekturen zu fördern, die tieferes visuelles Verständnis und logisches Schlussfolgern über mehrere Bilder hinweg ermöglichen.
Die Robustheit von generativen Modellen für die Datenerstellung zu validieren.

Die Autoren betonen, dass menschliche Überprüfung weiterhin notwendig ist, um die Qualität der synthetischen Daten sicherzustellen, und dass zukünftige Arbeiten sich auf die Reduzierung von Verzerrungen (Bias) in den generierten Bildern sowie auf die Automatisierung der Qualitätskontrolle konzentrieren sollten.

Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

Das große Rätsel: Der "Bongard-Test"

Das Problem: Computer sind "oberflächlich"

Die Lösung: Ein riesiges Trainingslager mit KI-gemalten Bildern

Der Test: Können die neuen KI-Genies das Rätsel lösen?

Die Metapher: Der Schüler und der Lehrer

Warum ist das wichtig?

1. Problemstellung und Motivation

2. Methodik: Der Generierungs-Pipeline

3. Aufgabenformulierungen (Task Formulations)

4. Experimente und Ergebnisse

5. Wichtige Beiträge

6. Bedeutung und Fazit

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks