Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die een raadsel moet oplossen. Je krijgt twee dozen met foto's. In de ene doos staan allemaal foto's van iets dat "links" is, en in de andere doos staan foto's van iets dat "rechts" is. Je taak is om te ontdekken: wat is het geheim dat deze twee groepen van elkaar scheidt?

Dit is precies wat een Bongard-probleem is. Het is een soort hersenkraker die test of een computer echt kan "nadenken" over beelden, of dat het alleen maar patronen herkent.

Hier is wat dit nieuwe onderzoek (Bongard-RWR+) voorstelt, vertaald naar begrijpelijke taal:

1. Het oude probleem: De tekenfilmversie

Vroeger waren deze raadsels gemaakt van simpele, zwart-witte tekeningen. Dat was makkelijk voor computers, maar niet echt een goede test voor hoe wij mensen de wereld zien.

Later kwamen er raadsels met echte foto's (bijvoorbeeld van mensen die auto's rijden). Maar die waren vaak te makkelijk. Een computer kon zeggen: "Oh, links zijn er auto's, rechts niet." Dat is te simpel. Het was alsof je een kind vraagt om het verschil te zien tussen een hond en een kat, terwijl de hond altijd op een tapijt staat en de kat op een stoel. De computer keek naar de meubels, niet naar het dier.

2. De nieuwe uitdaging: De "echte" wereld, maar dan lastig

De onderzoekers wilden een nieuwe versie maken die echt lastig is. Ze wilden dat de computer moet kijken naar kleine, fijne details (zoals: "Zijn de pijlen naar links of naar rechts gericht?") in plaats van naar grote, duidelijke dingen (zoals "Is er een auto?").

Ze noemen dit Bongard-RWR+.

Het probleem: Ze hadden maar 60 voorbeelden. Dat is te weinig om te testen of een computer echt slim is of dat hij gewoon geluk had.
De oplossing: Ze hebben een "robot-fabriek" gebouwd om 5.400 nieuwe raadsels te maken!

3. Hoe werkt de "robot-fabriek"? (De Magische Drie-Stappen)

In plaats van dat mensen duizenden foto's moeten zoeken en sorteren, hebben ze slimme AI-tools gebruikt die samenwerken als een creatief team:

De Beschrijver (De Verteller): Een AI kijkt naar een oude, simpele tekening en beschrijft hem in woorden. "Kijk, hier zijn pijlen die naar rechts wijzen."
De Uitvinder (De Creatieveling): Een tweede AI pakt die beschrijving en bedenkt 15 nieuwe, verschillende manieren om dat te zeggen. "Stel je een windmolen voor," of "Stel je een gebouw met een spitse top voor." Het doel is om hetzelfde idee (pijlen naar rechts) in heel verschillende situaties te tonen.
De Schilder (De Kunstenaar): Een derde AI (een beeldgenerator) tekent deze nieuwe beschrijvingen om in echte, realistische foto's.

Maar wacht, er is een mens nodig!
Deze robot-fabriek maakt soms fouten. Soms tekent de AI een windmolen, maar staat hij er scheef, of heeft hij een extra vleugel die niet hoort. Daarom hebben echte mensen alle foto's gecontroleerd. Als de foto niet perfect paste bij het raadsel, werd hij weggegooid. Dit zorgde voor een dataset van 5.400 perfecte, lastige raadsels.

4. Wat hebben ze ontdekt? (De Teleurstellende Resultaten)

Ze hebben de slimste computers van vandaag (zoals InternVL, Qwen, en LLaVA) deze raadsels laten oplossen. Het resultaat? Ze zakten door de vloer.

Grote ideeën vs. Kleine details: De computers waren goed in het zien van grote dingen (bijvoorbeeld: "Links zijn er veel dingen, rechts weinig"). Maar zodra het ging om fijne details (bijvoorbeeld: "De lijnen zijn gebogen in plaats van recht"), faalden ze.
Het is alsof ze blind zijn voor de nuance: Een computer kan zien dat er een hond is, maar hij ziet niet dat de hond aan het kijken is naar links in plaats van rechts.
Oefening baart kunst? Meer foto's helpen soms een beetje, maar zelfs de slimste modellen komen er niet uit. Ze lijken te "gokken" in plaats van echt te redeneren.

5. Waarom is dit belangrijk?

Dit onderzoek is als een spiegel voor de kunstmatige intelligentie.
Het laat zien dat hoewel AI's geweldig zijn in het herkennen van objecten (een auto, een boom, een gezicht), ze nog steeds moeite hebben met abstract redeneren. Ze kunnen niet goed het "diepe geheim" van een plaatje ontdekken als het gaat om subtiele regels.

Kortom:
De onderzoekers hebben een enorme, moeilijke testbank gebouwd met een robot-fabriek. Ze hebben laten zien dat onze huidige slimme computers nog niet zo slim zijn als we denken als het gaat om het oplossen van echte, abstracte puzzels. Ze zien de boom, maar missen vaak de takken. Dit is een belangrijke stap om te begrijpen wat er nog moet gebeuren voordat AI echt menselijk kan "nadenken".

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Abstract Visueel Redeneren (AVR) is een domein waarbij modellen abstracte patronen moeten identificeren en redeneren op basis van beeldanalogen. Klassieke benchmarks zoals Raven's Progressive Matrices vereisen vaak grote datasets voor supervised learning, wat in strijd is met de menselijke capaciteit om zich snel aan te passen aan nieuwe problemen met weinig voorbeelden (few-shot learning).

Bongard-problemen (BPs) vormen een uitdagende test voor dit vermogen: een model moet een abstracte regel onderscheiden tussen twee sets van zes afbeeldingen en deze beschrijven in natuurlijke taal. Eerdere datasets hadden beperkingen:

Synthetische datasets (bijv. Bongard-LOGO): Gebruiken zwart-wit tekeningen die de complexiteit van realistische scènes niet volledig vastleggen.
Real-world datasets (bijv. Bongard HOI, OpenWorld): Gebruiken echte foto's, maar de concepten zijn vaak hoog-niveau en grof (coarse-grained), wat de taak te eenvoudig maakt voor moderne modellen.
Bongard-RWR: Een recente dataset die abstracte concepten uit synthetische BPs vertaalt naar realistische afbeeldingen. Echter, deze is handmatig samengesteld en bevat slechts 60 instanties, wat de robuustheid van evaluaties beperkt.

Het hoofddoel van dit paper is het overwinnen van de schaalbeperkingen van Bongard-RWR door een dataset te creëren die fine-grained abstracte concepten vertegenwoordigt met realistische afbeeldingen, terwijl de schaalbaarheid wordt vergroot.

Methodologie: De Generatieve Pijplijn

De auteurs introduceren Bongard-RWR+, een dataset van 5.400 Bongard-problemen, gegenereerd via een semi-automatische pijplijn die Vision Language Models (VLMs) en Text-to-Image (T2I) modellen combineert. De pijplijn bestaat uit vier stappen (gevisualiseerd in Figuur 3):

Beschrijven (Image-to-Text): Voor elke afbeelding in de originele Bongard-RWR dataset wordt Pixtral-12B gebruikt om een positieve beschrijving (die de inhoud van de afbeelding en het concept nauwkeurig weergeeft) en een negatieve beschrijving (ontworpen om het T2I-model weg te sturen van het tegenovergestelde concept) te genereren.
Augmenteren (Text-to-Text): De positieve beschrijvingen worden verrijkt met een T2T-model (bijv. een LLM) om $N=15$ diverse, semantisch consistente variaties van de beschrijving te creëren die hetzelfde onderliggende concept behouden.
Genereren (Text-to-Image): De gegenereerde beschrijvingen worden gepaard met de negatieve prompts en ingevoerd in het Flux.1-dev model om nieuwe 512x512 afbeeldingen te synthetiseren.
Verificatie (Human-in-the-loop): Alle gegenereerde afbeeldingen worden handmatig gecontroleerd door experts om te garanderen dat ze het beoogde concept trouw weergeven en geen elementen bevatten van het tegenovergestelde concept. Ongeveer 30,2% van de gegenereerde afbeeldingen wordt hierbij verwijderd.

Dataset Constructie:
Uit de goedgekeurde afbeeldingen worden subsets geselecteerd die de visuele diversiteit maximaliseren (gemeten via cosine similarity van ViT-L/14 embeddings). Voor elke originele Bongard-RWR matrix worden 100 nieuwe BP-instanties samengesteld, resulterend in 5.400 matrices gebaseerd op 54 originele concepten. Er zijn ook varianten voor ablatiestudies, zoals grijstinten (GS) en variaties in het aantal voorbeelden per kant ( $P$ ).

Evaluatie Opdrachten:
De dataset ondersteunt zes taakformuleringen van toenemende complexiteit:

Binary Classificatie: Image-to-Side (I1S), Images-to-Sides (I2S), Description-to-Side (D1S), Descriptions-to-Sides (D2S).
Multiclass Classificatie: Concept Selection (CS) – het kiezen van het juiste concept uit een set van kandidaten ( $K \in \{2, 4, 8, 16\}$ ).
Vrije Tekstgeneratie: Concept Generation (CG) – het genereren van een natuurlijke taalbeschrijving van het concept.

Belangrijkste Bijdragen

Schaalbare Generatie: Ontwikkeling van een semi-automatische pijplijn om realistische afbeeldingen van abstracte concepten te genereren, waardoor de datasetgrootte van 60 naar 5.400 instanties wordt opgevoerd.
Bongard-RWR+ Dataset: Introductie van een nieuwe benchmark die synthetische abstracte concepten combineert met realistische visuele representaties, specifiek gericht op fine-grained redeneren.
Uitgebreide Evaluatie: Een grondige evaluatie van state-of-the-art VLMs (InternVL2.5, Qwen2-VL, LLaVA-Next, MiniCPM-o) die blootlegt dat deze modellen moeite hebben met fine-grained concepten, ondanks hun prestaties op grofere taken.

Resultaten

De evaluatie van vier open-source VLMs op Bongard-RWR+ leverde de volgende inzichten op:

Schaalbaarheid vs. Prestaties: Hoewel de prestaties over het algemeen toenemen met de modelgrootte, blijven zelfs de grootste modellen (zoals InternVL2.5 78B) aanzienlijk onder de menselijke prestaties, vooral bij complexe taken.
Concept Selectie (CS): Bij $K=2$ bereikt InternVL2.5 91% nauwkeurigheid, maar dit daalt naar 57% bij $K=16$ . Modellen presteren goed op hoog-niveau concepten (Grootte, Vorm, Aantal), maar kampen met grote moeilijkheden bij subtiele concepten zoals Contour, Rotatie en Hoek.
Classificatie (I1S/I2S): In de taak om een testafbeelding aan de juiste kant toe te wijzen, presteren de VLMs vaak op het niveau van willekeur (random guess). Een eenvoudige Similarity Classifier (gebaseerd op embeddings) presteert zelfs beter dan de geavanceerde VLMs, wat suggereert dat de VLMs het onderliggende concept niet robuust begrijpen.
Rol van Captioning: Het gebruik van tekstuele beschrijvingen (D1S/D2S) verbetert de prestaties ten opzichte van directe beeldverwerking (I1S/I2S), wat aangeeft dat expliciete captioning helpt bij het "grounden" van de voorspelling. Toch blijven de scores bescheiden.
Gegenereerde vs. Real Afbeeldingen: Er is een sterke correlatie ( $r > 0.99$ ) tussen de prestaties op de gegenereerde dataset (Bongard-RWR+) en de originele real-world dataset (Bongard-RWR). Dit bevestigt dat gegenereerde afbeeldingen een geldig alternatief zijn voor het evalueren van visueel redeneren.
Visuele Diversiteit: Hogere visuele diversiteit binnen een matrix (verschillende voorbeelden van hetzelfde concept) verbetert de prestaties van de modellen, wat suggereert dat herhaling van visuele aspecten de taak juist verergert.

Betekenis en Conclusie

Bongard-RWR+ is een mijlpaal in het onderzoek naar Abstract Visueel Redeneren. Het paper demonstreert dat:

Huidige VLMs beperkt zijn: Zelfs de krachtigste multimodale modellen worstelen met het onderscheiden van fine-grained, abstracte concepten in realistische scènes, vooral wanneer deze subtiele ruimtelijke of geometrische relaties vereisen.
Generatieve AI als Benchmark-tool: De succesvolle toepassing van T2I-modellen voor het creëren van schaalbare, complexe benchmarks opent nieuwe wegen voor het evalueren van AI, zonder afhankelijk te zijn van kostbare handmatige annotatie.
Toekomstige Richtingen: De resultaten wijzen op de noodzaak van modellen die beter kunnen integreren tussen visuele waarneming en diepgaand redeneren, en die minder afhankelijk zijn van oppervlakkige visuele features.

De dataset en de code zijn openbaar beschikbaar gesteld, wat de gemeenschap in staat stelt om de grenzen van visueel redeneren verder te verkennen en nieuwe methoden te ontwikkelen die de huidige "visuele redeneergap" (visual reasoning gap) tussen mens en machine kunnen overbruggen.

Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

1. Het oude probleem: De tekenfilmversie

2. De nieuwe uitdaging: De "echte" wereld, maar dan lastig

3. Hoe werkt de "robot-fabriek"? (De Magische Drie-Stappen)

4. Wat hebben ze ontdekt? (De Teleurstellende Resultaten)

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie: De Generatieve Pijplijn

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks