Composition-Grounded Data Synthesis for Visual Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nog jonge robot hebt die alles kan zien en lezen op internet. Hij kan foto's van grafieken, documenten en websites bekijken. Maar als je hem vraagt: "Als de verkoop in januari 10% daalt en in februari weer 5% stijgt, wat is dan het gemiddelde?", dan raakt hij in de war. Hij kan de cijfers wel zien, maar het redeneren over die cijfers lukt hem nog niet goed.

Het probleem? Om zo'n robot slim te maken, heb je duizenden voorbeelden nodig van mensen die deze moeilijke vragen beantwoorden. Maar die mensen zijn er niet genoeg, vooral niet voor specifieke taken zoals het analyseren van grafieken of webpagina's.

Hier komt COGS (COmposition-Grounded data Synthesis) om de hoek kijken. Het is een slimme manier om deze robot te trainen zonder duizenden mensen in te huren.

De Analogie: De Lego-blokken van Redeneren

Stel je voor dat elke moeilijke vraag die je aan de robot stelt, eigenlijk een complex Lego-kasteel is.

De oude manier: Mensen bouwden elk kasteel handmatig, steen voor steen, en legden het neer als voorbeeld. Dit kostte enorm veel tijd en geld.
De COGS-methode: In plaats van nieuwe kastelen te bouwen, kijken we naar een paar bestaande kastelen (de "zaadvragen") en halen ze uit elkaar. We ontdekken dat elk kasteel eigenlijk bestaat uit dezelfde basisblokken:
1. Kijken: "Wat is dit cijfer?" (Perceptie)
2. Vergelijken: "Is dit getal groter dan dat?" (Redeneren)
3. Rekenen: "Trek ze van elkaar af." (Berekening)

COGS doet precies dit: het haalt de basisblokken (de factoren) uit een klein aantal voorbeeldvragen. Vervolgens pakt het deze blokken en bouwt er duizenden nieuwe, unieke kastelen mee, maar dan op basis van nieuwe foto's van grafieken of websites die de robot nog nooit heeft gezien.

Hoe werkt het in drie stappen?

Uit elkaar halen (De Demontage):
De onderzoekers geven de robot een paar moeilijke vragen over grafieken. De robot (met wat hulp van een nog slimmere AI) moet uitleggen: "Oh, om deze vraag te beantwoorden, moet ik eerst dit cijfer vinden, dan dat cijfer vergelijken, en dan optellen."
Hierdoor ontstaat een "toolbox" vol met losse denk-stappen (zoals 'optellen', 'zoeken', 'vergelijken').
Opnieuw bouwen (De Creatie):
Nu neemt de robot een willekeurige nieuwe grafiek (bijvoorbeeld een grafiek over weerdata) en een willekeurige nieuwe webpagina. Hij pakt uit zijn toolbox een paar denk-stappen (bijv. 'zoeken' en 'vergelijken') en bouwt daar een nieuwe vraag mee.
- Voorbeeld: In plaats van "Wat is de temperatuur in juli?", vraagt hij nu: "Wat is het verschil tussen de temperatuur in juli en augustus?"
  Dit gebeurt automatisch, waardoor er in een handomdraai duizenden nieuwe oefenvragen ontstaan.
Leren van fouten (De Coach):
Dit is het slimste deel. Bij elke nieuwe vraag die de robot maakt, weet hij ook precies welke stappen hij moet doorlopen.
- Als de robot het eindantwoord goed heeft, maar de tussenstap (bijv. het verkeerde cijfer vinden) fout, krijgt hij een deeltje straf.
- Als hij elke stap goed doet, krijgt hij punten.
  Dit is alsof je een kind niet alleen een cijfer geeft voor een proefwerk, maar ook punten geeft voor elke stap in de som. Zo leert de robot niet alleen het antwoord, maar vooral hoe hij moet denken.

Wat leverde dit op?

De onderzoekers testten dit op grafieken en webpagina's. Het resultaat was indrukwekkend:

De robot werd veel beter in het beantwoorden van vragen die hij nooit eerder had gezien.
Hij werd vooral slimmer bij de moeilijke vragen die veel denkstappen vereisten (zoals "Als X gebeurt, wat is dan het effect op Y?").
Het systeem werkte ook op andere gebieden, zoals webpagina's, wat betekent dat het een universele methode is.

Waarom is dit belangrijk?

Vroeger dachten we dat we enorme hoeveelheden data nodig hadden om slimme AI te maken. COGS laat zien dat je met weinig data (een paar zaadvragen) en veel creativiteit (het hercombineren van denkstappen) net zo goed, of zelfs beter, kunt presteren.

Het is alsof je een kok niet duizenden recepten hoeft te geven, maar hem alleen de basisprincipes van koken leert (snijden, bakken, kruiden). Zodra hij die principes snapt, kan hij met elke nieuwe set ingrediënten een heerlijk gerecht bedenken. COGS geeft de AI die basisprincipes van redeneren, zodat hij zelfstandig nieuwe problemen kan oplossen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Voorgeprogrammeerde multimodale grote taalmodellen (MLLM's) presteren uitstekend op diverse multimodale taken, maar vertonen nog beperkingen in redeneervermogen, vooral in domeinen waar annotatie van redeneringsdata moeilijk te verzamelen is. Specifiek gaat het hier om kunstmatige afbeeldingsdomeinen zoals grafieken, gerenderde documenten en webpagina's. Hoewel deze afbeeldingen overvloedig aanwezig zijn op het web, ontbreken er grote schaal menselijk geannoteerde datasets met complexe redeneringsvragen. Bestaande methoden voor datageneratie vertrouwen vaak op handgemaakte heuristieken of genereren alleen tekstuele redeneertrajecten zonder voldoende verankering in visuele kenmerken.

Methodologie: COGS Framework

De auteurs introduceren COGS (COmposition-Grounded data Synthesis), een data-efficiënt framework dat MLLM's in staat stelt geavanceerde redeneervaardigheden te verwerven vanuit een klein aantal "seed" (zaad) vragen. De kernidee is compositionaliteit: het ontleden van complexe vragen in primitieve perceptie- en redeneringsfactoren, die vervolgens systematisch opnieuw kunnen worden samengesteld met nieuwe afbeeldingen.

Het framework bestaat uit drie fasen:

Ontleding van Seed Data (Decomposition):
- Gegeven een kleine set seed-vragen in het doeldomein, wordt elke vraag ontbonden in een reeks interpreteerbare factoren.
- Een MLLM wordt geprompt om een complexe vraag te splitsen in subvragen (factoren) zoals: perceptie (bijv. een getal uit een grafiek lezen), telling, vergelijking, of berekening.
- Deze factoren worden verzameld in een "factor pool" ( $\mathcal{F}$ ), waarbij elke factor een categorie en voorbeeld-subvragen bevat.
Vraaggeneratie via Factor Re-compositie (Recomposition):
- Nieuwe vragen worden gegenereerd door een willekeurige subset van de ontdekte factoren te combineren met nieuwe, niet-geannoteerde afbeeldingen (bijv. nieuwe grafieken of webpagina's).
- Het model genereert niet alleen de uiteindelijke vraag, maar ook de bijbehorende subvragen en tussenantwoorden. Dit creëert een dataset van tuples: $\langle \text{afbeelding}, \text{vraag}, \text{antwoord}, \{\text{factoren}\}, \{\text{subantwoorden}\} \rangle$ .
- In domeinen met metadata (zoals grafieken met onderliggende tabellen) wordt deze metadata gebruikt om de precisie van de antwoorden te verbeteren.
Fine-tuning met Reinforcement Learning (RL):
- Het model wordt gefine-tuned met Group Relative Policy Optimization (GRPO).
- Een cruciaal onderscheidend kenmerk is het gebruik van procesbeloningen (process rewards). Omdat de gegenereerde data gekoppeld is aan subvragen, kan het beloningsmodel controleren of de tussenstappen in de redenering (Chain-of-Thought) correct zijn, niet alleen het eindantwoord.
- De auteurs vergelijken drie beloningsmodellen:
  - StandardRM: Alleen eindantwoord correctheid.
  - ProcessRM-sum: Som van eindantwoord en gemiddelde subvraag-correctheid.
  - ProcessRM-max: Prioriteit aan het eindantwoord, maar met beloningsschaping als de tussenstappen correct zijn. Theoretisch en empirisch blijkt ProcessRM-max de beste prestaties te leveren omdat het de volgorde van beleidsstrategieën behoudt ondanks ruis in de sub-beloningen.

Belangrijkste Bijdragen

Data-efficiëntie: Het framework bootst een groot, divers dataset van synthetische vraag-antwoordparen op vanuit een zeer kleine set seed-vragen, zonder extra menselijke annotatie voor de gegenereerde data.
Factorisatie en Compositionaliteit: Het introduceert een gestructureerde aanpak om redenering te ontleden in primitieve eenheden, wat schaalbare datageneratie mogelijk maakt die verder gaat dan de oppervlakte-vormen van de originele seed-data.
Procesgericht Reinforcement Learning: Het toont aan dat het gebruik van factor-gebaseerde tussenbeloningen (process rewards) leidt tot robuustere redeneervaardigheden dan alleen beloning op basis van het eindantwoord.
Generalisatie: Het framework werkt niet alleen voor grafieken, maar is ook succesvol toegepast op webpagina's (GUI-verstaan), wat de breedte van de toepasbaarheid aantoont.

Resultaten

De experimenten zijn uitgevoerd op twee hoofddomeinen: ChartQAPro (grafieken) en VisualWebBench (webpagina's).

Prestaties op Grafieken (ChartQAPro):
- COGS verbeterde de prestaties van een basis-MLLM (Qwen2.5-VL-7B) aanzienlijk, van 47,36% naar 52,02% overall nauwkeurigheid.
- Dit presteerde beter dan gespecialiseerde chart-modellen, grote commerciële modellen (zoals GPT-4o-mini en Claude Haiku 3.5) en andere datageneratiemethoden.
- De grootste winst werd geboekt bij vragen met veel redeneringsstappen (multi-hop) en complexe factoren (zoals extrapolatie en berekening).
Generalisatie over Datasets:
- Training met een "factor-level mixture" (het samenvoegen van factoren uit verschillende datasets) leidde tot betere transfer dan het simpelweg mengen van datasets op data-niveau. Dit suggereert dat COGS generaliseerbare vaardigheden leert in plaats van over te fitten op één dataset.
Webpagina Verstaan (VisualWebBench):
- COGS bereikte 88,04% nauwkeurigheid, wat de beste prestatie was onder niet-propriëtaire modellen, en bewees dat de methode generaliseert naar complexe UI-structuren.
Ablatie Studies:
- De keuze voor ProcessRM-max als beloningsfunctie bleek cruciaal voor de prestaties.
- De prestaties namen toe naarmate de grootte van de seed-set groeide, maar zelfs een kleine subset (1-5%) leverde al verbeteringen op.

Betekenis en Impact

Dit werk biedt een nieuwe, principiële route om redeneervaardigheden in multimodale modellen te introduceren zonder de noodzaak van enorme, menselijk geannoteerde datasets. Door de "black box" van redenering te openen en te ontleden in verifieerbare factoren, maakt COGS het mogelijk om modellen te trainen op complexe, compositionele taken in domeinen waar data schaars is. Dit heeft grote implicaties voor de ontwikkeling van agenten die documenten kunnen interpreteren, grafieken kunnen analyseren en acties kunnen ondernemen in digitale omgevingen. De methode benadrukt dat het combineren van gestructureerde datageneratie met procesgericht reinforcement learning een krachtige strategie is voor het verbeteren van de redeneercapaciteiten van AI-systemen.

Composition-Grounded Data Synthesis for Visual Reasoning

De Analogie: De Lego-blokken van Redeneren

Hoe werkt het in drie stappen?

Wat leverde dit op?

Waarom is dit belangrijk?

Probleemstelling

Methodologie: COGS Framework

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

A Mechanism-Learning Deeply Coupled Model for Remote Sensing Retrieval of Global Land Surface Temperature

Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes

KFS: KAN based adaptive Frequency Selection learning architecture for long term time series forecasting

Physics-Informed Time-Integrated DeepONet: Temporal Tangent Space Operator Learning for High-Accuracy Inference