Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme robot hebt die niet alleen kan lezen, maar ook kan kijken. Deze robot is zo'n beetje als een detective die een foto bekijkt en dan een verhaal bedenkt. Maar tot nu toe was er een groot probleem: we konden niet goed controleren of deze detective echt zag wat hij beweerde te zien, of dat hij gewoon gokte op basis van zijn geheugen.

Dit paper introduceert twee belangrijke dingen om dit probleem op te lossen: een nieuwe test (TreeBench) en een nieuwe manier om de robot te trainen (TreeVGR).

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Gokker" vs. De "Onderzoeker"

Stel je voor dat je een quiz geeft aan een groep slimme studenten. De vragen zijn: "Wat staat er op de achtergrond van deze foto?" of "Is die auto links of rechts van de boom?".

De oude manier: De studenten gaven alleen het antwoord. Soms hadden ze gelijk, maar misschien gokten ze gewoon op basis van de tekst, zonder echt naar de foto te kijken.
Het nieuwe idee: We willen dat de studenten eerst wijzen met hun vinger op het juiste stukje van de foto (een kader trekken) en pas daarna het antwoord geven. Als ze op het verkeerde stukje wijzen, weten we direct dat ze de vraag niet goed hebben begrepen, zelfs als het antwoord toevallig goed was.

2. TreeBench: De Ultieme "Zoek-en-Vind" Test

De auteurs hebben een nieuwe test gemaakt, genaamd TreeBench.

Wat is het? Het is een verzameling van 405 heel moeilijke vragen over foto's.
De moeilijkheid: De foto's zijn vaak druk en chaotisch, zoals een volle markt of een drukke straat. De vragen gaan over heel kleine details. Bijvoorbeeld: "Wat is de kleur van de schoen van de persoon die half verscholen zit achter een lantaarnpaal?"
De "Traceable Evidence" (Traceerbaar bewijs): Dit is het belangrijkste. Bij elke vraag moet het model een kader (een doosje) trekken om precies aan te geven waar het naar kijkt.
- Vergelijking: Stel je voor dat je een spoorzoekersspel speelt. Je mag niet alleen zeggen "De schat is hier", je moet ook een kaart tonen waarop je precies hebt gemarkeerd waar je hebt gezocht. Als je op de verkeerde plek zoekt, ben je verloren, ook al had je het juiste antwoord.
Het resultaat: Zelfs de slimste robots ter wereld (zoals OpenAI-o3) halen hier maar een score van ongeveer 55%. Ze zijn goed in praten, maar slecht in kijken en redeneren op basis van wat ze zien.

3. TreeVGR: De Nieuwe Trainingssessie

Omdat de robots het niet zo goed deden op de test, hebben de auteurs een nieuwe trainingsmethode bedacht, genaamd TreeVGR.

Hoe werkt het? Ze gebruiken een methode die lijkt op "leren door te proberen en fouten te corrigeren" (versterkende leerling).
De Beloning: Normaal gesproken krijgt een robot alleen een beloning als het antwoord goed is. Bij TreeVGR krijgt de robot een dubbele beloning:
1. Is het antwoord goed? (Ja/Nee)
2. Is het kader (de doos) waar hij op wijst, ook op de juiste plek? (Ja/Nee)
De Analogie: Stel je voor dat je een kind leert om een bal te vangen.
- Oude methode: Je zegt "Goed gedaan!" als de bal in de mand valt, zelfs als het kind de bal niet heeft gezien en per ongeluk de bal erin gooide.
- TreeVGR methode: Je zegt "Goed gedaan!" alleen als het kind eerst naar de bal kijkt, zijn hand precies op de bal zet (het kader), en dan de bal vangt. Als hij op de verkeerde plek kijkt, krijgt hij geen punt, zelfs als de bal toevallig in de mand valt.
Het resultaat: Door deze methode te gebruiken, leren de robots niet alleen het antwoord, maar ook waar ze moeten kijken. Ze worden echte onderzoekers in plaats van gokkers.

4. Waarom is dit belangrijk?

Vroeger waren robots goed in wiskunde en tekst, maar slecht in het begrijpen van de echte wereld. Ze konden zeggen "Er is een auto", maar ze wisten niet precies waar die stond of hoe die eruitzag.

Met TreeBench hebben we nu een meetlat om te zien of een robot echt "denkt met zijn ogen".
Met TreeVGR hebben we een manier gevonden om robots te leren om eerst te kijken, dan te redeneren, en pas daarna te spreken.

Kort samengevat:
De auteurs zeggen: "Stop met gokken. Leer de robot om eerst met zijn vinger aan te wijzen wat hij ziet, en pas daarna te praten. Dan wordt hij echt slim." En dat hebben ze bewezen door een nieuwe test te maken en een nieuwe trainingsmethode te ontwikkelen die robots beter maakt in het begrijpen van onze visuele wereld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Method", gepresenteerd op ICLR 2026, in het Nederlands.

Probleemstelling

Recente doorbraken in Large Language Models (LLMs), zoals OpenAI-o1 en DeepSeek-R1, hebben het redeneren in tekstruimtes aanzienlijk verbeterd. Er is echter een kritiek tekort aan vermogen bij Large Multimodal Models (LMMs) om visueel "gegrondeerd" te redeneren, oftewel "met beelden te denken". Bestaande benchmarks (zoals POPE, MMBench, SEED-Bench) missen vaak drie essentiële elementen die nodig zijn voor echt visueel redeneren:

Gefocuste visuele perceptie: Het vermogen om subtiele, kleine doelen te identificeren in complexe, rommelige scènes.
Traceerbaar bewijs: De huidige modellen geven vaak alleen een eindantwoord zonder de tussenstappen (zoals het lokaliseren van objecten) te verifiëren, wat leidt tot "hallucinaties" en gebrek aan transparantie.
Tweede-orde redenering: Het vermogen om complexe relaties te begrijpen (zoals ruimtelijke bevattingsverhoudingen, perspectieftransformaties en fysieke interacties) die verder gaan dan simpele objectlokalisatie ("waar is X?").

Zonder een benchmark die deze aspecten integreert, is het moeilijk om de werkelijke capaciteit van modellen om visuele informatie te integreren in hun redeneerproces te evalueren.

Methodologie

Het paper introduceert twee hoofdcomponenten om dit gat op te vullen: TreeBench (de evaluatiebenchmark) en TreeVGR (de trainingsmethode).

1. TreeBench: Traceable Evidence Evaluation Benchmark

TreeBench is een diagnostische benchmark ontworpen om "thinking with images" te evalueren.

Data Collectie: Er zijn 1.000 hoogwaardige afbeeldingen geselecteerd uit SA-1B, met voorkeur voor scènes met dichte objecten.
Annotatie: Acht experts met een technische achtergrond hebben handmatig vragen, opties en antwoorden gegenereerd en geverifieerd. Het proces omvatte drie rondes van kwaliteitscontrole en cross-verification.
Opbouw: De benchmark bestaat uit 405 uitdagende VQA-paren (Visual Question Answering) verdeeld over twee protocollen:
- Perceptie (1e orde): Focus op het identificeren van attributen, materialen, fysieke staat, objectretrieval en OCR.
- Redenering (2e orde): Focus op complexere taken zoals perspectieftransformatie, ordening, contact/occlusie, ruimtelijke bevattening en vergelijkingen.
Uniek kenmerk: Elke vraag is gekoppeld aan nauwkeurige bounding boxes van de doelobjecten. Dit maakt het mogelijk om niet alleen het antwoord te evalueren, maar ook de kwaliteit van de tussenstappen (de "traceable evidence").

2. TreeVGR: Traceable Evidence Enhanced Visual Grounded Reasoning

TreeVGR is een trainingsparadigma dat gebruikmaakt van Reinforcement Learning (RL) om modellen te leren om eerst te lokaliseren en dan te antwoorden.

Twee-staps pipeline:
1. Cold-Start Initialisatie: Een Supervised Fine-Tuning (SFT) fase op een dataset van 35.000 samples. Dit zorgt ervoor dat het model de syntaxis van het genereren van bounding boxes en redeneertrajecten leert voordat RL begint.
2. Reinforcement Learning met Traceable Evidence: Het model wordt getraind met een nieuwe dual IoU-reward (Intersection over Union).
Reward Design: De totale beloning ( $R$ $R$ ) bestaat uit drie delen:
- $R_{acc}$ : Nauwkeurigheid van het eindantwoord.
- $R_{format}$ : Correcte opmaak van het redeneerproces (gebruik van <box> tags).
- $R_{IoU}$ : Een unieke dual IoU-reward die zowel recall (elk waarheidsgetrouw object moet worden gedetecteerd) als precision (geen lege of irrelevante boxes genereren) optimaliseert. Dit voorkomt dat modellen simpelweg alle mogelijke boxes genereren om de recall te maximaliseren.
Efficiëntie: In tegenstelling tot eerdere methoden die ingeknipte afbeeldingen opnieuw verwerken, gebruikt TreeVGR tekst-gebaseerde grounding (het genereren van coördinaten in de tekst), wat de inferentie en training aanzienlijk efficiënter maakt.

Belangrijkste Resultaten

Evaluatie op TreeBench: Zelfs de meest geavanceerde modellen presteren slecht op TreeBench. Geen enkel model haalt 60% nauwkeurigheid.
- OpenAI-o3 scoort slechts 54,87%.
- Gemini-2.5-Pro scoort 54,6%.
- Dit bevestigt dat de benchmark uitdagend is en dat er nog veel ruimte is voor verbetering.
Prestatieverbetering van TreeVGR:
- Geïnitialiseerd vanuit Qwen2.5-VL-7B, bereikt TreeVGR-7B een significant betere prestatie.
- +13,4% verbetering op TreeBench.
- +16,8% verbetering op V* Bench.
- +12,6% verbetering op MME-RealWorld-Lite.
- TreeVGR-7B presteert vergelijkbaar met veel grotere modellen (zoals InternVL3-78B), wat de effectiviteit van de trainingsmethode aantoont.
Traceerbaarheid: Er is een sterke positieve correlatie gevonden tussen de nauwkeurigheid van de lokale bounding boxes (mIoU) en de algehele prestatie. Modellen die beter "zien" (lokaliseren), redeneren beter.

Bijdragen en Significantie

Eerste Benchmark voor "Thinking with Images": TreeBench is de eerste benchmark die specifiek is ontworpen om de capaciteit van modellen om visuele informatie te integreren in hun redeneerproces te evalueren, met nadruk op traceerbaarheid en complexe ruimtelijke redenering.
Traceerbaar Bewijs: Door het verplicht stellen van bounding boxes als onderdeel van het redeneerproces, biedt TreeBench inzicht in waarom een model een fout maakt (bijv. slechte lokalisatie vs. foutieve redenering), wat eerder onmogelijk was bij "black-box" benchmarks.
Efficiënte Trainingsparadigma: TreeVGR demonstreert dat het gebruik van dual IoU-rewards in RL een krachtige methode is om modellen te leren om visueel te gronden zonder de noodzaak van zware, herhaalde beeldverwerking. Het maakt redeneerpaden uitlegbaar en transparant.
Toekomstige Richting: Het werk legt de basis voor de volgende generatie multimodale modellen die niet alleen antwoorden geven, maar hun antwoorden kunnen onderbouwen met visueel bewijs, wat essentieel is voor toepassingen in de robotica, medische beeldvorming en autonome systemen.

Kortom, dit paper stelt een nieuwe standaard voor het evalueren en trainen van multimodale modellen door de nadruk te leggen op traceerbaarheid, focust op kleine details en complexe ruimtelijke relaties.

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

1. Het Probleem: De "Gokker" vs. De "Onderzoeker"

2. TreeBench: De Ultieme "Zoek-en-Vind" Test

3. TreeVGR: De Nieuwe Trainingssessie

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie

1. TreeBench: Traceable Evidence Evaluation Benchmark

2. TreeVGR: Traceable Evidence Enhanced Visual Grounded Reasoning

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers