VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep slimme robots hebt die foto's kunnen bekijken en vragen over die foto's kunnen beantwoorden. Deze robots zijn zo slim dat ze lijken op mensen, maar ze hebben een groot probleem: ze durven soms niet toe te geven dat ze iets niet kunnen zien. Ze gissen dan maar, en dat kan gevaarlijk zijn.

Dit paper introduceert VB (Visibility Benchmark), een soort "rijbewijsexamen" voor deze robots, speciaal ontworpen om te testen of ze weten wat ze wel en niet kunnen zien.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Grote Probleem: "Ik denk het wel" vs. "Ik weet het niet"

Stel je voor dat je een robot vraagt: "Zie je de sleutel op de tafel?"

Situatie A: De sleutel ligt er duidelijk bij. De robot moet zeggen: "Ja."
Situatie B: De sleutel ligt er, maar is volledig bedekt door een grote bloempot. De robot moet zeggen: "Nee, ik kan hem niet zien."
Situatie C: De sleutel ligt misschien wel ergens, maar de foto is zo donker of de hoek is zo raar dat zelfs een mens het niet zeker weet.

De meeste robots zouden in Situatie C toch een gokje wagen ("Misschien wel?"). Dat is gevaarlijk. VB test of een robot durft te zeggen: "Ik weet het niet" (in het paper: ABSTAIN). Dit is net als een piloot die zegt: "Ik zie de landingsbaan niet door de mist, ik ga niet landen," in plaats van blindelings te landen.

2. De Opdracht: Een Slimme "Vind-En-Verander" Test

Om te testen of de robots echt slim zijn, gebruiken de onderzoekers een slim trucje met 2x2 families.

Stel je voor dat je een foto hebt van een kamer met een deur die dicht is.

Vraag 1: "Is de deur open?" (Antwoord: Nee).
Vraag 2: "Is de deur dicht?" (Antwoord: Ja).

Nu doen de onderzoekers iets heel kleins:

Foto-aanpassing: Ze maken een nieuwe foto van dezelfde kamer, maar nu is de deur wél open.
Vraag-aanpassing: Ze veranderen de tekst van de vraag een klein beetje.

De robot moet nu laten zien dat hij echt kijkt. Als je de foto verandert (de deur gaat open), moet het antwoord veranderen. Als je de vraag verandert, moet het antwoord ook veranderen.

De "Flip"-test: Als de robot op de eerste foto zegt "Ja" en op de tweede foto (waar de deur dicht is) ook "Ja", dan is hij dom. Hij kijkt niet naar de foto, maar raadt maar wat. VB straft dit af.

3. De Drie Mogelijke Antwoorden

De robot moet bij elke vraag kiezen uit drie opties, net als een jury:

VISIBLY_TRUE: "Ja, ik zie het duidelijk." (Zoals een zonnebloem die naar de zon kijkt).
VISIBLY_FALSE: "Nee, het is duidelijk niet te zien." (Zoals een kat die onder een deken zit; je ziet hem niet).
ABSTAIN: "Ik kan het niet beslissen." (Zoals een detective die zegt: "De aanwijzingen zijn te vaag, ik kan de dader niet vinden").

Het doel is dat de robot ABSTAIN kiest als het antwoord onzeker is, in plaats van een fout antwoord te geven.

4. De "Tweede Orde" Test: Wat ziet de ander?

Er is een extra, moeilijke ronde voor de slimste robots. Hier moet de robot niet alleen kijken wat hij ziet, maar ook wat iemand anders op de foto ziet.

Voorbeeld: "Ziet Bob wat Alice ziet?"
De robot moet nadenken: "Alice staat achter de muur, dus Bob kan niet zien wat zij ziet."
Dit is als een spelletje "Verborgen Spel" waarbij je moet begrijpen wat iemand anders in zijn hoofd heeft, gebaseerd op wat je ziet.

5. Wie heeft het examen gehaald?

De onderzoekers hebben negen verschillende robots getest (zoals GPT-4o, Gemini, en enkele open-source modellen).

De Winnaars: De allerbeste robots (GPT-4o en Gemini 3.1 Pro) haalden een score van ongeveer 73%. Ze waren goed in het zien van details en durfden ook toe te geven als ze iets niet zagen.
De Open-Source Robots: De beste open-source robot (Gemma 3) scoorde ongeveer 50%. Dat klinkt laag, maar het is een prestatie omdat hij zelfs beter was dan een oudere, dure robot.
Het Grote Verschil: De dure robots waren veel beter in het begrijpen van complexe situaties (zoals "wat ziet Bob?") dan de goedkopere robots.

6. De Leerervaring: Tekst vs. Beeld

Een interessante ontdekking was dat robots makkelijker veranderen als je de tekst van de vraag verandert, dan als je de foto verandert.

Het is alsof een robot beter luistert naar wat je zegt ("De deur is nu open") dan dat hij zelf kijkt naar de foto waar de deur open staat.
Dit betekent dat we robots nog moeten leren om beter naar de visuele details te kijken, niet alleen naar de woorden.

Conclusie

Dit paper is een waarschuwing en een uitdaging. Het zegt: "Slimme robots zijn goed, maar ze moeten leren om te zeggen 'Ik weet het niet' als ze het niet zeker weten. Anders kunnen ze gevaarlijke fouten maken, bijvoorbeeld in een zelfrijdende auto of bij medische scans."

VB is de meetlat om te zien welke robot echt "kijkt" en welke robot alleen maar "raadt". En tot nu toe zijn de duurste robots nog steeds de slimste, maar de goedkopere robots komen snel dichterbij.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images" in het Nederlands.

Probleemstelling

Vision-Language Models (VLM's) worden steeds vaker ingezet in kritieke scenario's zoals autonoom rijden, assistieve technologie voor blinden en medische beeldanalyse. In deze domeinen kan het gokken van een model wanneer visueel bewijs ontoereikend is, gevaarlijker zijn dan het expliciet afzien van een oordeel.

Bestaande benchmarks voor onbeantwoordbare vragen (VQA) testen vaak alleen of een vraag onbeantwoordbaar is, maar niet waarom (bijv. door obstructie, buiten beeld, slechte verlichting) of of het model correct reageert op minimale wijzigingen in de bewijsvoering. Er is een gebrek aan systematische evaluatie van het vermogen van modellen om te bepalen of een bewering visueel ondersteund wordt door de pixels van één foto, en om zich terug te trekken (abstain) wanneer een menselijke kijker dit ook niet met zekerheid kan doen.

Methodologie: De VB Benchmark

Het paper introduceert VB, een benchmark specifiek ontworpen om het vermogen van modellen te testen om zichtbaarheid en perspectief te redeneren.

1. Taakdefinitie en Labels
Elk item bestaat uit één foto en een korte ja/nee-vraag die een zichtbaarheidsclaim formuleert. Het model moet één van de volgende drie labels kiezen, vergezeld van een betrouwbaarheidsscore (confidence):

VISIBLY_TRUE: De claim wordt ondersteund door zichtbaar bewijs (een zorgvuldige mens zou met zekerheid "ja" zeggen).
VISIBLY_FALSE: De claim wordt tegengesproken door de foto (een zorgvuldige mens zou met zekerheid "nee" zeggen).
ABSTAIN: De foto ondersteunt noch een zeker "ja" noch een zeker "nee".

Daarnaast moet het model een reason_code (redencode) specificeren die de oorzaak van de onzekerheid of het falen aangeeft (bijv. OCCLUSION, OUT_OF_FRAME, GAZE_DIRECTION, LIGHTING_DISTANCE).

2. 2x2 Familie-ontwerp
De dataset bestaat uit 100 "families". Elke familie is opgebouwd rond een basisbeeld ( $I_0$ ) en een basisvraag ( $q_0$ ), met twee minimale bewerkingen:

Een minimale beeldbewerking ( $I_1$ ): Een fysieke wijziging in de scène (bijv. een object verplaatsen, een obstakel verwijderen) die één zichtbaarheidsfactor beïnvloedt.
Een minimale tekstbewerking ( $q_1$ ): Een wijziging in de vraag die de claim omkeert (bijv. van "Is X zichtbaar?" naar "Is X niet zichtbaar?").

Dit resulteert in vier cellen per familie:

BASE: ( $I_0, q_0$ ) – Doorgaans ontworpen als VISIBLY_FALSE.
TEXT_FLIP: ( $I_0, q_1$ ) – De claim wordt waar door de tekstwijziging (VISIBLY_TRUE).
IMAGE_FLIP: ( $I_1, q_0$ ) – De claim wordt waar door de beeldwijziging (VISIBLY_TRUE).
DOUBLE_FLIP: ( $I_1, q_1$ ) – De claim wordt weer onwaar (VISIBLY_FALSE).

Voor de hoofdscore wordt een strikt XOR-patroon gebruikt over de eerste drie cellen. De vierde cel dient als diagnostisch hulpmiddel.

3. Categorieën
De families zijn onderverdeeld in primaire categorieën zoals GAZE_DIRECTION (blikrichting), OCCLUSION (verduistering), OUT_OF_FRAME (buiten beeld), LIGHTING_DISTANCE (licht/afstand), en een speciale MULTI_AGENT / SECOND_ORDER slice die test of het model kan redeneren over wat één persoon kan zien vanuit het perspectief van een ander (theorie van de geest).

4. Evaluatiemetrics
De prestaties worden gemeten aan de hand van vier kernmetrics:

CAA (Confidence-Aware Accuracy with Abstention): Belooont hoge betrouwbaarheid bij juiste antwoorden, geeft nul punten voor fouten, en geeft een vaste partiële score ( $\alpha=0.25$ ) voor correcte onthouding (abstention).
MEFR (Minimal Edit Flip Rate): Meet hoe vaak het model zijn antwoord correct aanpast wanneer de bewijsvoering verandert (zowel tekst als beeld).
SelRank: Een score voor selectieve voorspelling die meet of hogere betrouwbaarheidsscores correleren met correcte antwoorden (risico-dekking).
ToMAcc: Nauwkeurigheid op de tweede-orde perspectieve taken.

De FinalScore is een gewogen som: 70% CAA, 15% MEFR, 10% SelRank en 5% ToMAcc.

Belangrijkste Bijdragen

VB Benchmark: Een nieuwe taakdefinitie met een gecontroleerde 2x2-ontwerpmethode die minimale beeld- en tekstbewerkingen combineert om redenering over zichtbaarheid te isoleren.
Uitgebreide Metrieke Suite: Een set metrics die specifiek is ontworpen voor veiligheid en betrouwbaarheid, met nadruk op het vermogen om zich terug te trekken en de kwaliteit van die terugtrekking.
Uitgebreide Evaluatie: Een analyse van negen modellen (flagship gesloten bron, vorige generatie gesloten bron, en open-source 8-12B modellen) die diepgaande inzichten biedt in de verschillen tussen deze categorieën.
Open Data: Volledige vrijgave van de dataset, metadata en evaluatie-infrastructuur.

Resultaten

De auteurs evalueerden negen modellen, waaronder GPT-4o, Gemini 3.1 Pro, GPT-5, Claude Opus 4.5, en open-source modellen zoals Gemma 3 12B.

Top Prestaties: GPT-4o (0.728) en Gemini 3.1 Pro (0.727) delen de eerste plaats qua totale score. Gemini 2.5 Pro volgt met 0.678.
Open Source vs. Gesloten Bron: Het beste open-source model, Gemma 3 12B (0.505), presteert beter dan de vorige generatie gesloten bronmodel Claude 3.7 Sonnet (0.476). Dit toont aan dat zichtbaarheidsredenering op de 8-12B schaal begint door te dringen tot de open-source gemeenschap, hoewel er nog een significant gat is met de top-modellen (ca. 30% verschil).
Asymmetrie in Robuustheid: Voor zes van de negen modellen is de tekst-flip robuustheid (T_MEFR) hoger dan de beeld-flip robuustheid (I_MEFR). Modellen zijn beter in het begrijpen van logische ontkenningen in tekst dan in het detecteren van subtiele visuele veranderingen in foto's.
Calibratie: Er is een sterke variatie in betrouwbaarheidskalibratie. Hoewel GPT-4o en Gemini 2.5 Pro vergelijkbare nauwkeurigheid hebben, presteert GPT-4o veel beter in het rangschikken van antwoorden op basis van betrouwbaarheid (SelRank), terwijl Gemini 2.5 Pro zelfs een anti-informatieve ranking heeft (lagere betrouwbaarheid correleert soms met juistheid).
Second-Order Reasoning: GPT-4o scoort uitzonderlijk hoog op de multi-agent slice (ToMAcc 0.952), terwijl open-source modellen hier veel moeite mee hebben (rond kansniveau).

Betekenis en Conclusie

Het paper benadrukt dat voor veilige toepassing van VLM's het vermogen om te weten wat niet zichtbaar is, even belangrijk is als het zien van wat er wel is. VB biedt een gestructureerde manier om dit te testen.

De belangrijkste bevindingen zijn:

Er is een aanzienlijke kloof tussen flagship gesloten modellen en open-source modellen, maar deze krimp is zichtbaar.
Modellen zijn over het algemeen kwetsbaarder voor minimale visuele wijzigingen dan voor tekstuele wijzigingen, wat een richting voor toekomstig onderzoek aangeeft.
Nauwkeurigheid alleen is niet voldoende; de kalibratie van het vertrouwen (het vermogen om onzekerheid correct te signaleren) is cruciaal voor veilige implementaties.

De benchmark legt de basis voor het ontwikkelen van modellen die niet alleen "zien", maar ook begrijpen wat ze kunnen en niet kunnen zien, wat essentieel is voor de volgende generatie betrouwbare AI-systemen.

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

1. Het Grote Probleem: "Ik denk het wel" vs. "Ik weet het niet"

2. De Opdracht: Een Slimme "Vind-En-Verander" Test

3. De Drie Mogelijke Antwoorden

4. De "Tweede Orde" Test: Wat ziet de ander?

5. Wie heeft het examen gehaald?

6. De Leerervaring: Tekst vs. Beeld

Conclusie

Probleemstelling

Methodologie: De VB Benchmark

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers