VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Dit paper introduceert VB, een nieuw benchmark voor visuele taalmodellen die hun vermogen test om zichtbaarheid in afbeeldingen te beoordelen en zich terug te trekken bij onzekerheid, waarbij GPT-4o en Gemini 3.1 Pro de beste prestaties laten zien.

Neil Tripathi

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep slimme robots hebt die foto's kunnen bekijken en vragen over die foto's kunnen beantwoorden. Deze robots zijn zo slim dat ze lijken op mensen, maar ze hebben een groot probleem: ze durven soms niet toe te geven dat ze iets niet kunnen zien. Ze gissen dan maar, en dat kan gevaarlijk zijn.

Dit paper introduceert VB (Visibility Benchmark), een soort "rijbewijsexamen" voor deze robots, speciaal ontworpen om te testen of ze weten wat ze wel en niet kunnen zien.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Grote Probleem: "Ik denk het wel" vs. "Ik weet het niet"

Stel je voor dat je een robot vraagt: "Zie je de sleutel op de tafel?"

  • Situatie A: De sleutel ligt er duidelijk bij. De robot moet zeggen: "Ja."
  • Situatie B: De sleutel ligt er, maar is volledig bedekt door een grote bloempot. De robot moet zeggen: "Nee, ik kan hem niet zien."
  • Situatie C: De sleutel ligt misschien wel ergens, maar de foto is zo donker of de hoek is zo raar dat zelfs een mens het niet zeker weet.

De meeste robots zouden in Situatie C toch een gokje wagen ("Misschien wel?"). Dat is gevaarlijk. VB test of een robot durft te zeggen: "Ik weet het niet" (in het paper: ABSTAIN). Dit is net als een piloot die zegt: "Ik zie de landingsbaan niet door de mist, ik ga niet landen," in plaats van blindelings te landen.

2. De Opdracht: Een Slimme "Vind-En-Verander" Test

Om te testen of de robots echt slim zijn, gebruiken de onderzoekers een slim trucje met 2x2 families.

Stel je voor dat je een foto hebt van een kamer met een deur die dicht is.

  • Vraag 1: "Is de deur open?" (Antwoord: Nee).
  • Vraag 2: "Is de deur dicht?" (Antwoord: Ja).

Nu doen de onderzoekers iets heel kleins:

  1. Foto-aanpassing: Ze maken een nieuwe foto van dezelfde kamer, maar nu is de deur wél open.
  2. Vraag-aanpassing: Ze veranderen de tekst van de vraag een klein beetje.

De robot moet nu laten zien dat hij echt kijkt. Als je de foto verandert (de deur gaat open), moet het antwoord veranderen. Als je de vraag verandert, moet het antwoord ook veranderen.

  • De "Flip"-test: Als de robot op de eerste foto zegt "Ja" en op de tweede foto (waar de deur dicht is) ook "Ja", dan is hij dom. Hij kijkt niet naar de foto, maar raadt maar wat. VB straft dit af.

3. De Drie Mogelijke Antwoorden

De robot moet bij elke vraag kiezen uit drie opties, net als een jury:

  1. VISIBLY_TRUE: "Ja, ik zie het duidelijk." (Zoals een zonnebloem die naar de zon kijkt).
  2. VISIBLY_FALSE: "Nee, het is duidelijk niet te zien." (Zoals een kat die onder een deken zit; je ziet hem niet).
  3. ABSTAIN: "Ik kan het niet beslissen." (Zoals een detective die zegt: "De aanwijzingen zijn te vaag, ik kan de dader niet vinden").

Het doel is dat de robot ABSTAIN kiest als het antwoord onzeker is, in plaats van een fout antwoord te geven.

4. De "Tweede Orde" Test: Wat ziet de ander?

Er is een extra, moeilijke ronde voor de slimste robots. Hier moet de robot niet alleen kijken wat hij ziet, maar ook wat iemand anders op de foto ziet.

  • Voorbeeld: "Ziet Bob wat Alice ziet?"
  • De robot moet nadenken: "Alice staat achter de muur, dus Bob kan niet zien wat zij ziet."
    Dit is als een spelletje "Verborgen Spel" waarbij je moet begrijpen wat iemand anders in zijn hoofd heeft, gebaseerd op wat je ziet.

5. Wie heeft het examen gehaald?

De onderzoekers hebben negen verschillende robots getest (zoals GPT-4o, Gemini, en enkele open-source modellen).

  • De Winnaars: De allerbeste robots (GPT-4o en Gemini 3.1 Pro) haalden een score van ongeveer 73%. Ze waren goed in het zien van details en durfden ook toe te geven als ze iets niet zagen.
  • De Open-Source Robots: De beste open-source robot (Gemma 3) scoorde ongeveer 50%. Dat klinkt laag, maar het is een prestatie omdat hij zelfs beter was dan een oudere, dure robot.
  • Het Grote Verschil: De dure robots waren veel beter in het begrijpen van complexe situaties (zoals "wat ziet Bob?") dan de goedkopere robots.

6. De Leerervaring: Tekst vs. Beeld

Een interessante ontdekking was dat robots makkelijker veranderen als je de tekst van de vraag verandert, dan als je de foto verandert.

  • Het is alsof een robot beter luistert naar wat je zegt ("De deur is nu open") dan dat hij zelf kijkt naar de foto waar de deur open staat.
  • Dit betekent dat we robots nog moeten leren om beter naar de visuele details te kijken, niet alleen naar de woorden.

Conclusie

Dit paper is een waarschuwing en een uitdaging. Het zegt: "Slimme robots zijn goed, maar ze moeten leren om te zeggen 'Ik weet het niet' als ze het niet zeker weten. Anders kunnen ze gevaarlijke fouten maken, bijvoorbeeld in een zelfrijdende auto of bij medische scans."

VB is de meetlat om te zien welke robot echt "kijkt" en welke robot alleen maar "raadt". En tot nu toe zijn de duurste robots nog steeds de slimste, maar de goedkopere robots komen snel dichterbij.