VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

Dit paper introduceert VirtueBench, een benchmark die de betrouwbaarheid van Vision-Language-modellen onder onzekerheid evalueert door te testen of ze eerlijk kunnen weigeren te antwoorden wanneer essentiële frames ontbreken, in plaats van onbetrouwbare gokkern te maken die de huidige evaluatiemethoden vertekenen.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

VirtueBench: De "Eerlijkheidstest" voor Videobots

Stel je voor dat je een slimme robot hebt die naar video's kijkt en vragen daarover beantwoordt. Dit zijn de zogenaamde "Vision-Language Models" (VLM's). Ze zijn geweldig, maar er zit een groot probleem in hoe we ze testen.

Het Probleem: Gokken versus Eerlijkheid

Stel je voor dat je een robot een video laat zien van een sportwedstrijd, maar je geeft hem alleen 64 beelden (frames) uit die hele video. Het is alsof je iemand een film laat zien, maar je knipt er willekeurig 64 seconden uit en vraagt: "Wie droeg de rode handschoenen?"

Als die 64 beelden net die persoon niet tonen, heeft de robot geen idee.

  • De eerlijke robot zegt: "Ik zie die persoon niet in deze beelden, dus ik kan het niet weten."
  • De gokker-robot denkt: "Ik ga maar een gokje wagen, misschien was het rood?" en zegt: "Rood!"

In de huidige tests wordt de eerlijke robot fout gerekend omdat hij het antwoord niet gaf. De gokker-robot krijgt juist omdat hij toevallig het goede antwoord had. Dit is alsof je op school een toets doet waarbij je een vraag niet mag overslaan als je het niet weet, maar als je raden en het toevallig goed hebt, krijg je een 10. Dit moedigt robots aan om te liegen of te gokken in plaats van eerlijk te zijn.

De Oplossing: VirtueBench

De auteurs van dit paper hebben een nieuwe test bedacht, genaamd VirtueBench. Het is als een eerlijkheidstest voor robots.

In plaats van één keer te kijken, kijken ze naar dezelfde video met verschillende hoeveelheden beelden:

  1. Een heel dunne snede (64 beelden).
  2. Een beetje meer (128 beelden).
  3. Tot wel heel veel (1024 beelden).

Voor elke hoeveelheid beelden weten de makers precies of het antwoord wel of niet te zien is.

  • Als de robot zegt: "Ik kan het niet zien" en dat klopt (want de beelden ontbreken), krijgt hij een prikje (een goede score).
  • Als de robot toch een antwoord gokt, krijgt hij een straf.

Wat hebben ze ontdekt?

Ze hebben 25 verschillende robots getest, van open-source projecten tot de duurste commerciële modellen. Hier zijn de belangrijkste bevindingen, vertaald in alledaagse taal:

  1. Sommige robots zijn eerlijker dan anderen:
    Sommige modellen (zoals de nieuwste versies van Qwen en Gemini) zeggen vaak: "Ik zie het niet, dus ik antwoord niet." Andere modellen (zoals sommige versies van LLaVA) gokken bijna altijd, zelfs als ze niets zien. Het is alsof de ene student liever zegt "Ik weet het niet" dan dat de ander een radend antwoord geeft.

  2. Hoe groter de robot, hoe eerlijker hij is:
    De grotere, slimmere robots lijken beter te begrijpen wanneer ze niet genoeg informatie hebben. Ze durven vaker toe te geven dat ze het niet weten.

  3. Ze zijn bang om te weigeren:
    Dit is het meest interessante punt. Als je de robot niet expliciet vertelt: "Als je het niet weet, zeg dan dat je het niet weet", dan stoppen de meeste robots met eerlijk zijn. Ze gaan weer gokken.

    • Analogie: Stel je voor dat je een kind vraagt: "Wat is 2+2?" Het kind weet het. Vraag je: "Wat is 2+2? En als je het niet weet, mag je het niet raden," dan zegt het kind: "Ik weet het niet." Vraag je alleen: "Wat is 2+2?" dan roept het kind direct "5!" omdat het denkt dat het een goed antwoord moet geven. Robots gedragen zich vaak net zo: ze zijn getraind om altijd een antwoord te geven, zelfs als ze het niet weten.

Waarom is dit belangrijk?

VirtueBench laat zien dat we onze robots moeten leren om betrouwbaar te zijn, niet alleen slim. In het echte leven (bijvoorbeeld in een ziekenhuis of bij het besturen van een auto) is het veel gevaarlijker als een robot een gokje waagt en het fout heeft, dan als hij eerlijk zegt: "Ik heb niet genoeg informatie om dit te doen."

Conclusie

Deze paper is een wake-up call. We moeten stoppen met robots te belonen voor het raden van antwoorden op video's waar ze niet genoeg van hebben gezien. In plaats daarvan moeten we ze prijzen voor hun eerlijkheid. VirtueBench is de nieuwe meetlat om te zien welke robots echt te vertrouwen zijn, zelfs als ze niet alles kunnen zien.