AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models

Dit paper introduceert AVA-Bench, het eerste benchmark dat 14 atomische visuele vaardigheden ontkoppelt om Vision Foundation Models systematisch en transparant te evalueren, waardoor selectie overgaat van gokwerk naar principieel engineering en efficiënter kan worden uitgevoerd met kleinere taalmodellen.

Arpita Chowdhury, Zheda Mai, Zihe Wang, Sooyoung Jeon, Lemeng Wang, Jiacheng Hou, Wei-Lun Chao

Gepubliceerd 2026-03-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe auto koopt. De verkoper zegt: "Deze auto is geweldig! Hij rijdt snel, is comfortabel en ziet er mooi uit." Maar hoe weet je of hij echt goed is? Als je alleen maar een testrit doet op een racecircuit, weet je niet of hij ook goed is in het parkeren in een smalle straat of in de sneeuw rijden.

Dit is precies het probleem met de huidige Vision Foundation Models (VFM's). Dit zijn de "super-intelligente ogen" van kunstmatige intelligentie die beelden kunnen begrijpen. Tot nu toe hebben we ze getest met brede vragen (zoals "Wat zie je in deze foto?"), maar dat vertelt ons niet precies waarom ze een fout maken. Is het omdat ze kleuren niet goed zien? Of omdat ze niet weten wat "links" en "rechts" is?

De auteurs van dit paper hebben een nieuwe test ontwikkeld, genaamd AVA-Bench, om dit probleem op te lossen. Hier is een uitleg in simpele taal:

1. Het Probleem: De "Alles-in-één" Test is Verwarrend

Stel je voor dat je een student test op wiskunde. Je geeft ze een vraag die zowel algebra als meetkunde vereist. Als de student het fout heeft, weet je niet of hij de algebra niet snapt, of de meetkunde. Misschien is hij wel een algebra-genie, maar faalt hij bij meetkunde.

De oude tests voor AI deden precies dit: ze stelden complexe vragen waarbij de AI veel verschillende vaardigheden tegelijk moest gebruiken. Als de AI faalde, was het een raadsel welke vaardigheid er ontbrak.

2. De Oplossing: De "Atomic Visual Abilities" (AVA's)

De auteurs zeggen: "Laten we de auto niet op het racecircuit testen, maar elk onderdeel apart."

Ze hebben 14 basisvaardigheden (Atomic Visual Abilities) gedefinieerd, zoals:

  • Tellend: Hoeveel appels zijn er?
  • Locatie: Waar staat de auto precies?
  • Diepte: Is die boom dichterbij dan die auto?
  • Kleuren: Wat is de exacte kleur van dit shirt?
  • Oriëntatie: Kijkt de hond naar voren of naar achteren?

In plaats van één grote, moeilijke test, hebben ze 14 kleine, specifieke tests gemaakt. Het is alsof je de auto apart test op remmen, versnellen, sturen en verlichting. Zo zie je precies waar de AI goed in is en waar hij tekortschiet.

3. De Grote Ontdekkingen

Toen ze deze nieuwe test toepasten op de beste AI-modellen van vandaag, vonden ze interessante dingen:

  • Sommige modellen zijn "All-rounders": Modellen die zijn getraind met taal (zoals SigLIP) bleken het meest veelzijdig. Ze zijn als een "zwitserse zakmes": goed in bijna alles.
  • Specialisten bestaan: Sommige modellen zijn niet goed in taal, maar zijn supersterk in specifieke visuele taken. Bijvoorbeeld, een model dat is getraind om objecten te "segmenteren" (in stukken te snijden) is heel goed in het herkennen van kleuren, maar slecht in het lezen van tekst.
  • De "Grote LLM" is niet altijd nodig: Om deze tests te doen, gebruiken ze vaak enorme taalmodellen (zoals een 7 miljard parameter groot model). De auteurs ontdekten dat je een heel klein, lichtgewicht model (0,5 miljard parameters) kunt gebruiken om de resultaten te lezen. Dit werkt net zo goed voor het vergelijken van modellen, maar bespaart 8 keer zoveel energie en tijd. Het is alsof je voor het controleren van de bandenspanning geen hele garage met gereedschap nodig hebt, maar gewoon een simpele drukmeter.

4. Waarom is dit belangrijk?

Vroeger was het kiezen van het juiste AI-model voor een specifieke taak (bijvoorbeeld een app voor blinden of een systeem voor zelfrijdende auto's) een beetje gokken. "Ik denk dat dit model wel goed werkt."

Met AVA-Bench wordt het kiezen van een model een wetenschappelijke keuze.

  • Heb je een systeem nodig dat goed kan tellen en diepte inschatten? Kies dan model X.
  • Heb je een systeem nodig dat tekst in foto's kan lezen? Kies dan model Y.

Samenvatting

Dit paper introduceert een nieuwe, transparante manier om de "ogen" van AI te testen. In plaats van ze te laten raden op een moeilijke quiz, testen we ze op hun basisvaardigheden, één voor één. Hierdoor kunnen ontwikkelaars precies weten welk model ze moeten gebruiken voor hun specifieke probleem, en kunnen ze AI-systemen bouwen die betrouwbaarder en slimmer zijn.

Het is de overstap van "AI is geweldig, geloof maar" naar "AI is geweldig, en hier is precies wat hij kan en wat hij niet kan."

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →