Evaluating Graphical Perception Capabilities of Vision Transformers

Deze studie toont aan dat Vision Transformers, ondanks hun sterke prestaties in algemene visuele taken, beperkte menselijke perceptievaardigheden vertonen bij het interpreteren van grafische visualisaties vergeleken met CNN's en mensen.

Poonam Poonam, Pere-Pau Vázquez, Timo Ropinski

Gepubliceerd 2026-02-23
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Kunnen AI's echt "zien" zoals wij? Een onderzoek naar Vision Transformers

Stel je voor dat je een kunstenaar bent die een schilderij maakt. Jij kijkt naar het schilderij en ziet direct: "Die lijn is langer dan die," of "Dat stukje is donkerder." Je hersenen doen dit bijna vanzelf. Maar wat gebeurt er als je een computer laat kijken? Kan die machine net zo goed "zien" als een mens, of kijkt hij er anders naar?

Dit is precies wat de auteurs van dit nieuwe onderzoek (geschreven in 2026) hebben onderzocht. Ze hebben gekeken naar een nieuw soort slimme computerprogramma's die Vision Transformers (ViTs) worden genoemd.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen.

1. De twee kampen: De oude bouwmeesters vs. de nieuwe visionairs

Vroeger gebruikten computers voor beeldherkenning vooral CNN's (Convolutional Neural Networks).

  • De analogie: Denk aan een CNN als een timmerman met een vergrootglas. Hij kijkt heel nauwkeurig naar kleine stukjes hout (de pixels) en bouwt daar een beeld op. Hij is goed in details, maar hij mist soms het grote plaatje omdat hij te gefocust is op de kleine stukjes.

Nu hebben we de Vision Transformers (ViTs).

  • De analogie: Denk aan een ViT als een directeur op een filmset. Hij kijkt niet naar één actor, maar ziet direct hoe iedereen op de set met elkaar in contact staat. Hij ziet het hele plaatje in één keer en begrijpt hoe de dingen met elkaar verbonden zijn. Dit is de technologie die momenteel de sterrenhemel veroverd in de AI-wereld.

2. Het grote experiment: De "Cleveland & McGill" test

De onderzoekers wilden weten: Kijkt die nieuwe "directeur" (ViT) naar een grafiek op dezelfde manier als wij mensen?

Ze gebruikten een oude, maar beroemde test uit de jaren 50 (gemaakt door Cleveland en McGill). Deze test meet hoe goed mensen kunnen schatten:

  • Hoe lang is die balk?
  • Hoe groot is die hoek?
  • Hoeveel stippen zitten er in die wolk?
  • Hoe donker is dat vlak?

Mensen zijn hierin heel goed (of soms juist heel slecht, afhankelijk van de taak). De onderzoekers hebben deze test laten doen door:

  1. Mensen.
  2. De oude timmermannen (CNN's).
  3. De nieuwe visionairs (ViTs).

3. De verrassende resultaten

Het nieuws is een mix van goed en minder goed nieuws.

Het goede nieuws:
De ViT's zijn supersterk in bepaalde dingen. Ze kunnen bijvoorbeeld heel goed zien welke richting iets opgaat of hoe donker een kleur is. In deze taken doen ze het soms zelfs beter dan mensen! Het is alsof de "directeur" een heel scherp oog heeft voor textuur en oriëntatie.

Het minder goede nieuws (en hier komt de crux):
Wanneer het gaat om het vergelijken van lengtes of het schatten van hoeveelheden (bijvoorbeeld: "Hoeveel stippen zijn er?"), struikelen de ViT's.

  • De vergelijking: Stel je voor dat je vraagt aan de computer: "Is deze balk langer dan die?" De mens kijkt even en zegt: "Ja, een beetje." De ViT kijkt er naar en denkt: "Hmm, ik weet het niet zeker," of geeft een heel verkeerd antwoord.
  • De onderzoekers ontdekten dat ViT's minder betrouwbaar zijn dan mensen en zelfs minder goed dan de oudere CNN's bij deze specifieke, simpele taken.

4. Waarom is dit belangrijk?

Je zou denken: "Maar AI is toch slimmer dan wij?"
Ja, in het algemeen wel. Maar in de wereld van datavisualisatie (grafieken, diagrammen, kaarten) is het cruciaal dat de computer "ziet" zoals wij zien.

  • Het probleem: Als een AI een grafiek voor jou moet analyseren en die AI ziet de lengtes van de balken verkeerd, dan is zijn conclusie fout. Het is alsof je een navigator hebt die de afstanden verkeerd inschat; dan kom je nooit op je bestemming.
  • De conclusie: De onderzoekers zeggen: "We moeten oppassen." We kunnen ViT's niet zomaar als een "menselijke vervanger" gebruiken voor het interpreteren van grafieken. Ze hebben een ander soort "oog" dan wij. Ze zien de wereld anders, en dat leidt tot andere (en soms foutieve) conclusies.

5. Wat betekent dit voor de toekomst?

De onderzoekers zeggen niet dat ViT's slecht zijn. Ze zeggen wel dat we ze anders moeten gebruiken.

  • We moeten de ViT's niet dwingen om te doen wat mensen doen (zoals lengtes schatten), maar we moeten hun sterke punten benutten (zoals het zien van complexe patronen).
  • Misschien moeten we de AI's "opvoeden" met andere regels, of misschien moeten we ze combineren met de oude CNN's om het beste van beide werelden te krijgen.

Kort samengevat:
De nieuwe AI-modellen (ViT's) zijn fantastisch in het begrijpen van complexe verbanden, maar ze zijn nog niet perfect in het simpele "zien" van lengtes en hoeveelheden zoals wij mensen dat doen. Voor het maken van betrouwbare grafieken en dashboards moeten we dus nog even wachten tot deze technologie zich aanpast aan onze menselijke manier van kijken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →