Evaluating Graphical Perception Capabilities of Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Titel: Kunnen AI's echt "zien" zoals wij? Een onderzoek naar Vision Transformers

Stel je voor dat je een kunstenaar bent die een schilderij maakt. Jij kijkt naar het schilderij en ziet direct: "Die lijn is langer dan die," of "Dat stukje is donkerder." Je hersenen doen dit bijna vanzelf. Maar wat gebeurt er als je een computer laat kijken? Kan die machine net zo goed "zien" als een mens, of kijkt hij er anders naar?

Dit is precies wat de auteurs van dit nieuwe onderzoek (geschreven in 2026) hebben onderzocht. Ze hebben gekeken naar een nieuw soort slimme computerprogramma's die Vision Transformers (ViTs) worden genoemd.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen.

1. De twee kampen: De oude bouwmeesters vs. de nieuwe visionairs

Vroeger gebruikten computers voor beeldherkenning vooral CNN's (Convolutional Neural Networks).

De analogie: Denk aan een CNN als een timmerman met een vergrootglas. Hij kijkt heel nauwkeurig naar kleine stukjes hout (de pixels) en bouwt daar een beeld op. Hij is goed in details, maar hij mist soms het grote plaatje omdat hij te gefocust is op de kleine stukjes.

Nu hebben we de Vision Transformers (ViTs).

De analogie: Denk aan een ViT als een directeur op een filmset. Hij kijkt niet naar één actor, maar ziet direct hoe iedereen op de set met elkaar in contact staat. Hij ziet het hele plaatje in één keer en begrijpt hoe de dingen met elkaar verbonden zijn. Dit is de technologie die momenteel de sterrenhemel veroverd in de AI-wereld.

2. Het grote experiment: De "Cleveland & McGill" test

De onderzoekers wilden weten: Kijkt die nieuwe "directeur" (ViT) naar een grafiek op dezelfde manier als wij mensen?

Ze gebruikten een oude, maar beroemde test uit de jaren 50 (gemaakt door Cleveland en McGill). Deze test meet hoe goed mensen kunnen schatten:

Hoe lang is die balk?
Hoe groot is die hoek?
Hoeveel stippen zitten er in die wolk?
Hoe donker is dat vlak?

Mensen zijn hierin heel goed (of soms juist heel slecht, afhankelijk van de taak). De onderzoekers hebben deze test laten doen door:

Mensen.
De oude timmermannen (CNN's).
De nieuwe visionairs (ViTs).

3. De verrassende resultaten

Het nieuws is een mix van goed en minder goed nieuws.

Het goede nieuws:
De ViT's zijn supersterk in bepaalde dingen. Ze kunnen bijvoorbeeld heel goed zien welke richting iets opgaat of hoe donker een kleur is. In deze taken doen ze het soms zelfs beter dan mensen! Het is alsof de "directeur" een heel scherp oog heeft voor textuur en oriëntatie.

Het minder goede nieuws (en hier komt de crux):
Wanneer het gaat om het vergelijken van lengtes of het schatten van hoeveelheden (bijvoorbeeld: "Hoeveel stippen zijn er?"), struikelen de ViT's.

De vergelijking: Stel je voor dat je vraagt aan de computer: "Is deze balk langer dan die?" De mens kijkt even en zegt: "Ja, een beetje." De ViT kijkt er naar en denkt: "Hmm, ik weet het niet zeker," of geeft een heel verkeerd antwoord.
De onderzoekers ontdekten dat ViT's minder betrouwbaar zijn dan mensen en zelfs minder goed dan de oudere CNN's bij deze specifieke, simpele taken.

4. Waarom is dit belangrijk?

Je zou denken: "Maar AI is toch slimmer dan wij?"
Ja, in het algemeen wel. Maar in de wereld van datavisualisatie (grafieken, diagrammen, kaarten) is het cruciaal dat de computer "ziet" zoals wij zien.

Het probleem: Als een AI een grafiek voor jou moet analyseren en die AI ziet de lengtes van de balken verkeerd, dan is zijn conclusie fout. Het is alsof je een navigator hebt die de afstanden verkeerd inschat; dan kom je nooit op je bestemming.
De conclusie: De onderzoekers zeggen: "We moeten oppassen." We kunnen ViT's niet zomaar als een "menselijke vervanger" gebruiken voor het interpreteren van grafieken. Ze hebben een ander soort "oog" dan wij. Ze zien de wereld anders, en dat leidt tot andere (en soms foutieve) conclusies.

5. Wat betekent dit voor de toekomst?

De onderzoekers zeggen niet dat ViT's slecht zijn. Ze zeggen wel dat we ze anders moeten gebruiken.

We moeten de ViT's niet dwingen om te doen wat mensen doen (zoals lengtes schatten), maar we moeten hun sterke punten benutten (zoals het zien van complexe patronen).
Misschien moeten we de AI's "opvoeden" met andere regels, of misschien moeten we ze combineren met de oude CNN's om het beste van beide werelden te krijgen.

Kort samengevat:
De nieuwe AI-modellen (ViT's) zijn fantastisch in het begrijpen van complexe verbanden, maar ze zijn nog niet perfect in het simpele "zien" van lengtes en hoeveelheden zoals wij mensen dat doen. Voor het maken van betrouwbare grafieken en dashboards moeten we dus nog even wachten tot deze technologie zich aanpast aan onze menselijke manier van kijken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Vision Transformers (ViTs) hebben zich bewezen als krachtige alternatieven voor Convolutionele Neurale Netwerken (CNNs) in diverse beeldverwerkingstaken, voornamelijk door hun vermogen om complexe ruimtelijke patronen en lange-afstandsafhankelijkheden via self-attention te modelleren. Hoewel CNNs eerder zijn geëvalueerd op hun vermogen om grafische perceptie-taken uit te voeren (essentieel voor het interpreteren van visualisaties), blijft het perceptieve vermogen van ViTs in dit domein grotendeels onontgonnen.

Het kernprobleem is dat het onduidelijk is hoe goed ViTs overeenkomen met de menselijke visuele perceptie op fundamenteel, laag-niveau niveau. Voor toepassingen in data-visualisatie is het cruciaal dat modellen elementaire visuele coderingen (zoals positie, lengte, hoek en oppervlakte) nauwkeurig waarnemen, zoals beschreven in de klassieke hiërarchie van Cleveland en McGill. Zonder deze perceptieve alignatie kunnen ViTs misleidend zijn in geautomatiseerde chart-analyse en perceptie-gestuurde ontwerp-systemen.

Methodologie

De auteurs hebben een gecontroleerde benchmark uitgevoerd om de prestaties van ViTs te vergelijken met die van CNNs en menselijke deelnemers.

Taken en Stimuli:
- De studie baseert zich op de fundamentele experimenten van Cleveland en McGill, die de menselijke perceptieve nauwkeurigheid rangschikten voor negen elementaire coderingen (positie, lengte, hoek, oppervlakte, volume, kromming, schaduwing, etc.).
- Specifieke taken omvatten: Position-Angle (balk- en taartdiagrammen), Position-Length (gegroeperde en gedeelde balkdiagrammen), Bars and Framed Rectangles (lengte- en positieoordelen op niet-uitgelijnde schalen), en Point Cloud Estimation (schatting van het aantal punten, gebaseerd op de Wet van Weber).
- De stimuli werden gegenereerd als 100x100 binaire afbeeldingen (later herschaald naar 224x224 voor ViTs) met gecontroleerde parameters en ruis om memorisatie te voorkomen.
Modellen:
Drie representatieve ViT-architecturen werden getraind vanaf nul (zonder pre-training op ImageNet, tenzij specifiek getest in ablatiestudies) om biases van externe taken te vermijden:
- Vanilla Vision Transformer (vViT): Pure transformer-architectuur zonder inductieve biases.
- Convolutional Vision Transformer (CvT): Integreert convolutielagen voor lokale feature-extractie.
- Swin Transformer: Gebruikt hiërarchische representaties en verschuivende vensters (shifted windows) voor lokale en globale context.
- Vergelijking: De resultaten werden vergeleken met menselijke data (uit eerdere studies) en CNN-modellen (LeNet, VGG19, Xception, ResNet-18) zoals gerapporteerd door Haehn et al.
Evaluatiemetrics:
- MLAE (Mean Log Absolute Error): De primaire metriek voor perceptieve nauwkeurigheid, gedefinieerd als $\log_2(|predicted - true| + 0.125)$ . Een lagere score betekent betere perceptie.
- Rangschikking: De taken werden gerangschikt op moeilijkheidsgraad (van laagste naar hoogste error) om de perceptieve hiërarchie van de modellen te vergelijken met die van mensen.

Belangrijkste Bijdragen

Eerste uitgebreide evaluatie van ViTs in grafische perceptie: De studie vult een lacune in de literatuur door ViTs specifiek te testen op laag-niveau visuele taken die de basis vormen voor data-visualisatie, in plaats van alleen op hoog-niveau classificatie.
Vergelijkende benchmark: Een directe vergelijking tussen drie ViT-varianten, CNNs en menselijke waarnemers onder identieke trainingscondities.
Inzicht in perceptieve misalignement: De studie identificeert specifiek waar ViTs afwijken van menselijke perceptie, wat cruciaal is voor het ontwikkelen van betrouwbare visualisatie-systemen.

Resultaten

De resultaten tonen een complex beeld aan, waarbij ViTs sterke punten hebben maar fundamentele beperkingen vertonen in vergelijking met mensen en CNNs:

Mens vs. ViT:
- Mensen presteerden consistent beter dan de beste ViT-modellen op de meeste perceptieve taken, vooral op Position-Length en Point Cloud schatting.
- Mensen hadden een gemiddelde MLAE van 2.01 voor Position-Length, terwijl Swin (de beste ViT) 4.72 haalde.
- ViTs vertoonden echter verrassend goede prestaties op taken zoals Direction en Shading, waar ze soms zelfs beter scoorden dan mensen (bijv. Swin MLAE 0.36 vs. mens 4.16 voor schaduwing).
- Rangschikking: ViTs rangschikten taken anders dan mensen. Ze vonden taken als Curvature en Area aanzienlijk makkelijker dan mensen, wat wijst op een fundamenteel verschil in hoe visuele informatie wordt verwerkt.
CNN vs. ViT:
- Over het algemeen presteerden CNNs beter dan ViTs op de laag-niveau perceptieve taken. De gemiddelde fout van ViTs was significant hoger, met name bij Point Cloud schatting (CNN: 3.40 vs. ViT: 6.37).
- De Swin Transformer presteerde het beste onder de ViTs, maar bleef achter bij de beste CNN (VGG19) op de meeste taken.
- ViTs hadden moeite met generalisatie naar nieuwe parameterinstellingen (zoals veranderingen in breedte of ruimtelijke translatie), wat suggereert dat ze minder robuust zijn in perceptieve inferentie dan CNNs.
Ablatie-studies:
- Het vergroten van de trainingsdata (4x zo groot), het veranderen van de beeldresolutie, of het verkleinen van de patch-grootte leidde niet tot significante verbeteringen in perceptieve nauwkeurigheid.
- Pre-training op ImageNet verbeterde de prestaties van sommige modellen (zoals CvT), maar de beste resultaten werden vaak behaald met modellen die specifiek waren getraind op de taak.

Betekenis en Conclusie

De studie concludeert dat Vision Transformers, ondanks hun superioriteit in algemene visuele taken, niet optimaal aligneren met menselijke grafische perceptie op fundamenteel niveau.

Beperkingen: ViTs missen de consistentie en het vermogen tot vergelijkende redenering (bijv. lengte schatten op niet-uitgelijnde schalen) die menselijke waarnemers en zelfs gespecialiseerde CNNs bezitten.
Implicaties: Het gebruik van ViTs in systemen voor geautomatiseerde chart-interpretatie of perceptie-gestuurde visualisatieontwerp vereist voorzichtigheid. Hun "perceptuele misalignement" kan leiden tot onbetrouwbare resultaten in toepassingen waar menselijke intuïtie centraal staat.
Toekomst: De auteurs pleiten voor het herontwerpen van applicaties om de sterke punten van ViTs (zoals globale context) beter te benutten, en voor verder onderzoek naar grotere modellen en hybride architecturen om de kloof met menselijke perceptie te overbruggen.

Kortom, hoewel ViTs krachtige tools zijn, zijn ze op dit moment nog niet de ideale vervanging voor menselijke perceptie in de context van data-visualisatie op laag niveau.

Evaluating Graphical Perception Capabilities of Vision Transformers

1. De twee kampen: De oude bouwmeesters vs. de nieuwe visionairs

2. Het grote experiment: De "Cleveland & McGill" test

3. De verrassende resultaten

4. Waarom is dit belangrijk?

5. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration