Do Large Language Models Understand Data Visualization Principles?

Deze studie presenteert de eerste systematische evaluatie van de capaciteit van grote taal- en visueel-taalmodellen om principes voor datavisualisatie te verifiëren en te corrigeren, waarbij wordt geconcludeerd dat hoewel deze modellen veelbelovende flexibele validators zijn, ze nog een kloof vertonen met symbolische oplossers en een opvallende asymmetrie tonen door beter te zijn in het herstellen dan in het detecteren van schendingen.

Martin Sinnona, Valentin Bonas, Viviana Siless, Emmanuel Iarussi

Gepubliceerd 2026-02-24
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🎨 Kunnen AI's goed tekenen? Een test voor de "visuele grammatica"

Stel je voor dat Data Visualisatie (grafieken en diagrammen) een taal is. Net zoals we regels hebben voor grammatica en spelling in een zin, zijn er ook regels voor het maken van goede grafieken. Deze regels zorgen ervoor dat een grafiek eerlijk is en niet misleidend.

Vroeger hadden we alleen strenge, robotachtige regels (zoals een taalcontrole in Word die alleen kijkt naar spelling). Als je een grafiek maakte die tegen deze regels in ging, gaf de computer een foutmelding. Maar deze systemen waren stijf: als je iets nieuws probeerde, wisten ze het vaak niet te beoordelen.

Nu hebben we Grote Taalmodellen (LLMs): slimme AI's die alles lezen en begrijpen. De vraag in dit onderzoek is simpel: Begrijpen deze slimme AI's ook de "visuele grammatica"? Kunnen ze niet alleen een fout zien, maar ook zeggen: "Hé, die grafiek is raar, en hier is hoe je hem fixt"?

De onderzoekers hebben een grote test opgezet om dit uit te zoeken. Hier is hoe het werkt, in drie simpele stappen:

1. De Testset: De "Vervalsingstest" 🕵️‍♀️

De onderzoekers maakten twee soorten testmateriaal:

  • De Kunstmatige Test (De "Simulatie"): Ze lieten een computer duizenden grafieken maken, waarbij ze expres fouten inbouwden. Denk aan een grafiek waar de kleuren verkeerd zijn gebruikt om volgorde aan te geven, of waar de as (de lijn onderaan) afgeknipt is om een trend groter te laten lijken dan hij is. Ze hadden precies de "antwoorden" (de grondwaarheid) om te zien of de AI het zag.
  • De Echte Test (De "Straattest"): Ze pakten ook echte grafieken die mensen op internet (GitHub) hadden gemaakt. Dit is als het controleren van foto's van echte verkeersboetes in plaats van een simulatie.

2. De Proefpersonen: De AI's 🤖

Ze gaven deze grafieken (zowel de code als de afbeelding) aan verschillende AI's, van open-source modellen tot de duurste, slimste modellen van Google en OpenAI.

  • Opdracht A (De Politie): "Kijk naar deze grafiek. Zie je fouten?"
  • Opdracht B (De Architect): "Deze grafiek heeft een fout. Maak hem goed, maar verander niet te veel."

3. De Resultaten: Slim, maar niet perfect 🧠✨

Hier zijn de belangrijkste ontdekkingen, vertaald naar alledaagse termen:

  • De "Oog-oor" Kwestie (Tekst vs. Beeld):
    Je zou denken dat een AI die zowel de code als het plaatje ziet, het beste zou scoren. Dat is waar, maar niet zo heel erg. Het is alsof je iemand vraagt een auto te beoordelen: het helpt om hem te zien, maar als je de technische specificaties (de code) al hebt, zie je de meeste fouten daar ook wel. De beeld-informatie gaf een klein beetje extra, maar de AI's konden de "visuele regels" niet volledig uit het plaatje halen zonder de tekst.

  • De "Detectie vs. Reparatie" Paradox:
    Dit is het meest interessante stukje. De AI's waren vaak beter in het repareren dan in het vinden van fouten.

    • Analogie: Stel je voor dat je een kind vraagt: "Zie je dat die stoel scheef staat?" Het kind schudt twijfelend met zijn hoofd (fout: het ziet het niet). Maar als je zegt: "Zet die stoel recht," dan doet het dat perfect.
    • In de test konden de AI's soms een fout niet benoemen, maar als ze kregen: "Maak dit beter," maakten ze het vaak wel goed. Ze weten hoe het moet, maar ze zijn soms niet scherp genoeg om te zien dat het fout is.
  • De "Moeilijke" Grafieken:
    De AI's waren goed in simpele staafdiagrammen (zoals een kind dat blokken bouwt), maar hadden het moeilijk met complexe cirkeldiagrammen of bochtige lijnen. Het is alsof ze goed kunnen tellen, maar moeite hebben met abstracte patronen.

  • De "Echte Wereld" vs. De "Test":
    De AI's deden het beter op de echte grafieken van internet dan op de kunstmatige test. Waarom? Omdat ze die stijlen waarschijnlijk al eerder hebben gezien tijdens hun "schooltijd" (training). Ze herkenden de patronen, in plaats van echt te redeneren. Op de kunstmatige test, waar ze niets van hadden gezien, zagen ze hun beperkingen.

🏁 Conclusie: Waar staan we nu?

Deze AI's zijn als talentvolle stagiairs in een ontwerpbureau.

  • Ze kunnen een ontwerp vaak opknappen als je ze vraagt om het te verbeteren (ze zijn goede "fixers").
  • Maar ze zijn nog niet de meester-inspecteur die elke kleine fout direct ziet en kan uitleggen waarom het fout is (ze zijn nog geen perfecte "detectives").

De onderzoekers concluderen dat we deze AI's kunnen gebruiken om ons te helpen bij het maken van betere grafieken, maar we moeten ze nog niet blindelings vertrouwen om alles te controleren. Ze zijn een krachtige hulpmiddel, maar de menselijke expert is (nog) nodig om de laatste details te checken.

Kortom: De AI's begrijpen de regels, maar ze zijn soms wat traag om ze toe te passen en soms te zelfverzekerd. We moeten ze nog een beetje trainen om scherper te kijken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →