Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een ontwerper bent die een prachtige affiche maakt voor een festival. Je hebt de kleuren, de letters en de afbeeldingen perfect in elkaar gezet. Maar hoe weet je of het echt mooi is? En nog belangrijker: als je een computer vraagt of het mooi is, kan die dan echt begrijpen waarom iets misgaat?

Dit is precies het probleem dat deze nieuwe studie (geschreven voor de conferentie ICLR 2026) aanpakt. De onderzoekers hebben gekeken of de slimme "beeld-taal" computers (VLMs) die we vandaag de dag hebben, ook echt kunnen oordelen over de schoonheid van grafisch ontwerp.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Smaak-Test" voor Computers

Vroeger waren computers goed in feiten: "Is dit een hond of een kat?" of "Wat staat er op dit bord?". Maar nu willen we dat ze ook kunnen zeggen: "Die poster ziet er rommelig uit" of "Die kleuren vechten met elkaar".

De onderzoekers ontdekten dat de huidige computers hierin nogal onzeker zijn. Het is alsof je een culinaire expert vraagt om een gerecht te beoordelen, maar je geeft hem alleen de ingrediëntenlijst en geen smaakpapillen. Ze kunnen wel zien dat er tomaten en kaas op liggen, maar ze snappen niet of de verhouding lekker is of niet.

2. De Oplossing: De "AesEval-Bench" (De Keuken van de Smaak)

Om dit op te lossen, hebben de onderzoekers een nieuwe test ontwikkeld, genaamd AesEval-Bench. Denk hierbij aan een groot, gestructureerd keuringssysteem voor ontwerpen.

In plaats van alleen te vragen "Is dit mooi?", hebben ze het ontwerp opgesplitst in vier belangrijke categorieën (dimensies), net zoals een chef-kok kijkt naar:

Lettertypes (Zoals de presentatie van het eten op het bord).
Opmaak (De indeling van de tafel).
Kleuren (De smaakcombinaties).
Afbeeldingen (De kwaliteit van de ingrediënten).

Binnen deze categorieën hebben ze 12 specifieke regels (indicators) bedacht. Bijvoorbeeld: "Is de tekst leesbaar?" of "Zitten de elementen netjes uitgelijnd?".

3. De Drie Uitdagingen voor de Computer

De test vraagt de computer om drie dingen te doen, die steeds moeilijker worden:

De Smaak-Test (Aesthetic Judgment): "Is dit ontwerp mooi of lelijk?" (Ja/Nee).
Het Vinden van de Fout (Region Selection): "Waar zit het probleem? Is het bij de tekst, de foto of de achtergrond?" (Hier moet de computer kiezen uit opties).
De Precieze Diagnose (Precise Localization): "Trek precies een lijn om het probleem." (De computer moet een vakje om het foutieve deel tekenen).

4. Wat Vonden Ze? (De Resultaten)

Toen ze de slimste computers (zoals GPT-4o, GPT-5, en open-source modellen) deze test lieten doen, was het resultaat verrassend:

Ze zijn nog niet perfect: Zelfs de slimste computers maken veel fouten. Ze kunnen vaak wel zeggen dat iets "niet goed" is, maar ze weten niet precies waarom of waar.
Meer denken helpt niet altijd: Computers die speciaal zijn getraind om eerst lang na te denken (reasoning-modellen) deden het niet beter dan de standaardmodellen. Het lijkt erop dat "nadenken" alleen niet genoeg is als je geen echte ervaring hebt met design.
Groot is niet altijd beter: Soms deden kleinere modellen het net zo goed als de gigantische modellen.

5. De Magische Truc: Leren van Mensen (De "Oefenboekjes")

Omdat de computers het nog niet zo goed doen, hebben de onderzoekers een slimme truc bedacht om ze te trainen. Ze hebben een oefenboekje gemaakt (een trainingsdataset).

Hierbij gebruiken ze twee slimme methoden:

Menselijke Gids: Een paar mensen kijken naar een ontwerp en zeggen: "Kijk, hier is de tekst te klein." De computer leert van deze menselijke voorbeelden.
De "Waarom"-Uitleg: In plaats van alleen het antwoord te geven, leren ze de computer om de reden te koppelen aan de plek.
- Slecht: "De tekst is te klein."
- Goed (zoals in deze studie): "De tekst [hier, met een vakje eromheen] is te klein, waardoor de lezer niet kan zien wat er staat."

Door deze "vakje + uitleg" methode te gebruiken, leerden de computers veel sneller en beter. Na het trainen met dit boekje waren ze veel beter in het vinden van fouten dan voorheen.

Conclusie: Waarom is dit belangrijk?

Dit onderzoek is als het bouwen van een school voor kunstcritici-computers.

Vroeger konden computers alleen feiten vertellen. Nu leren we ze om te oordelen over schoonheid en ontwerp. Dit is cruciaal voor de toekomst:

Voor ontwerpers: Een computer kan je helpen zeggen: "Je logo staat te dicht bij de rand, dat ziet er onprofessioneel uit."
Voor AI die ontwerpen maakt: Als een AI een poster maakt, kan deze zichzelf controleren en verbeteren voordat hij het aan een mens laat zien.

Kortom: Computers zijn nog geen Picasso, maar met deze nieuwe methode leren ze wel steeds beter om te begrijpen wat een mens mooi vindt.

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

1. Het Probleem: De "Smaak-Test" voor Computers

2. De Oplossing: De "AesEval-Bench" (De Keuken van de Smaak)

3. De Drie Uitdagingen voor de Computer

4. Wat Vonden Ze? (De Resultaten)

5. De Magische Truc: Leren van Mensen (De "Oefenboekjes")

Conclusie: Waarom is dit belangrijk?

Probleemstelling

Methodologie

1. AesEval-Bench (De Benchmark)

2. Systematische Evaluatie

3. Trainingsdataset en Fine-tuning (AesEval-Train)

Belangrijkste Resultaten

Bijdragen

Significantie

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

1. Het Probleem: De "Smaak-Test" voor Computers

2. De Oplossing: De "AesEval-Bench" (De Keuken van de Smaak)

3. De Drie Uitdagingen voor de Computer

4. Wat Vonden Ze? (De Resultaten)

5. De Magische Truc: Leren van Mensen (De "Oefenboekjes")

Conclusie: Waarom is dit belangrijk?

Probleemstelling

Methodologie

1. AesEval-Bench (De Benchmark)

2. Systematische Evaluatie

3. Trainingsdataset en Fine-tuning (AesEval-Train)

Belangrijkste Resultaten

Bijdragen

Significantie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation