Culture in Action: Evaluating Text-to-Image Models through Social Activities

Each language version is independently generated for its own context, not a direct translation.

Titel: Cultuur in Actie: Hoe AI-afbeeldingen van Gewoonten Wereldwijd (Soms) Mislukken

Stel je voor dat je een reisgids maakt voor de hele wereld, maar je gebruikt een kunstenaar die nog nooit de wereld heeft verlaten. Hij tekent Parijs, maar de Eiffeltoren staat op een strand met palmbomen, en de mensen eten pizza in plaats van croissants. Dat is ongeveer wat er gebeurt met de huidige kunstmatige intelligentie (AI) die teksten omzet in afbeeldingen.

Dit onderzoek, gepresenteerd op een grote conferentie in 2026, kijkt naar hoe goed deze AI's de cultuur van verschillende landen begrijpen, vooral als het gaat om sociale activiteiten zoals dansen, groeten of eten.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Reisgids" die alleen naar Hollywood kijkt

Tot nu toe hebben onderzoekers gekeken of AI objecten goed kan tekenen (zoals een tempel of een specifiek kledingstuk). Maar cultuur zit niet alleen in objecten; het zit in hoe mensen met elkaar omgaan.

De vergelijking: Stel je voor dat je iemand vraagt om een foto te maken van "eten in Iran". Een echte Iranse foto kan mensen tonen die op de grond zitten rond een traditionele tafelkleed (sofreh). Een AI die alleen naar Amerikaanse films kijkt, plaatst ze misschien allemaal aan een hoge tafel met vorken en messen.
Het probleem: De AI's zijn getraind op internetdata die vooral door westerse landen wordt gemaakt. Ze hebben dus een "blinde vlek" voor de rest van de wereld. Ze maken vaak clichés (stereotypen) of verzonnen dingen (hallucinaties).

2. De Oplossing: Een Nieuwe Test (CULTIVate)

De onderzoekers hebben een nieuwe test ontwikkeld genaamd CULTIVate.

Wat is het? Een enorme verzameling van 576 verschillende activiteiten (zoals dansen, groeten, spelen) uit 16 verschillende landen.
Het doel: Kijken of de AI's deze activiteiten kunnen tekenen zoals ze echt gebeuren, in plaats van als een karikatuur. Ze hebben 19.000 afbeeldingen gegenereerd om te testen.

3. De Nieuwe Meetlat: AHEaD (De Cultuur-Check)

Vroeger keken onderzoekers alleen of de afbeelding "leek" op wat er in de tekst stond (zoals een AI die zegt: "Ja, dit is eten!"). Maar dat is niet genoeg. Je kunt een bord eten tekenen dat eruitziet als een pizza, maar als je in Japan bent, moet het sushi zijn.

De onderzoekers introduceerden AHEaD, een slimme manier om te meten of een afbeelding eerlijk is. Ze gebruiken vier maatstaven, alsof je een afbeelding beoordeelt met vier verschillende brillen:

Alignment (Aansluiting): Zie je de juiste dingen? (Bijv. zitten ze wel op de grond in Iran?)
Hallucination (Hallucinatie): Zie je dingen die er nooit zouden zijn? (Bijv. een olifant in een spelletje dat in Indonesië gespeeld wordt, terwijl dat spel niets met olifanten te maken heeft).
Exaggeration (Overtreding): Is het te veel van het goede? (Bijv. elke persoon in Brazilië draagt een bikini en er hangen vlaggen aan elke boom, zelfs als het regent).
Diversity (Verscheidenheid): Is het altijd hetzelfde plaatje, of ziet de AI ook de verschillende manieren waarop mensen iets doen?

De grote ontdekking: De oude meetmethoden (die alleen keken of tekst en plaatje overeenkwamen) faalden. Ze beloonden juist de clichés! De nieuwe AHEaD-methode straft de clichés af en beloont de echte cultuur.

4. De Resultaten: De Noord-Zuid Kloof

De test liet een duidelijk en wat triest patroon zien:

Global North (Rijke westerse landen): De AI's zijn hier heel goed in. Als je vraagt om "eten in Frankrijk", krijg je vaak een mooi, realistisch plaatje.
Global South (Ontwikkelingslanden): De AI's maken hier veel meer fouten. Ze gebruiken meer clichés, verzonnen elementen en zijn minder divers.
De vergelijking: Het is alsof de AI een "VIP-kaart" heeft voor westerse landen, maar voor de rest van de wereld werkt hij op "proefstand" met veel fouten.

5. Waarom is dit belangrijk?

Stel je voor dat je een reclamecampagne maakt voor een internationaal merk. Als je de AI gebruikt om afbeeldingen te maken van mensen in Nigeria of India, wil je niet dat ze eruitzien als een Hollywood-film over Afrika. Je wilt authenticiteit.

De onderzoekers tonen aan dat je met hun nieuwe methode (AHEaD) niet alleen kunt meten hoe slecht een afbeelding is, maar je kunt ook precies zeggen waarom (bijv. "Verwijder die olifant, en zorg dat ze op de grond zitten"). Dit helpt ontwikkelaars om de AI's te verbeteren, zodat ze in de toekomst voor iedereen een eerlijke en mooie weergave van de wereld kunnen maken.

Kortom: Cultuur is complex en zit in de details. Deze studie geeft ons de gereedschapskist om te controleren of onze digitale kunstenaars de cultuur van de hele wereld eerbiedigen, en niet alleen die van de rijke westerse wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Huidige benchmarks voor tekst-naar-beeld (T2I) generatiemodellen richten zich voornamelijk op object-gerichte artefacten (zoals voedsel, landmerken en kleding). Dit is echter ontoereikend voor het beoordelen van culturele trouw (faithfulness), omdat culturele nuances vaak tot uiting komen in sociale activiteiten (zoals dansen, groeten, eten). Deze activiteiten zijn contextueel en compositieel: ze omvatten interacties, ruimtelijke ordening en relaties tussen objecten en mensen die sterk variëren per cultuur.

Bestaande evaluatiemethoden hebben twee grote tekortkomingen:

Menselijke evaluatie is nauwkeurig maar kostbaar en niet schaalbaar.
Image-Text Alignment (ITA) metrics (zoals CLIPScore) en VLM-based "judge"-modellen presteren slecht. Ze vertonen een "bag-of-words"-gedrag, missen compositiële nuance en belonen vaak stereotypering of hallucinaties (bijv. het genereren van olifanten voor een Indonesisch spel dat "olifant" in de naam heeft, maar geen echte olifanten bevat). Dit leidt tot een lage correlatie met menselijke oordelen over culturele juistheid.

Methodologie

De auteurs introduceren een nieuwe aanpak bestaande uit een benchmark en een diagnostisch framework.

1. De CULTIVate Benchmark

Opzet: Een dataset van 576 activiteiten verdeeld over 9 categorieën (o.a. dansen, groeten, dineren, spelen) en 16 landen.
Data: De benchmark bevat meer dan 19.000 gegenereerde afbeeldingen van 6 state-of-the-art T2I-modellen (waaronder Stable Diffusion 3.5, FLUX, DALL·E 3, GPT-Image-1) en ~3.000 echte referentieafbeeldingen.
Landen: De landen zijn ingedeeld in Global North (bijv. VS, Frankrijk, Duitsland) en Global South (bijv. Iran, India, Nigeria, Brazilië).

2. Het AHEaD Framework

AHEaD (Alignment, Hallucination, Exaggeration, and Diversity) is een uitlegbaar framework dat cultureel begrip meet via interpreteerbare visuele beschrijvers (descriptors), in plaats van directe beeld-tekst scores.

Referentie Beschrijvers (D_ref):
- In plaats van menselijke annotatie, gebruiken de auteurs een Proposer-Refiner methode. Meerdere LLM's genereren kandidaat-beschrijvers voor vijf dimensies: achtergrond, kleding, objecten, interacties en ruimtelijke lay-out.
- Een "Refiner"-LLM filtert duplicaten en fouten, wat resulteert in een robuuste set van cultureel onderbouwde verwachtingen zonder menselijke tussenkomst.
Voorspelde Beschrijvers (D_pred):
- Een MLLM (Multimodal Large Language Model, zoals InternVL3) analyseert de gegenereerde afbeeldingen en extrahert visuele beschrijvers.
De Vier Metrieken:
1. Alignment (ALIGN): Meet de dekking van verwachte culturele elementen (hoeveel referentie-beschrijvers komen overeen met de afbeelding?).
2. Hallucination (HAL): Kwantificeert incorrecte elementen die niet in de referentie voorkomen (bijv. een olifant in een spel zonder olifanten).
3. Exaggeration (EXAG): Meet de overrepresentatie van stereotiepe elementen door de intensiteit te vergelijken met een baseline van echte afbeeldingen.
4. Diversity (DDIV/SDIV): Meet de semantische variatie in de gegenereerde elementen.
FAITH Score: Een samengestelde score die Alignment, Hallucination en Exaggeration combineert: $FAITH = \text{mean}(ALIGN, 1-HAL, 1-EXAG)$ .

Belangrijkste Bijdragen

CULTIVate: De eerste benchmark die zich specifiek richt op de culturele trouw van T2I-modellen via sociale activiteiten, in plaats van statische objecten.
AHEaD Framework: Een automatisch, schaalbaar en interpreteerbaar evaluatiesysteem dat gebruikmaakt van visuele beschrijvers. Het biedt niet alleen scores, maar ook feedback over wat ontbreekt, wat verkeerd is en wat overdreven is.
Nieuwe Inzichten: Het paper toont aan dat ITA-metrieken onbetrouwbaar zijn voor culturele evaluatie en dat een combinatie van metrics (FAITH) nodig is om menselijke oordelen nauwkeurig te voorspellen.
Bias Detectie: Het onthult systematische bias in T2I-modellen ten gunste van Global North-landen.

Resultaten

Correlatie met Menselijke Oordelen:
- Bestaande ITA-metrieken (zoals CLIPScore, ImageReward) tonen een zeer lage correlatie met menselijke beoordelingen van culturele trouw (vaak < 0.15).
- De FAITH score (AHEaD) bereikt een correlatie van 0.42 - 0.47 met menselijke oordelen, wat 27% hoger is dan de beste MLLM-as-judge baselines.
- Dit bewijst dat het combineren van Alignment, Hallucination en Exaggeration essentieel is; Alignment alleen is ontoereikend.
Global North vs. Global South Bias:
- Alle geteste T2I-modellen presteren consistent beter voor Global North-landen.
- Voor Global South-landen zijn de Alignment-scores lager (4-8% lager), en zijn Hallucination en Exaggeration hoger. Dit suggereert dat modellen minder goed begrijpen hoe culturele activiteiten in deze regio's eruitzien.
Activiteitstypes:
- Modellen presteren het beste bij universele activiteiten (bijv. concerten, eten) en het slechtste bij sterk cultureel gebonden activiteiten (bijv. specifieke vieringen of religieuze rituelen).
Iteratieve Verbetering:
- Het framework kan worden gebruikt voor "descriptor-guided editing". Door de specifieke hallucinaties en overdrijvingen te identificeren, kunnen prompts worden aangepast om de afbeeldingen cultureel accurater te maken.

Significantie

Dit werk is van groot belang voor de ontwikkeling van eerlijke en cultureel inclusieve AI. Het toont aan dat huidige evaluatiestandaarden tekortschieten in het meten van culturele nuance en dat "meer tekst-afbeelding overeenkomst" niet gelijkstaat aan "culturele juistheid".

De introductie van AHEaD biedt een praktische, schaalbare oplossing voor onderzoekers en ontwikkelaars om T2I-modellen te diagnosticeren en te verbeteren zonder afhankelijk te zijn van dure menselijke evaluatie. De bevindingen over de bias ten gunste van Global North-culturen onderstrepen de noodzaak om trainingsdata en evaluatiemethoden te diversifiëren om stereotypen te verminderen en de representativiteit van het Zuiden te vergroten. Dit heeft directe toepassingen in sectoren zoals reclame, entertainment en toerisme, waar culturele authenticiteit cruciaal is.

Culture in Action: Evaluating Text-to-Image Models through Social Activities

1. Het Probleem: De "Reisgids" die alleen naar Hollywood kijkt

2. De Oplossing: Een Nieuwe Test (CULTIVate)

3. De Nieuwe Meetlat: AHEaD (De Cultuur-Check)

4. De Resultaten: De Noord-Zuid Kloof

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie

1. De CULTIVate Benchmark

2. Het AHEaD Framework

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes