Culture in Action: Evaluating Text-to-Image Models through Social Activities

Dit paper introduceert CULTIVate, een benchmark met duizenden afbeeldingen en nieuwe metrics om de culturele eerlijkheid van tekst-naar-beeldmodellen te evalueren op basis van dagelijkse sociale activiteiten, waarbij blijkt dat deze modellen systematisch beter presteren voor landen in het Noordelijk Halfrond dan voor die in het Zuidelijk Halfrond.

Sina Malakouti, Boqing Gong, Adriana Kovashka

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Cultuur in Actie: Hoe AI-afbeeldingen van Gewoonten Wereldwijd (Soms) Mislukken

Stel je voor dat je een reisgids maakt voor de hele wereld, maar je gebruikt een kunstenaar die nog nooit de wereld heeft verlaten. Hij tekent Parijs, maar de Eiffeltoren staat op een strand met palmbomen, en de mensen eten pizza in plaats van croissants. Dat is ongeveer wat er gebeurt met de huidige kunstmatige intelligentie (AI) die teksten omzet in afbeeldingen.

Dit onderzoek, gepresenteerd op een grote conferentie in 2026, kijkt naar hoe goed deze AI's de cultuur van verschillende landen begrijpen, vooral als het gaat om sociale activiteiten zoals dansen, groeten of eten.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Reisgids" die alleen naar Hollywood kijkt

Tot nu toe hebben onderzoekers gekeken of AI objecten goed kan tekenen (zoals een tempel of een specifiek kledingstuk). Maar cultuur zit niet alleen in objecten; het zit in hoe mensen met elkaar omgaan.

  • De vergelijking: Stel je voor dat je iemand vraagt om een foto te maken van "eten in Iran". Een echte Iranse foto kan mensen tonen die op de grond zitten rond een traditionele tafelkleed (sofreh). Een AI die alleen naar Amerikaanse films kijkt, plaatst ze misschien allemaal aan een hoge tafel met vorken en messen.
  • Het probleem: De AI's zijn getraind op internetdata die vooral door westerse landen wordt gemaakt. Ze hebben dus een "blinde vlek" voor de rest van de wereld. Ze maken vaak clichés (stereotypen) of verzonnen dingen (hallucinaties).

2. De Oplossing: Een Nieuwe Test (CULTIVate)

De onderzoekers hebben een nieuwe test ontwikkeld genaamd CULTIVate.

  • Wat is het? Een enorme verzameling van 576 verschillende activiteiten (zoals dansen, groeten, spelen) uit 16 verschillende landen.
  • Het doel: Kijken of de AI's deze activiteiten kunnen tekenen zoals ze echt gebeuren, in plaats van als een karikatuur. Ze hebben 19.000 afbeeldingen gegenereerd om te testen.

3. De Nieuwe Meetlat: AHEaD (De Cultuur-Check)

Vroeger keken onderzoekers alleen of de afbeelding "leek" op wat er in de tekst stond (zoals een AI die zegt: "Ja, dit is eten!"). Maar dat is niet genoeg. Je kunt een bord eten tekenen dat eruitziet als een pizza, maar als je in Japan bent, moet het sushi zijn.

De onderzoekers introduceerden AHEaD, een slimme manier om te meten of een afbeelding eerlijk is. Ze gebruiken vier maatstaven, alsof je een afbeelding beoordeelt met vier verschillende brillen:

  1. Alignment (Aansluiting): Zie je de juiste dingen? (Bijv. zitten ze wel op de grond in Iran?)
  2. Hallucination (Hallucinatie): Zie je dingen die er nooit zouden zijn? (Bijv. een olifant in een spelletje dat in Indonesië gespeeld wordt, terwijl dat spel niets met olifanten te maken heeft).
  3. Exaggeration (Overtreding): Is het te veel van het goede? (Bijv. elke persoon in Brazilië draagt een bikini en er hangen vlaggen aan elke boom, zelfs als het regent).
  4. Diversity (Verscheidenheid): Is het altijd hetzelfde plaatje, of ziet de AI ook de verschillende manieren waarop mensen iets doen?

De grote ontdekking: De oude meetmethoden (die alleen keken of tekst en plaatje overeenkwamen) faalden. Ze beloonden juist de clichés! De nieuwe AHEaD-methode straft de clichés af en beloont de echte cultuur.

4. De Resultaten: De Noord-Zuid Kloof

De test liet een duidelijk en wat triest patroon zien:

  • Global North (Rijke westerse landen): De AI's zijn hier heel goed in. Als je vraagt om "eten in Frankrijk", krijg je vaak een mooi, realistisch plaatje.
  • Global South (Ontwikkelingslanden): De AI's maken hier veel meer fouten. Ze gebruiken meer clichés, verzonnen elementen en zijn minder divers.
  • De vergelijking: Het is alsof de AI een "VIP-kaart" heeft voor westerse landen, maar voor de rest van de wereld werkt hij op "proefstand" met veel fouten.

5. Waarom is dit belangrijk?

Stel je voor dat je een reclamecampagne maakt voor een internationaal merk. Als je de AI gebruikt om afbeeldingen te maken van mensen in Nigeria of India, wil je niet dat ze eruitzien als een Hollywood-film over Afrika. Je wilt authenticiteit.

De onderzoekers tonen aan dat je met hun nieuwe methode (AHEaD) niet alleen kunt meten hoe slecht een afbeelding is, maar je kunt ook precies zeggen waarom (bijv. "Verwijder die olifant, en zorg dat ze op de grond zitten"). Dit helpt ontwikkelaars om de AI's te verbeteren, zodat ze in de toekomst voor iedereen een eerlijke en mooie weergave van de wereld kunnen maken.

Kortom: Cultuur is complex en zit in de details. Deze studie geeft ons de gereedschapskist om te controleren of onze digitale kunstenaars de cultuur van de hele wereld eerbiedigen, en niet alleen die van de rijke westerse wereld.