GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

Each language version is independently generated for its own context, not a direct translation.

GeoDiv: De Reisgids voor eerlijke AI-foto's

Stel je voor dat je een wereldwijde reisgids hebt die je vertelt hoe het eruit ziet in elk land. Maar wat als die gids, elke keer als je vraagt "Hoe ziet een huis in Nigeria eruit?", alleen maar foto's toont van vervallen hutten met modderige wegen? En als je vraagt "Hoe ziet een huis in Japan eruit?", toont hij alleen maar strakke, moderne huizen?

Dat is precies wat er gebeurt met de kunstmatige intelligentie (AI) die foto's maakt op basis van tekst (zoals "T2I-modellen"). Deze AI's hebben een heel groot deel van het internet gelezen, maar ze hebben een slechte gewoonte ontwikkeld: ze blijven hangen in stereotypen. Ze vergeten de echte diversiteit van de wereld.

GeoDiv is een nieuw hulpmiddel, bedacht door onderzoekers, dat als een strenge, maar eerlijke inspecteur fungeert. Het kijkt niet alleen naar of een foto "leuk" is, maar of de AI de wereld eerlijk weergeeft.

Hier is hoe GeoDiv werkt, vertaald in alledaagse termen:

1. De Twee Sporen van de Inspecteur

GeoDiv kijkt naar twee belangrijke dingen, alsof het twee verschillende soorten camera's zijn:

De "Rijkdom & Zorg"-camera (SEVI):
Stel je voor dat je door een stad loopt. Kijk je alleen naar de luxe winkels en de glimmende auto's, of zie je ook de oude gebouwen, de arme buurten en de mensen die hun spullen repareren?
- Rijkdom (Affluence): Is de scène arm of rijk?
- Zorg (Maintenance): Is het spul eruitziend als nieuw en verzorgd, of juist versleten en kapot?
- Het probleem: De AI's tonen vaak India, Nigeria en Colombia alleen als arm en vervallen, terwijl ze die landen ook als modern en welvarend zouden moeten kunnen tonen.
De "Variatie"-camera (VDI):
Stel je voor dat je een doos met speelgoedkinderen hebt. Als je om "een stoel" vraagt, krijg je dan 100 keer exact dezelfde houten stoel? Of krijg je een plastic tuinstoel, een comfortabele bank, een klapstoel en een houten kruk?
- Vorm van het object: Zien we verschillende soorten auto's, huizen of stoelen?
- De achtergrond: Staat de auto op een asfaltweg, een modderpad of in een garage?
- Het probleem: De AI's zijn vaak saai. Ze kiezen steeds voor dezelfde "standaard" achtergrond en hetzelfde type object, ongeacht het land.

2. Hoe werkt het? (De Vertalers)

GeoDiv gebruikt slimme computerprogramma's (grote taalmodellen) als vertalers.

De AI maakt eerst een foto (bijvoorbeeld: "Een foto van een auto in Mexico").
Vervolgens vraagt GeoDiv aan de slimme vertaler: "Wat voor kleur is die auto?", "Is de weg geplaveid?", "Lijkt het huis rijk of arm?".
De vertaler kijkt naar honderden foto's en maakt een lijstje: "80% van de auto's in Nigeria staat op een modderweg, terwijl 85% in de VS op asfalt staat."
Dan berekent GeoDiv een diversiteitscore. Als de lijstje maar één antwoord heeft (allemaal modder), is de score laag. Als er veel variatie is, is de score hoog.

3. Wat hebben ze ontdekt? (De Schokkende Feiten)

Toen ze dit testten op 160.000 gegenereerde foto's van verschillende AI-modellen, vonden ze een paar duidelijke patronen:

De "Arme Landen"-valstrik: AI-modellen tonen landen in Afrika en Zuid-Amerika (zoals Nigeria, India, Colombia) bijna altijd als arm, smerig en vervallen. Ze vergeten de moderne steden en de welvaart die daar ook bestaat.
De "Rijke Landen"-droom: Landen als de VS, Japan en het VK krijgen vaak te veel luxe, strakke en perfecte foto's.
De "Gladde maar Saai" AI: De nieuwste AI (FLUX.1) maakt prachtige, glimmende foto's die er heel rijk uitzien, maar ze zijn saai. Het zijn allemaal dezelfde perfecte huizen en straten. Het mist de echte, ruwe diversiteit van de wereld.
De "Standaardstoel": Of je nu vraagt om een stoel in India of in Italië, de AI maakt vaak exact hetzelfde type stoel.

4. Waarom is dit belangrijk?

Stel je voor dat je een wereldkaart tekent, maar je tekent alleen de gebieden die je zelf kent en vergeten de rest. Dan denk je dat de wereld er zo uitziet. Dat is wat deze AI's doen.

GeoDiv is als een spiegel die de AI's laat zien: "Kijk eens, je bent vooroordelen aan het versterken!" Het helpt ontwikkelaars om hun modellen te verbeteren, zodat ze niet alleen mooie foto's maken, maar ook eerlijke foto's die de echte wereld weerspiegelen.

Kort samengevat:
GeoDiv is een meetlat voor eerlijkheid. Het zorgt ervoor dat wanneer een AI een foto maakt van een "huis in Kenia", het niet alleen een hut tekent, maar ook een modern appartement, een villa of een traditioneel huis. Het zorgt ervoor dat de digitale wereld eindelijk even divers wordt als de echte wereld.

GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

1. De Twee Sporen van de Inspecteur

2. Hoe werkt het? (De Vertalers)

3. Wat hebben ze ontdekt? (De Schokkende Feiten)

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie: Het GeoDiv Framework

1. Socio-Economische Visuele Index (SEVI)

2. Visuele Diversiteitsindex (VDI)

Berekening van Diversiteit

Experimentele Opzet

Belangrijkste Resultaten

Bijdragen

Significantie

GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

1. De Twee Sporen van de Inspecteur

2. Hoe werkt het? (De Vertalers)

3. Wat hebben ze ontdekt? (De Schokkende Feiten)

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie: Het GeoDiv Framework

1. Socio-Economische Visuele Index (SEVI)

2. Visuele Diversiteitsindex (VDI)

Berekening van Diversiteit

Experimentele Opzet

Belangrijkste Resultaten

Bijdragen

Significantie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation