GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen magischen Maler, den du mit einem einfachen Satz beauftragst: „Male mir ein Foto von einem Haus in Nigeria" oder „Male mir ein Auto in Japan". Dieser Maler ist eine künstliche Intelligenz (KI), die Millionen von Bildern aus dem Internet gesehen hat und nun neue Bilder erschafft.

Das Problem? Dieser Maler hat eine sehr seltsame und unfair verzerrte Sicht auf die Welt.

Die Forscherin Abhipsa Basu und ihr Team haben ein neues Werkzeug namens GeoDiv entwickelt, um genau diese Verzerrung zu messen. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „Stereotypen-Maler"

Stell dir vor, du bittest diesen KI-Maler, ein Haus in den USA zu malen. Er malt sofort ein riesiges, modernes Haus mit einer perfekt gemähten grünen Rasenfläche und einer Garage. Alles sieht teuer und gepflegt aus.

Bittest du ihn nun, ein Haus in Nigeria zu malen, malt er fast immer ein kleines, baufälliges Häuschen mit einem unbefestigten Weg und vielleicht sogar einem kaputten Dach.

Die Erkenntnis: Die KI denkt nicht, dass Nigeria wirklich so aussieht. Sie hat gelernt, dass „Nigeria" in ihren Trainingsdaten oft mit „Armut" verknüpft wurde. Sie malt also nicht die Realität, sondern ihre Vorurteile. Das ist wie ein Reiseführer, der nur die ärmsten Viertel einer Stadt zeigt und die reichen Viertel komplett ignoriert.

2. Die Lösung: GeoDiv – Der „Welt-Check"

GeoDiv ist wie ein strenger, aber fairer Prüfer, der den Bildern des KI-Malers auf die Finger schaut. Es ist kein einfacher Zähler, der nur sagt „Das Bild ist bunt" oder „Das Bild ist grau". Stattdessen schaut es sich zwei ganz wichtige Dinge an:

A. Der „Reichtums- und Pflege-Check" (SEVI)

Stell dir vor, du gehst durch eine Stadt und bewertest die Häuser nicht nur danach, wie schön sie aussehen, sondern danach, wie es den Bewohnern geht.

Reichtum (Affluence): Sieht das Bild aus wie ein Luxuspalast oder wie eine Hütte?
Pflege (Maintenance): Ist das Haus frisch gestrichen und sauber, oder ist es verwittert und schmutzig?

GeoDiv misst: Malt die KI für Nigeria nur arme, schmutzige Häuser? Und für die USA nur teure, saubere Häuser? Das Ergebnis war schockierend: Ja, die KI malt Länder wie Indien, Nigeria und Kolumbien fast immer als arm und heruntergekommen, während Länder wie Japan oder die USA immer als reich und makellos dargestellt werden.

B. Der „Vielfalts-Check" (VDI)

Stell dir vor, du hast 100 Bilder von Autos in Deutschland. Wenn alle 100 Bilder genau denselben blauen VW Golf auf einer Autobahn zeigen, ist das keine Vielfalt. Wenn du aber 100 Bilder hast, die LKWs, Fahrräder, alte Oldtimer, Sportwagen, Autos im Schnee, in der Wüste oder in der Stadt zeigen, dann hast du Vielfalt.

GeoDiv schaut sich an:

Das Objekt selbst: Sind alle Häuser gleich? (z. B. haben alle Häuser in Ägypten plötzlich Steinfassaden, während alle in Großbritannien Ziegelsteine haben?)
Der Hintergrund: Ist der Weg immer asphaltiert oder immer staubig?

3. Was hat GeoDiv gefunden?

Die Forscher haben 160.000 Bilder von verschiedenen KI-Malern (wie Stable Diffusion und FLUX) geprüft. Das Ergebnis ist wie eine Diagnose für eine kranke KI:

Die „Armutsschere": Die KI malt Länder des Globalen Südens (wie Nigeria, Indien) systematisch als arm und vernachlässigt, selbst wenn man sie bittet, ein normales Haus zu malen.
Der „Polier-Effekt": Ein neuerer KI-Maler (FLUX.1) malt zwar sehr schöne, glänzende Bilder (hoher Reichtums-Score), aber alle sehen gleich aus. Es fehlt die echte Vielfalt. Es ist wie ein Fotostudio, in dem jeder Gast denselben perfekten Anzug trägt – es sieht toll aus, ist aber nicht echt.
Der „Einheitsbrei": In vielen Ländern malt die KI immer dieselben Dinge. Zum Beispiel malt sie in Nigeria fast nie Gras im Garten, sondern immer nur Erde. In den USA malt sie fast immer perfekt grünen Rasen.

4. Warum ist das wichtig?

Wenn wir KI-Modelle nutzen, um die Welt zu verstehen, zu lehren oder Inhalte zu erstellen, und diese Modelle eine verzerrte Welt zeigen, dann lernen wir eine falsche Realität.

Wenn ein KI-System für ein medizinisches Training Bilder von Häusern in Afrika nutzt, aber nur Slums sieht, könnte es falsche Schlüsse ziehen.
Wenn wir diese Bilder in Nachrichten oder Werbung nutzen, verstärken wir Vorurteile.

5. Das Fazit: Ein Werkzeug für eine fairere Welt

GeoDiv ist wie ein Spiegel, der der KI zeigt: „Hey, du malst die Welt nicht so, wie sie ist, sondern so, wie du sie verzerren gelernt hast."

Das Gute ist: GeoDiv gibt den Entwicklern eine Checkliste. Sie können sehen, wo genau die KI falsch liegt (z. B. „Bei Autos in Nigeria fehlen asphaltierte Straßen"). Mit diesem Wissen können sie die KI trainieren, die Welt bunter, realistischer und fairer zu malen.

Zusammenfassend: GeoDiv sorgt dafür, dass der magische KI-Maler nicht nur die Klischees aus dem Internet kopiert, sondern die wahre, bunte und vielfältige Welt abbildet – von den prächtigen Villen bis zu den bescheidenen Hütten, überall auf der Erde.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Text-to-Image (T2I) Modelle gewinnen zunehmend an Bedeutung, doch ihre Ausgaben weisen oft erhebliche Mängel in Bezug auf die geografische Vielfalt auf. Stattdessen verstärken sie häufig Stereotype und stellen Regionen verzerrt dar. Beispielsweise generieren Modelle wie Stable Diffusion bei Prompts wie „ein Foto eines Autos in Afrika" oft Szenen mit staubigen Umgebungen und beschädigten Fahrzeugen, während sie die visuelle und wirtschaftliche Vielfalt des Kontinents ignorieren.

Bestehende Metriken zur Messung von Diversität sind für dieses Problem unzureichend:

Sie basieren oft auf stark kuratierten Datensätzen, die nicht skalierbar sind.
Sie messen lediglich oberflächliche visuelle Ähnlichkeiten (z. B. durch Embedding-Distanzen), was die Interpretierbarkeit einschränkt und tiefgreifende, landesspezifische Muster (sozioökonomische Verzerrungen) verschleiert.
Es fehlt ein systematischer Rahmen, der sowohl die visuelle Variation als auch den sozioökonomischen Kontext (Armut vs. Wohlstand, Instandhaltung) über verschiedene Länder hinweg quantifiziert.

2. Methodik: Das GeoDiv-Framework

GeoDiv ist ein interpretierbares Framework, das Large Language Models (LLMs) und Vision-Language Models (VLMs) nutzt, um die geografische Diversität entlang zweier komplementärer Achsen zu bewerten.

A. Socio-Economic Visual Index (SEVI)

Diese Achse erfasst sozioökonomische Hinweise durch zwei interpretierbare Dimensionen, die von einem VLM auf einer Skala von 1 bis 5 bewertet werden:

Affluence (Wohlstand): Reicht von „verarmt" bis „luxuriös".
Maintenance (Instandhaltung): Misst den physischen Zustand von „stark beschädigt" bis „exzellent".
Die Verteilung dieser Scores über ein Bilderset hinweg gibt Aufschluss über die sozioökonomische Diversität.

B. Visual Diversity Index (VDI)

Diese Achse misst die Variation in den visuellen Attributen von Hauptobjekten und Hintergründen:

Entity-Appearance (Objekt-Aussehen): Attribute wie Form, Material oder Farbe des primären Objekts (z. B. Haus, Auto).
Background-Appearance (Hintergrund-Aussehen): Kontextuelle Variabilität (z. B. Art der Straße, Vorhandensein von Infrastruktur).
Um diese zu messen, generiert ein LLM-Ensemble spezifische Fragen und Antwortoptionen für jedes Objekt. Ein VQA-Modell (Visual Question Answering) beantwortet diese Fragen für jedes generierte Bild.

C. Berechnung der Diversität (Hill Number)

Anstatt nur einfache Varianzen zu berechnen, verwendet GeoDiv den Hill Number-Ansatz (basierend auf der Shannon-Entropie), um die „effektive Anzahl" verschiedener Kategorien in einer Verteilung zu bestimmen.

Die Diversität wird als normalisierter Hill Number (Werte zwischen 0 und 1) berechnet.
Ein Wert nahe 1 bedeutet hohe Diversität (alle Antwortkategorien sind gleichmäßig vertreten), ein Wert nahe 0 bedeutet geringe Diversität (eine Antwort dominiert).
Um Halluzinationen zu vermeiden, werden Schritte wie „Visibility Checks" (nur sichtbare Attribute bewerten) und „None of the Above" (NOTA) Optionen eingeführt.

3. Experimentelles Setup

Datensatz: 160.000 synthetische Bilder, generiert von vier Open-Source-Modellen: Stable Diffusion v2.1, v3 (SD3m), v3.5 (SD3.5) und FLUX.1-dev.
Abdeckung: 10 gängige Entitäten (z. B. Haus, Auto, Hund, Kochtopf) und 16 Länder (u. a. USA, UK, Japan, Indien, Nigeria, Ägypten, Kolumbien).
Validierung: Die Genauigkeit der VQA-Modelle (insbesondere Gemini-2.5-flash und Qwen2.5-VL) wurde durch Crowdsourcing-Studien (Prolific) gegen menschliche Annotationen validiert. Die Modelle zeigten hohe Übereinstimmung mit menschlichen Bewertungen (Spearman-Korrelation $\rho \approx 0.76$ für SEVI).

4. Wichtige Ergebnisse

Die Anwendung von GeoDiv offenbarte systematische Verzerrungen in aktuellen T2I-Modellen:

Sozioökonomische Verzerrungen (SEVI):
- Bilder aus Ländern wie Indien, Nigeria und Kolumbien werden konsistent als verarmt und schlecht instand gehalten dargestellt (niedrige SEVI-Scores).
- Im Gegensatz dazu werden Bilder aus den USA, UK und Japan als wohlhabend und makellos präsentiert.
- Kein Modell generiert ein ausgewogenes Spektrum an sozioökonomischen Schichten für diese Länder; sie neigen dazu, Stereotype zu verfestigen.
Visuelle Diversität (VDI):
- Die visuelle Vielfalt ist generell gering. Der Hintergrund ist oft zu homogen (z. B. leere Straßen, fehlende Menschenmengen).
- Modellvergleich: SD2.1 zeigte die höchste visuelle Diversität, während neuere Modelle (SD3.5, FLUX.1) tendenziell weniger divers waren.
- Trade-off: FLUX.1 generiert Bilder mit sehr hohen SEVI-Scores (sehr gepflegt, wohlhabend), aber extrem niedrigen VDI-Scores (sehr geringe visuelle Variation). Dies deutet auf einen Zielkonflikt zwischen „polierter" Ästhetik und echter Diversität hin.
Länderspezifische Bias-Muster:
- SD3.5 generiert 99 % der Häuser in Ägypten aus Stein, während 88 % der Häuser im Vereinigten Königreich aus Ziegeln bestehen.
- 77 % der Auto-Bilder aus Nigeria zeigen unbefestigte Straßen, während dies in den USA nur in 15 % der Fälle der Fall ist (85 % befestigte Straßen).
Vergleich mit Realitätsdaten:
- Der reale GeoDE-Datensatz (von Menschen fotografiert) weist eine signifikant höhere Diversität auf als alle synthetischen Datensätze, insbesondere bei der Instandhaltung und Objektvielfalt.

5. Hauptbeiträge

Einführung von GeoDiv: Ein erstes systematisches, interpretierbares Framework zur Messung geografischer Diversität, das sozioökonomische und visuelle Aspekte kombiniert.
Strukturierte Attribute: Bereitstellung von LLM-generierten Attribut-Wert-Sets für 10 Entitäten, die als Basis für zukünftige Evaluierungen dienen.
Großer Datensatz: Erstellung und Freigabe eines Datensatzes mit 160.000 Bildern sowie annotierter Subsets für die Validierung.
Diagnose-Tool: Demonstration, dass GeoDiv effektiv latente Verzerrungen aufdeckt, die von bestehenden Metriken (wie Vendi-Score) übersehen werden.

6. Bedeutung und Ausblick

GeoDiv stellt einen wichtigen Schritt hin zu faireren und inklusiveren generativen Systemen dar. Es zeigt, dass aktuelle Modelle nicht nur visuell, sondern auch in ihrer Darstellung der Welt und sozioökonomischer Realitäten stark verzerrt sind. Das Framework bietet Entwicklern und Kuratoren von Datensätzen ein Werkzeug, um diese Lücken zu identifizieren und gezielt zu beheben (z. B. durch gezieltes Prompting oder Feinabstimmung). Die Offenlegung des Codes und der Daten ermöglicht die Reproduzierbarkeit und fördert die Entwicklung von Modellen, die die globale Vielfalt authentisch widerspiegeln.