The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, digitalen Kochtopf, in dem eine KI (künstliche Intelligenz) lernt, wie man wunderschöne Bilder malt. Damit die KI gute Bilder macht, muss man ihr zuerst zeigen, was „schön" ist. Dafür braucht man einen Koch, der entscheidet, welche Zutaten (Bilder) in den Topf kommen und welche man wegwirft.

Dieses Paper untersucht genau diesen Koch. Er heißt LAP (LAION-Aesthetics Predictor). Er ist ein Algorithmus, der entscheidet, welche Bilder „gut genug" sind, um KI-Modelle wie Stable Diffusion zu trainieren.

Die Forscher sagen: „Dieser Koch hat einen sehr seltsamen Geschmack."

Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Vergleichen:

1. Der Koch mit der „Einheitsgröße"-Mütze

Stell dir vor, du versuchst, einen Koch zu finden, der für alle Menschen auf der Welt kocht. Du gibst ihm einen einzigen Rezeptbuch-Eintrag und sagst: „Das hier ist das perfekte Essen."
Das Problem: Was für einen Franzosen „perfekt" schmeckt, mag ein Japaner vielleicht gar nicht. Was ein junger Hipster liebt, mag ein Opa vielleicht nicht.

Der LAP-Koch hat aber genau das gemacht. Er hat versucht, Schönheit in eine einzige Zahl zu pressen (von 1 bis 10). Die Forscher haben herausgefunden, dass dieser Koch nicht neutral ist. Er hat einen ganz bestimmten Geschmack, der von einem einzigen Mann (dem Erfinder von LAION) geprägt wurde.

2. Was mag der Koch? (Die „Imperiale Brille")

Der Koch trägt eine unsichtbare Brille, die nur bestimmte Dinge klar sieht. Die Forscher haben drei große Teller mit Bildern geprüft:

Der „Männer-Blick" (The Male Gaze): Wenn auf einem Bild Frauen erwähnt werden, findet der Koch es oft schön. Wenn Männer oder LGBTQ+-Personen erwähnt werden, wirft er das Bild oft weg. Es ist, als würde der Koch denken: „Schönheit ist etwas, das Männer betrachten, nicht etwas, das Männer selbst sind."
Der „Imperiale Blick" (The Imperial Gaze): Der Koch liebt Bilder aus dem Westen (Europa/USA) und aus Japan. Aber Bilder aus Afrika, dem Nahen Osten oder von indigenen Völkern? Die findet er „schlecht".
- Vergleich: Stell dir vor, du hast eine Galerie, in der nur Ölgemälde von weißen Männern hängen. Alles andere – Skulpturen aus Afrika, moderne Kunst, abstrakte Werke – wird als „Müll" betrachtet und weggeworfen. Der Koch ignoriert ganze Kontinente der Kunstgeschichte.
Der „Realismus-Blick" (The Realist Gaze): Der Koch liebt Bilder, die wie Fotos aussehen (Berge, Städte, Porträts). Er hasst abstrakte Kunst oder Dinge, die seltsam aussehen.
- Vergleich: Wenn Picasso oder Warhol in die Küche kämen, würde der Koch ihre Bilder in den Müll werfen, weil sie nicht „echt" aussehen. Dabei ist gerade die „Unwirklichkeit" oft das Schönste an moderner Kunst.

3. Woher kommt dieser seltsame Geschmack? (Die Spur verfolgen)

Die Forscher haben nicht nur geschaut, was der Koch auswählt, sondern auch warum. Sie haben wie Detektive die Spur zurückverfolgt (Trace Ethnography).

Sie fanden heraus:

Der Koch hat nur mit einer kleinen Gruppe gesprochen: Die Bilder, die er als „schön" bewertet hat, kamen fast nur von englischsprachigen Fotografen aus dem Westen oder von einer kleinen Gruppe von KI-Enthusiasten in Discord-Chats.
Er hat keine Zustimmung eingeholt: Viele der Bilder wurden einfach von einer Webseite heruntergeladen, ohne dass die Künstler gefragt wurden, ob ihre Kunst als Trainingsmaterial für eine KI dienen darf.
Er hat alles durcheinander geworfen: Der Koch hat Bewertungen von Fotowettbewerben (wo es um Themen geht) mit Bewertungen von KI-Enthusiasten (die oft Sci-Fi mögen) gemischt. Das Ergebnis ist ein chaotischer Geschmack, der niemanden wirklich repräsentiert.

4. Warum ist das ein Problem?

Wenn wir KI-Modelle mit diesem Koch trainieren, passiert Folgendes:

Die KI wird voreingenommen: Wenn du der KI sagst „Male ein Bild von einem Arzt", wird sie fast immer einen weißen Mann malen. Wenn du sagst „Male ein Bild von einer afrikanischen Zeremonie", wird die KI vielleicht gar nichts verstehen oder etwas Falsches malen.
Künstler werden benachteiligt: Da der Koch nur „fotorealistische" Bilder liebt, werden KI-Modelle immer besser darin, Fotos zu fälschen (Deepfakes), aber schlechter darin, kreative, abstrakte Kunst zu machen.
Frauen sind in Gefahr: Da der Koch Bilder von Frauen „mag", landen diese Bilder massenhaft in den Trainingsdaten. Das führt dazu, dass KI-Modelle oft Bilder von Frauen in unangemessenen oder pornografischen Situationen erzeugen (Nudification), weil die KI gelernt hat, dass „Frauenbilder" = „schön" sind.

5. Was ist die Lösung?

Die Forscher sagen: Hör auf, nach dem „perfekten" Geschmack zu suchen.

Statt zu fragen: „Ist dieses Bild schön?" (was immer nur die Meinung eines kleinen Kreises ist), sollten wir fragen: „Für wen ist dieses Bild schön?"

Vielfalt statt Einheit: Wir brauchen viele verschiedene „Köche" mit unterschiedlichen Geschmacksrichtungen.
Beschreibung statt Bewertung: Statt einem Bild eine Note von 1 bis 10 zu geben, sollten wir beschreiben, was es ist: „Das ist ein realistisches Foto einer Stadt" oder „Das ist eine abstrakte afrikanische Skulptur".
Respekt: Wir müssen die Künstler fragen, ob ihre Kunst verwendet werden darf, und wir müssen die Vielfalt der Welt in unseren KI-Modellen abbilden, nicht nur die Sichtweise eines einzigen Mannes aus dem Westen.

Zusammenfassend: Dieses Paper warnt davor, dass unsere KI-Künstler gerade von einem sehr einseitigen, westlichen, männlichen und fotorealistischen Geschmack geleitet werden. Wenn wir das nicht ändern, werden unsere KI-Modelle die Welt nicht so sehen, wie sie wirklich ist, sondern nur so, wie ein kleiner Kreis von Tech-Enthusiasten es sich vorstellt.

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

1. Der Koch mit der „Einheitsgröße"-Mütze

2. Was mag der Koch? (Die „Imperiale Brille")

3. Woher kommt dieser seltsame Geschmack? (Die Spur verfolgen)

4. Warum ist das ein Problem?

5. Was ist die Lösung?

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

A. Verzerrungen im LAION-Aesthetics Dataset

B. Verzerrungen in Kunst-Datensätzen (MET & WikiArt)

C. Ursprung der Verzerrungen (Trace Ethnographie)

4. Hauptbeiträge

5. Signifikanz und Implikationen

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

1. Der Koch mit der „Einheitsgröße"-Mütze

2. Was mag der Koch? (Die „Imperiale Brille")

3. Woher kommt dieser seltsame Geschmack? (Die Spur verfolgen)

4. Warum ist das ein Problem?

5. Was ist die Lösung?

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

A. Verzerrungen im LAION-Aesthetics Dataset

B. Verzerrungen in Kunst-Datensätzen (MET & WikiArt)

C. Ursprung der Verzerrungen (Trace Ethnographie)

4. Hauptbeiträge

5. Signifikanz und Implikationen

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers