The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un grand chef cuisinier robot (l'Intelligence Artificielle générative) qui veut apprendre à cuisiner les plus beaux plats du monde. Pour apprendre, ce robot a besoin de millions de recettes et d'images de nourriture. Mais comme il ne peut pas tout manger, il a besoin d'un sommelier (un expert en goût) pour trier les ingrédients et ne garder que les "meilleurs".

Ce papier de recherche, c'est l'histoire de ce sommelier, appelé LAP (le Prédicteur d'Esthétique LAION), et de ce qui se passe quand on lui demande de juger la beauté.

Voici ce que les chercheurs ont découvert, expliqué simplement :

1. Le Sommelier a un Goût Très Étroit

Le robot (comme Stable Diffusion) utilise ce sommelier pour décider quelles images sont "belles" et méritent d'être utilisées pour apprendre.

L'analogie : Imaginez que le sommelier est un homme blanc, occidental, qui adore les paysages de montagne, les portraits réalistes et les photos de femmes.
La découverte : Quand les chercheurs ont regardé ce que le sommelier choisissait, ils ont vu qu'il gardait tout ce qui ressemblait à l'art occidental classique ou japonais (des paysages, des portraits réalistes). En revanche, il jetait à la poubelle l'art africain, amérindien, islamique ou égyptien. C'est comme si le robot apprenait à cuisiner uniquement avec des ingrédients français et japonais, en ignorant le reste du monde.

2. Le "Regard" du Sommelier est Biaisé

Le papier parle de trois types de "regards" (ou biais) que ce robot a hérités :

Le Regard Impérial : Le robot pense que l'art "parfait" doit ressembler à celui des grandes musées occidentaux. Si une œuvre vient d'une culture non-occidentale, le robot la trouve "moche" ou "de mauvaise qualité", même si elle est magnifique.
Le Regard Réaliste : Le robot adore le réalisme. Il aime les photos qui ressemblent à la vraie vie. Il n'aime pas l'art abstrait, le cubisme ou les dessins bizarres. C'est un peu comme si quelqu'un disait qu'une photo de votre chat est "de la haute cuisine", mais qu'un tableau de Picasso est "de la nourriture pour chien". Cela limite la créativité du robot.
Le Regard Masculin : C'est le plus inquiétant. Le robot garde beaucoup plus d'images où l'on parle de femmes (souvent présentées de manière objectivée) et jette celles où l'on parle d'hommes ou de personnes LGBTQ+. C'est comme si le robot pensait que les femmes sont là pour être regardées, mais que les hommes ou les minorités ne sont pas "esthétiques" assez pour être dans le livre de recettes.

3. D'où vient ce mauvais goût ? (L'Enquête)

Pour comprendre pourquoi ce sommelier a ce goût étrange, les chercheurs ont fait une "enquête policière" (une ethnographie) sur la façon dont il a été construit.

La Révélation : Le sommelier n'a pas été créé par une équipe internationale de sages. Il a été créé par un seul homme (le fondateur de l'organisation LAION), qui a pris ses propres goûts personnels et les a mélangés avec des données venant de photographes occidentaux et de passionnés d'IA.
Le Problème : C'est comme si un seul chef avait décidé que la "vraie" cuisine du monde, c'est juste ce qu'il aime manger lui-même, et il a programmé le robot pour qu'il pense pareil. De plus, les données utilisées pour l'entraîner venaient surtout d'internautes anglophones et occidentaux.

4. Pourquoi est-ce un problème ?

Si on laisse ce robot continuer à apprendre avec ce "sommelier" biaisé :

Il va continuer à produire des images qui ignorent la plupart des cultures du monde.
Il va renforcer des stéréotypes (par exemple, montrer les femmes uniquement comme des objets de désir).
Il va étouffer l'art moderne et abstrait, car le robot pensera que ce n'est pas "beau".

La Conclusion du Papier

Les chercheurs disent : "Arrêtons de chercher un seul 'juge de beauté' universel."
La beauté est subjective (chacun a son goût). Essayer de résumer la beauté en un seul chiffre (une note de 1 à 10) est une erreur.
Au lieu de dire "Ceci est beau, ceci est moche", nous devrions dire : "Ceci est réaliste", "Ceci est abstrait", "Ceci est inspiré de l'art africain".

En résumé : Ce papier nous met en garde contre le fait de laisser une seule personne (ou un seul algorithme) décider de ce qui est "beau" pour tout le monde. Pour que l'IA soit vraiment inclusive, il faut accepter que la beauté soit diverse, et non pas une copie conforme du goût d'un seul groupe de personnes.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor", rédigé en français.

1. Problématique

L'évaluation de la qualité esthétique (AQA - Aesthetic Quality Assessment) est devenue un pilier central dans le développement de l'IA générative visuelle. Des modèles comme le LAION-Aesthetics Predictor (LAP) sont utilisés massivement pour filtrer les données d'entraînement (par exemple, pour créer le jeu de données LAION-Aesthetics utilisé par Stable Diffusion) et pour évaluer la qualité des images générées par l'IA.

Cependant, l'esthétique est intrinsèquement subjective, culturellement située et politisée. Le problème central soulevé par les auteurs est le suivant : quels goûts et quelles valeurs culturelles sont encodés dans ces modèles d'évaluation "universels" ? En traitant l'esthétique comme une métrique objective et universelle, ces modèles risquent de perpétuer des biais systémiques, de renforcer des regards dominants (impérial, masculin, occidental) et d'exclure des formes d'art non occidentales ou non réalistes, tout en aggravant les préjudices de représentation pour les communautés marginalisées.

2. Méthodologie

Les auteurs adoptent une approche hybride combinant audit algorithmique et ethnographie de trace pour répondre à deux questions de recherche (RQ) :

RQ1 : Que mesure-t-il réellement le modèle LAP ? (Quels types d'images sont classés comme "de haute qualité" ?)
RQ2 : Comment le LAP a-t-il été développé et quelles sont les origines de ses biais ?

A. Audit Algorithmique (Évaluation Quantitative)

L'équipe a audité le modèle LAP sur trois jeux de données distincts :

Le jeu de données LAION-Aesthetics (LAD) : Environ 1,2 milliard d'images filtrées à partir de LAION-5B. Les auteurs ont analysé les légendes (captions) des images incluses (score $\ge$ 6,5) par rapport à celles exclues, en utilisant l'Information Mutuelle Ponctuelle (PMI) pour détecter les corrélations avec des termes identitaires (genre, sexualité, religion, origine ethnique).
Le Metropolitan Museum of Art (MET) : 249 351 images publiques couvrant diverses cultures, périodes et médiums. Les images ont été notées par le LAP pour analyser les préférences culturelles et stylistiques.
WikiArt : 81 444 images d'artistes modernes (principalement occidentaux, milieu XIXe-milieu XXe), classées par genre (paysage, portrait, etc.) et style (réalisme, impressionnisme, abstraction).

B. Ethnographie de Trace (Analyse Qualitative)

Pour comprendre l'origine des biais, les auteurs ont reconstitué le processus de développement du LAP en analysant des "traces documentaires" publiques :

Le blog de lancement de LAION et les dépôts de code.
Les jeux de données d'entraînement utilisés (AVA, SAC, LAION-Logos).
Une vidéo YouTube explicative de 10 minutes créée par le fondateur de LAION, Christoph Schuhmann.
Des discussions sur Discord et des documents GitHub.

L'objectif était de retracer les décisions de conception, les sources des données et les consentements obtenus.

3. Résultats Clés

A. Biais dans le filtrage des données (Audit LAD)

Biais de genre et d'identité : Le modèle favorise fortement les images dont les légendes mentionnent des femmes, tandis qu'il filtre davantage les images mentionnant des hommes ou des personnes LGBTQ+.
Biais religieux et culturel : Les mentions de communautés hindoues, bouddhistes et chrétiennes sont favorisées, tandis que les mentions de communautés juives ou musulmanes sont pénalisées.
Origine des images : Les images notées haut proviennent majoritairement de sites web utilisés par des photographes et artistes visuels indépendants (ex: DeviantArt, SmugMug), renforçant une esthétique spécifique à ces communautés.

B. Biais Esthétiques et Culturels (Audit MET et WikiArt)

Le "Regard Impérial" : Le modèle classe très haut les œuvres d'artistes occidentaux et japonais, mais note systématiquement en dessous du seuil de haute qualité (6,5) les arts africains, amérindiens, océaniens, islamiques, égyptiens et de l'Asie de l'Ouest. Aucune œuvre de ces départements n'atteint le score de 6,5.
Le "Regard Réaliste" : Le modèle privilégie massivement le réalisme figuratif (paysages, portraits, vues urbaines) et dévalue l'art abstrait, le cubisme ou l'expressionnisme abstrait. Des artistes influents mais non réalistes (Picasso, Warhol, Dalí) obtiennent des scores bien inférieurs à des peintres de paysages réalistes moins connus.
Le "Regard Masculin" : La prédominance des images de femmes dans les scores élevés, couplée à l'exclusion des identités LGBTQ+, renforce le "male gaze" (regard masculin) historique de l'art occidental à l'échelle algorithmique.

C. Origines des Biais (Ethnographie de Trace)

Développement individuel : Le LAP a été conçu par une seule personne (Christoph Schuhmann) selon ses goûts personnels. Il a choisi une architecture simple (couche linéaire sur CLIP) car cela "fonctionnait le mieux visuellement" pour son usage.
Données d'entraînement biaisées :
- AVA (2012) : Données provenant d'un concours de photographie en ligne anglophone, majoritairement composé de photographes occidentaux. Les annotations ne mesuraient pas une qualité absolue mais une qualité relative à un thème.
- SAC (2022) : Généré par une communauté d'enthousiastes de l'IA (majoritairement "WEIRD" : Western, Educated, Industrialized, Rich, Democratic) et des développeurs open-source.
- LAION-Logos : Données très peu documentées, collectées par un petit groupe de bénévoles.
Conflit de mesures : Le modèle a été entraîné en fusionnant des métriques hétérogènes (scores absolus vs scores relatifs), ignorant la variance et le contexte culturel des annotations.
Consentement : Les données AVA ont été collectées sans consentement explicite des créateurs d'images, et les annotateurs de SAC étaient une minorité très spécifique (développeurs d'IA).

4. Contributions Principales

Révélation des biais systémiques : L'article fournit la première preuve empirique détaillée montrant comment un outil d'évaluation de qualité standardisé (LAP) encode des biais impériaux, réalistes et masculins, influençant ainsi la formation de modèles génératifs majeurs comme Stable Diffusion.
Critique de l'universalisme esthétique : Les auteurs démontrent que l'approche "one-size-fits-all" de l'esthétique est fondamentalement défectueuse. Ils montrent que le LAP mesure en réalité le photoréalisme et l'esthétique occidentale, et non une qualité esthétique universelle.
Méthodologie hybride : L'article propose une méthode innovante combinant l'audit algorithmique (pour identifier les biais) et l'ethnographie de trace (pour expliquer leurs origines sociotechniques), offrant un modèle pour les recherches futures en FAccT (Fairness, Accountability, and Transparency).
Appel à l'action : Ils invitent les développeurs à abandonner les mesures prescriptives d'esthétique au profit d'évaluations descriptives et pluralistes, permettant de mieux articuler les valeurs culturelles spécifiques que les modèles visent à représenter.

5. Signification et Implications

Ce travail a des implications profondes pour le domaine de l'IA générative :

Préjudice de représentation : L'utilisation de LAP pour filtrer les données d'entraînement risque d'effacer les cultures non occidentales et les styles artistiques non réalistes des futurs modèles d'IA, perpétuant une vision du monde coloniale.
Risques de sécurité et d'éthique : La préférence pour les images de femmes et le photoréalisme pourrait exacerber les risques de génération d'images sexuelles non consensuelles (deepfakes) et de contenu abusif, car le modèle favorise la représentation de femmes dans un contexte réaliste.
Réévaluation des métriques : L'article remet en question l'utilisation de métriques d'évaluation comme "vérité terrain" dans la recherche. Il suggère que la course aux benchmarks universels masque des biais culturels profonds.
Nécessité de pluralisme : Pour créer des modèles d'IA véritablement inclusifs, il faut cesser de chercher une métrique unique de "qualité" et adopter des approches qui reconnaissent la diversité des goûts et des contextes culturels.

En conclusion, l'article démontre que l'IA ne reflète pas seulement les données du web, mais qu'elle est également façonnée par les choix subjectifs de ses créateurs et les biais inhérents aux outils d'évaluation qu'ils utilisent.