Culture in Action: Evaluating Text-to-Image Models through Social Activities

Ce papier présente CULTIVate, un benchmark évaluant les modèles de génération d'images à partir de texte sur la base d'activités sociales culturelles à travers 16 pays, révélant des biais systématiques en faveur des pays du Nord global et proposant de nouvelles métriques corrélées aux jugements humains.

Sina Malakouti, Boqing Gong, Adriana Kovashka

Publié 2026-03-09
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : L'IA qui dessine des stéréotypes

Imaginez que vous demandez à un artiste peintre très doué (une Intelligence Artificielle) de dessiner une scène de la vie quotidienne dans un pays précis, par exemple : "Un dîner de famille au Maroc" ou "Une fête traditionnelle au Brésil".

Le problème, c'est que cet artiste a appris en regardant des millions de photos sur Internet. Et sur Internet, on voit souvent les mêmes clichés :

  • Pour le Maroc, il va peut-être mettre des chameaux partout et des tapis volants, même si personne ne fait ça pour dîner.
  • Pour le Brésil, il va mettre des gens en maillot de bain sur une plage, même si la scène se passe dans un salon de Rio.

C'est ce qu'on appelle des stéréotypes. L'IA est très bonne pour dessiner des objets (une tour Eiffel, un taco), mais elle est souvent nulle pour comprendre les activités sociales complexes (comment les gens se saluent, où ils s'assoient, comment ils interagissent).

🛠️ La Solution : CULTIVate et AHEaD

Les chercheurs de cette étude (Sina Malakouti et son équipe) ont créé deux choses pour régler ce problème :

1. Le Grand Livre de Recettes (CULTIVate)

Au lieu de juste regarder des objets, ils ont créé un immense catalogue de 576 activités sociales (danser, manger, se saluer, jouer) dans 16 pays différents.

  • L'analogie : C'est comme si on avait un livre de recettes ultra-détaillé pour chaque pays. Au lieu de dire juste "manger", le livre dit : "Au Japon, on mange souvent assis sur des tatamis avec des baguettes, mais au Brésil, on peut manger debout autour d'une table en bois."
  • Ils ont généré des milliers d'images avec différentes IA et les ont comparées à des photos réelles pour voir où l'IA se trompait.

2. Le Détective de Culture (AHEaD)

Comment savoir si l'image est bonne sans demander à 1000 humains de la regarder ? Les chercheurs ont créé un outil appelé AHEaD. C'est un détective qui ne se contente pas de dire "c'est joli", il vérifie trois choses précises :

  • L'Alignement (Est-ce qu'il y a les bons ingrédients ?) : L'IA a-t-elle mis les éléments culturels attendus ? (Ex: des nattes pour un dîner iranien).
  • Les Hallucinations (Est-ce qu'il y a des choses impossibles ?) : L'IA a-t-elle inventé des éléments qui n'existent pas dans ce contexte ? (Ex: mettre un éléphant dans une scène de jeu de "Pierre-Feuille-Ciseaux" en Indonésie, alors que le jeu s'appelle "Éléphant-Ant-Homme" mais ne contient pas d'animaux réels !).
  • L'Exagération (Est-ce qu'il y a trop de clichés ?) : L'IA a-t-elle mis trop de choses typiques au point que ça devient ridicule ? (Ex: mettre 10 drapeaux brésiliens et des samba partout, alors que c'est juste un repas de famille).

L'analogie du Chef :
Imaginez que vous commandez un plat.

  • L'Alignement, c'est vérifier qu'il y a bien du riz et du poisson.
  • L'Hallucination, c'est si le chef met des cailloux dans l'assiette.
  • L'Exagération, c'est si le chef met une montagne de sel parce qu'il pense que "le pays du sel" doit être salé à mourir.

AHEaD est le chef qui goûte le plat et dit : "C'est bon, mais tu as mis trop de sel (exagération) et il y a des cailloux (hallucination)."

🌍 Ce qu'ils ont découvert (Les Résultats)

En testant 6 IA différentes, ils ont trouvé des choses intéressantes :

  1. Les anciennes méthodes ne fonctionnent pas : Les outils actuels qui mesurent la "beauté" ou la "ressemblance" avec le texte échouent complètement. Ils disent souvent qu'une image pleine de clichés est "parfaite" alors qu'elle est culturellement fausse.
  2. Le biais Nord-Sud : Toutes les IA sont beaucoup plus précises pour les pays du "Nord Global" (Europe, USA) que pour les pays du "Sud Global" (Afrique, Amérique Latine, Asie). C'est comme si l'IA avait plus de photos de Paris que de Lagos, donc elle dessine Paris beaucoup mieux.
  3. La formule magique : Pour avoir une vraie note de fidélité culturelle, il ne faut pas juste regarder ce qui est présent (Alignement), mais aussi ce qui est faux (Hallucination) et ce qui est exagéré. En combinant ces trois notes, on obtient un score qui correspond vraiment à ce que les humains pensent.

🚀 Pourquoi c'est important ?

Aujourd'hui, si une entreprise veut créer une publicité pour un pays spécifique, elle risque de faire une gaffe culturelle énorme avec une IA classique.

Grâce à ce travail, on peut maintenant :

  • Diagnostiquer pourquoi une image est mauvaise (ex: "L'IA a mis des chapeaux de cowboy au Mexique, c'est faux").
  • Corriger l'image automatiquement en donnant des instructions précises à l'IA : "Enlève les chapeaux, remets des chapeaux de paille, et enlève les cactus".

En résumé : Cette recherche nous apprend à ne plus demander à l'IA de "deviner" la culture, mais à lui donner des règles claires pour qu'elle respecte la vraie vie des gens, sans tomber dans les clichés ridicules. C'est un pas de géant pour rendre l'IA plus humaine et plus respectueuse de la diversité mondiale.