Culture in Action: Evaluating Text-to-Image Models through Social Activities

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : L'IA qui dessine des stéréotypes

Imaginez que vous demandez à un artiste peintre très doué (une Intelligence Artificielle) de dessiner une scène de la vie quotidienne dans un pays précis, par exemple : "Un dîner de famille au Maroc" ou "Une fête traditionnelle au Brésil".

Le problème, c'est que cet artiste a appris en regardant des millions de photos sur Internet. Et sur Internet, on voit souvent les mêmes clichés :

Pour le Maroc, il va peut-être mettre des chameaux partout et des tapis volants, même si personne ne fait ça pour dîner.
Pour le Brésil, il va mettre des gens en maillot de bain sur une plage, même si la scène se passe dans un salon de Rio.

C'est ce qu'on appelle des stéréotypes. L'IA est très bonne pour dessiner des objets (une tour Eiffel, un taco), mais elle est souvent nulle pour comprendre les activités sociales complexes (comment les gens se saluent, où ils s'assoient, comment ils interagissent).

🛠️ La Solution : CULTIVate et AHEaD

Les chercheurs de cette étude (Sina Malakouti et son équipe) ont créé deux choses pour régler ce problème :

1. Le Grand Livre de Recettes (CULTIVate)

Au lieu de juste regarder des objets, ils ont créé un immense catalogue de 576 activités sociales (danser, manger, se saluer, jouer) dans 16 pays différents.

L'analogie : C'est comme si on avait un livre de recettes ultra-détaillé pour chaque pays. Au lieu de dire juste "manger", le livre dit : "Au Japon, on mange souvent assis sur des tatamis avec des baguettes, mais au Brésil, on peut manger debout autour d'une table en bois."
Ils ont généré des milliers d'images avec différentes IA et les ont comparées à des photos réelles pour voir où l'IA se trompait.

2. Le Détective de Culture (AHEaD)

Comment savoir si l'image est bonne sans demander à 1000 humains de la regarder ? Les chercheurs ont créé un outil appelé AHEaD. C'est un détective qui ne se contente pas de dire "c'est joli", il vérifie trois choses précises :

L'Alignement (Est-ce qu'il y a les bons ingrédients ?) : L'IA a-t-elle mis les éléments culturels attendus ? (Ex: des nattes pour un dîner iranien).
Les Hallucinations (Est-ce qu'il y a des choses impossibles ?) : L'IA a-t-elle inventé des éléments qui n'existent pas dans ce contexte ? (Ex: mettre un éléphant dans une scène de jeu de "Pierre-Feuille-Ciseaux" en Indonésie, alors que le jeu s'appelle "Éléphant-Ant-Homme" mais ne contient pas d'animaux réels !).
L'Exagération (Est-ce qu'il y a trop de clichés ?) : L'IA a-t-elle mis trop de choses typiques au point que ça devient ridicule ? (Ex: mettre 10 drapeaux brésiliens et des samba partout, alors que c'est juste un repas de famille).

L'analogie du Chef :
Imaginez que vous commandez un plat.

L'Alignement, c'est vérifier qu'il y a bien du riz et du poisson.
L'Hallucination, c'est si le chef met des cailloux dans l'assiette.
L'Exagération, c'est si le chef met une montagne de sel parce qu'il pense que "le pays du sel" doit être salé à mourir.

AHEaD est le chef qui goûte le plat et dit : "C'est bon, mais tu as mis trop de sel (exagération) et il y a des cailloux (hallucination)."

🌍 Ce qu'ils ont découvert (Les Résultats)

En testant 6 IA différentes, ils ont trouvé des choses intéressantes :

Les anciennes méthodes ne fonctionnent pas : Les outils actuels qui mesurent la "beauté" ou la "ressemblance" avec le texte échouent complètement. Ils disent souvent qu'une image pleine de clichés est "parfaite" alors qu'elle est culturellement fausse.
Le biais Nord-Sud : Toutes les IA sont beaucoup plus précises pour les pays du "Nord Global" (Europe, USA) que pour les pays du "Sud Global" (Afrique, Amérique Latine, Asie). C'est comme si l'IA avait plus de photos de Paris que de Lagos, donc elle dessine Paris beaucoup mieux.
La formule magique : Pour avoir une vraie note de fidélité culturelle, il ne faut pas juste regarder ce qui est présent (Alignement), mais aussi ce qui est faux (Hallucination) et ce qui est exagéré. En combinant ces trois notes, on obtient un score qui correspond vraiment à ce que les humains pensent.

🚀 Pourquoi c'est important ?

Aujourd'hui, si une entreprise veut créer une publicité pour un pays spécifique, elle risque de faire une gaffe culturelle énorme avec une IA classique.

Grâce à ce travail, on peut maintenant :

Diagnostiquer pourquoi une image est mauvaise (ex: "L'IA a mis des chapeaux de cowboy au Mexique, c'est faux").
Corriger l'image automatiquement en donnant des instructions précises à l'IA : "Enlève les chapeaux, remets des chapeaux de paille, et enlève les cactus".

En résumé : Cette recherche nous apprend à ne plus demander à l'IA de "deviner" la culture, mais à lui donner des règles claires pour qu'elle respecte la vraie vie des gens, sans tomber dans les clichés ridicules. C'est un pas de géant pour rendre l'IA plus humaine et plus respectueuse de la diversité mondiale.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de génération d'images à partir de texte (T2I) actuels souffrent de biais culturels importants, souvent liés aux données d'entraînement dominées par les cultures "WEIRD" (Occidentales, Éduquées, Industrialisées, Riches et Démocratiques).

Limitation des benchmarks existants : Les évaluations actuelles se concentrent principalement sur des artefacts centrés sur l'objet (nourriture, monuments, vêtements). Or, la culture s'exprime souvent à travers des activités sociales (danses, salutations, repas), qui sont contextuelles, compositionnelles et impliquent des interactions complexes entre objets et personnes.
Échec des métriques actuelles : Les métriques d'alignement image-texte (ITA) comme CLIPScore ou les jugements de modèles de vision-langage (VLM/MLLM) s'avèrent inefficaces. Elles pénalisent mal les hallucinations et les exagérations stéréotypées, et corrélatent faiblement avec le jugement humain. De plus, les VLMs héritent des mêmes biais culturels que les modèles T2I.

2. Méthodologie

Les auteurs proposent une approche en deux volets : un nouveau benchmark et un cadre d'évaluation diagnostique.

A. Le Benchmark CULTIVate

Contenu : Une base de données de 576 activités réparties en 9 catégories (danse, salutations, repas, jeux, célébrations, etc.) couvrant 16 pays (divisés en "Nord Global" et "Sud Global").
Données : Génération de plus de 19 000 images par 6 modèles T2I d'état de l'art (3 open-source : SD3.5, FLUX, Qwen-Image ; 3 propriétaires : DALL-E 3, GPT-Image-1, Gemini 2.5) et collecte de 3 000 images de référence réelles.
Approche descripteur : Contrairement aux benchmarks basés sur des mots-clés simples, CULTIVate utilise descripteurs visuels détaillés couvrant cinq dimensions : arrière-plan, vêtements, objets, actions/interactions et agencement spatial.

B. Le Framework AHEaD (Alignment, Hallucination, Exaggeration, and Diversity)

Pour évaluer la "fidélité culturelle" sans dépendre de jugements humains coûteux, les auteurs introduisent AHEaD, un cadre explicite utilisant des descripteurs visuels externes.

Génération de Descripteurs de Référence (Proposer-Refiner) :
- Utilisation d'une approche à deux étapes avec des LLMs (ex: GPT-4o, Gemini 2.5).
- Proposer : Génère jusqu'à 10 descripteurs par dimension pour couvrir la diversité culturelle.
- Refiner : Filtre les doublons et les erreurs pour créer un ensemble de référence robuste ( $D_{ref}$ ) sans annotation humaine directe.
Extraction de Descripteurs Prédits :
- Un MLLM (ex: InternVL3) extrait les descripteurs visuels ( $D_{pred}$ ) des images générées par le modèle T2I.
Calcul des Métriques :
- Alignement (ALIGN) : Mesure la couverture des éléments culturels attendus (pourcentage de descripteurs de référence trouvés dans l'image).
- Hallucination (HAL) : Quantifie les éléments générés qui n'ont aucun correspondant dans la référence (éléments incorrects).
- Exagération (EXAG) : Détecte la sur-représentation d'éléments stéréotypés en comparant l'intensité des indices culturels dans l'image générée par rapport à des images réelles de référence.
- Diversité (DDIV/SDIV) : Mesure la variété sémantique des éléments culturels générés.
- Fidélité (FAITH) : Une métrique composite combinant ALIGN, HAL et EXAG.

3. Contributions Clés

CULTIVate : Le premier benchmark axé sur les activités sociales pour évaluer la fidélité culturelle des modèles T2I, dépassant la simple reconnaissance d'objets.
AHEaD : Un cadre d'évaluation automatique, interprétable et scalable qui décompose la fidélité culturelle en dimensions distinctes (alignement, hallucination, exagération). Il permet un feedback détaillé pour l'édition d'images.
Méthode Proposer-Refiner : Une technique pour générer des descripteurs de référence de haute qualité sans annotation humaine massive, réduisant les coûts et les biais.
Analyse des Métriques : Démonstration que l'alignement seul est insuffisant et que la combinaison de l'alignement, de la pénalité d'hallucination et d'exagération est nécessaire pour corréler avec le jugement humain.

4. Résultats Principaux

Corrélation avec le Jugement Humain :
- Les métriques ITA classiques (CLIPScore, ImageReward) ont une corrélation très faible (souvent < 0.15) avec les jugements humains.
- La métrique composite FAITH proposée atteint une corrélation de 0.42 à 0.47 (selon le backbone MLLM), soit une amélioration de 27% par rapport aux baselines utilisant des MLLMs comme juges directs.
- L'analyse montre que l'alignement est négativement corrélé avec l'hallucination et l'exagération, confirmant qu'une image fidèle doit éviter ces deux défauts.
Biais Nord-Sud (Global North vs Global South) :
- Tous les modèles T2I testés montrent un biais systématique : ils génèrent des images plus fidèles pour les pays du Nord Global (USA, Europe) que pour ceux du Sud Global (Afrique, Asie, Amérique Latine).
- L'alignement est 4 à 8 % plus élevé pour le Nord Global, tandis que l'hallucination et l'exagération sont plus fréquentes pour le Sud Global.
Performance par Activité :
- Les modèles réussissent mieux sur les activités universelles (repas, concerts) et échouent davantage sur les activités ancrées culturellement (cérémonies religieuses, danses traditionnelles spécifiques).
Utilité pour l'Édition :
- Le feedback descripteur d'AHEaD permet d'éditer les images générées pour supprimer les éléments hallucinés (ex: des éléphants dans un jeu de main indonésien) et réduire les stéréotypes, améliorant ainsi la fidélité culturelle de manière itérative.

5. Signification et Impact

Ce travail marque un tournant dans l'évaluation de l'IA générative culturelle :

Il déplace le focus des artefacts statiques vers les interactions sociales dynamiques, reflétant mieux la complexité culturelle.
Il prouve que les métriques d'alignement textuel-imagé sont inadéquates pour la culture et propose une alternative interprétable qui identifie pourquoi une image échoue (hallucination vs manque d'alignement).
Il met en lumière un biais systémique majeur des modèles actuels envers les cultures du Nord Global, fournissant des outils quantitatifs pour guider les futures améliorations des modèles et assurer une représentation plus équitable et précise des cultures mondiales.