Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, conçue pour être comprise par tout le monde, même sans bagage technique.

🎨 Le Problème : L'Artiste IA et le Spectateur Coloré

Imaginez que vous avez un peintre robot ultra-puissant (c'est le modèle de diffusion, comme Stable Diffusion). Si vous lui dites : « Peins-moi un paysage magnifique avec des fruits rouges et des feuilles vertes », il crée une image époustouflante, pleine de détails et de couleurs vibrantes.

Mais il y a un problème : tout le monde ne voit pas les couleurs de la même façon.
Une grande partie de la population souffre de daltonisme (trouble de la vision des couleurs). Pour eux, le rouge et le vert peuvent sembler identiques, comme deux nuances de gris ou de marron. Dans l'image du robot, un fruit rouge sur une feuille verte pourrait devenir une tache floue indistincte. Le détail est perdu, même si l'image est belle pour nous, les voyants.

Jusqu'à présent, si on voulait aider ces personnes, il fallait prendre l'image du robot et la « retoucher » après coup (comme appliquer un filtre magique) pour changer les couleurs.

🤔 La Question de l'Équipe : Peut-on demander gentiment ?

Les chercheurs (Xinyao Zhuang, Jose Echevarria et Kaan Ak¸sit) se sont demandé : « Et si on demandait simplement au robot, dans sa phrase de commande (le "prompt"), de faire attention aux daltoniens ? »

Ils ont essayé de dire au robot : « Peins un paysage avec une palette adaptée aux daltoniens ».
Leur hypothèse était : « Peut-être que le robot est si intelligent qu'il comprendra et ajustera ses couleurs tout seul, sans qu'on ait besoin de le retoucher après ? »

📏 L'Outil de Mesure : Le « CVDLoss » (La Règle à Mesurer les Chocs)

Pour savoir si le robot a bien compris, il fallait un moyen de mesurer objectivement si l'image restait claire pour un daltonien.

Imaginez que l'image est une partition musicale.

Pour nous, les voyants, la musique est riche et complexe.
Pour un daltonien, certaines notes (les couleurs) disparaissent.

Les chercheurs ont inventé une nouvelle règle de mesure appelée CVDLoss.

L'analogie : Imaginez que vous tracez les contours d'un dessin avec un feutre très fin. Si vous regardez le dessin avec des lunettes de daltonien, certains traits deviennent flous ou disparaissent.
Le CVDLoss mesure exactement combien de traits ont disparu ou changé quand on regarde l'image à travers les lunettes du daltonien.
- Score bas (0) : Super ! Les contours sont toujours nets. L'image est accessible.
- Score haut : Catastrophe. Les contours ont disparu, les détails sont devenus une bouillie indistincte.

🧪 L'Expérience : Le Test de Vérité

Ils ont demandé au robot de peindre 8 types de scènes différentes (des bonbons, des parrots, des rues, des fleurs, etc.) en utilisant 4 types de commandes :

Normale : « Peins des fleurs. »
Générale : « Peins des fleurs avec une palette pour daltoniens. »
Spécifique : « Peins des fleurs adaptées aux daltoniens rouges (protanopie). »
Spécifique : « Peins des fleurs adaptées aux daltoniens verts (deutéranopie). »

Ensuite, ils ont utilisé leur règle CVDLoss pour voir si les images étaient meilleures.

🚨 Les Résultats : Le Robot est Confus !

C'est ici que ça devient intéressant. Le résultat n'est pas celui qu'on espérait.

Le robot ne comprend pas vraiment la demande : Quand on lui dit « fais attention aux daltoniens », il ne sait pas toujours comment réagir. Parfois, il fait mieux, mais souvent, il fait pire !
Ça dépend du sujet :
- Pour les bonbons, la demande spéciale a aidé.
- Pour les fleurs, la demande spéciale a créé le chaos ! Les couleurs ont été changées de façon à ce que les pétales et les feuilles se fondent les uns dans les autres pour un daltonien.
Le verdict : Demander gentiment au robot de faire attention ne suffit pas. Il n'a pas été « éduqué » spécifiquement pour respecter ces règles d'accessibilité. Il essaie de deviner, et ses devinettes sont imprévisibles.

💡 La Conclusion : Pourquoi c'est important ?

Ce papier nous apprend deux choses principales :

Ne comptez pas uniquement sur la magie des mots : Dire « rends ça accessible » à une IA générative ne garantit pas un résultat accessible. C'est comme demander à un enfant de dessiner un cercle parfait sans lui montrer comment faire : il va essayer, mais le résultat sera bancal.
L'outil CVDLoss est un héros : Cette nouvelle règle de mesure est très utile. Elle permet de détecter immédiatement si une image générée va poser problème aux daltoniens, avant même qu'une personne ne la regarde. C'est un outil de diagnostic essentiel pour les développeurs.

En résumé : Les IA actuelles sont de superbes artistes, mais elles sont encore de mauvaises élèves en matière d'inclusion. Pour l'instant, il faut continuer à vérifier et corriger leurs œuvres après coup, car leur « bonne volonté » via les commandes textuelles ne suffit pas encore.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'intégration croissante des modèles génératifs (comme la diffusion text-to-image) dans les flux de travail créatifs soulève une question critique : ces modèles peuvent-ils garantir l'accessibilité des couleurs pour les personnes souffrant de déficience visuelle des couleurs (CVD) simplement via la conception de prompts (invites de texte), sans nécessiter de post-traitement ?

Bien que les méthodes de « daltonisation » (post-traitement) existent pour améliorer l'accessibilité, les modèles de diffusion actuels ne sont pas explicitement entraînés pour respecter des contraintes d'accessibilité. Les lignes directrices existantes se concentrent souvent uniquement sur le contraste de luminance, négligeant les conflits perceptuels liés à la teinte et à la saturation, qui sont cruciaux pour les utilisateurs CVD (notamment le daltonisme rouge-vert : protanopie et deutéranopie). L'étude vise à évaluer systématiquement si des prompts spécifiques peuvent guider le modèle pour générer des images accessibles et à quantifier les pertes de structure perceptuelle sous simulation CVD.

2. Méthodologie

L'approche proposée repose sur quatre piliers principaux :

A. Construction du Jeu de Données et Design des Prompts

Modèle : Génération d'images via Stable Diffusion 3.5-large.
Catégories : Huit catégories visuellement et sémantiquement distinctes ont été sélectionnées pour couvrir des scènes dominées par la couleur (ex: fleurs, fruits) et par la structure (ex: dessins animés, vues urbaines) : candy, cartoon, coral reef, flower, fruit, parrot, poster, street view.
Stratégies de Prompt : Pour chaque catégorie, quatre types de prompts ont été testés (10 images chacun, résolution 1024x1024) :
1. Standard : Descriptif visuel simple (ex: « Un bol de fruits »).
2. Conscient du daltonisme : Ajout de « avec une palette adaptée aux daltoniens rouge-vert ».
3. Conscient de la protanopie : Ajout de « avec une palette adaptée à la protanopie ».
4. Conscient de la deutéranopie : Ajout de « avec une palette adaptée à la deutéranopie ».
Total : 320 images générées.

B. Simulation de la Déficience Visuelle

Utilisation du modèle physiologique de [VBM99] (implémenté via la bibliothèque DaltonLens) pour simuler la protanopie (aveuglement au rouge) et la déutéranopie (aveuglement au vert) à leur sévérité maximale.
Les prompts spécifiques à une déficience ne sont évalués que sur la simulation correspondante, tandis que les prompts standards et « daltoniens » sont évalués sur les deux simulations.

C. Nouvelle Métrique : Le CVDLoss

Pour quantifier l'accessibilité, les auteurs introduisent CVDLoss, une métrique basée sur les gradients perceptuels, conçue pour mesurer la dégradation des indices structurels (bords, textures) sous simulation CVD.

Principe : Comparaison des cartes de magnitude de gradient ( $G$ ) de l'image originale ( $I$ ) et de sa simulation CVD ( $I_{CVD}$ ).
Calcul : Utilisation des différences de couleur HyAB dans l'espace colorimétrique OKLab pour capturer les différences 3D au-delà de la simple luminance.
Formule :
$CVDLoss(I, I_{CVD}) = \frac{\sum_p (G(I)_p - G(I_{CVD})_p)^2}{N \cdot \max_p G(I)_p^2}$
Où $p$ indexe les pixels et $N$ le nombre total de pixels.
Interprétation : Une valeur plus faible indique que la structure perçue par un utilisateur CVD est similaire à celle d'un utilisateur à vision normale (meilleure accessibilité structurelle).

D. Validation Synthétique

Pour valider CVDLoss, les auteurs ont appliqué une méthode de daltonisation (post-traitement optimisant les couleurs pour les CVD) sur les images générées par des prompts standards. L'hypothèse est que les images daltonisées devraient présenter une réduction de CVDLoss par rapport aux images originales.

3. Résultats Clés

A. Validation de la Métrique

La métrique CVDLoss réagit de manière cohérente aux transformations orientées accessibilité.
Après daltonisation, une réduction significative de CVDLoss est observée pour la protanopie sur la plupart des catégories, confirmant que la méthode préserve mieux la structure locale.
Pour la déutéranopie, les résultats sont plus variables (parfois une augmentation), ce qui s'explique par le fait que les méthodes de daltonisation ne sont pas conçues spécifiquement pour minimiser les pertes de gradients, mais la métrique capture cette nuance de manière stable.

B. Performance des Prompts dans les Modèles de Diffusion

L'application de CVDLoss aux sorties du modèle révèle des résultats mitigés et imprévisibles :

Absence de tendance universelle : L'impact des prompts orientés accessibilité dépend fortement de la catégorie de contenu et du type de déficience.
Instabilité :
- Les catégories à couleurs vives (candy, flower) montrent une grande variabilité. Par exemple, les prompts d'accessibilité améliorent souvent le candy mais dégradent la structure perçue du flower (augmentation de CVDLoss).
- Les catégories structurelles (cartoon, poster, street view) deviennent souvent plus instables avec les prompts génériques « daltoniens », montrant une distribution élargie et une perturbation perceptuelle accrue.
Prompting Spécifique : Les prompts ciblant une déficience spécifique (ex: « protanopia-friendly ») atténuent partiellement les problèmes, mais leur efficacité varie selon la composition de la scène.
Conclusion sur le prompting : Les modèles de diffusion ne comprennent pas intrinsèquement les contraintes d'accessibilité. L'ingénierie de prompts seule ne garantit pas des résultats fiables et peut même introduire de l'instabilité, en particulier dans les scènes dominées par la couleur.

4. Contributions et Signification

Nouvelle Métrique (CVDLoss) : Introduction d'un outil d'évaluation quantitatif sensible aux changements de structure et de texture induits par les déficiences visuelles, comblant le vide laissé par les métriques basées uniquement sur la luminance.
Évaluation Systématique : Première étude évaluant rigoureusement la capacité des modèles de diffusion à répondre à des prompts d'accessibilité sur un large éventail de catégories sémantiques.
Insights sur les Limites des Modèles : Démonstration que les modèles génératifs pré-entraînés ne sont pas capables de garantir l'accessibilité par le simple biais du langage naturel. Cela souligne la nécessité d'un apprentissage supervisé explicite pour l'accessibilité ou de pipelines de post-traitement fiables.
Utilité Pratique : CVDLoss se positionne comme un outil de diagnostic précieux pour évaluer et améliorer les pipelines de génération d'images et de post-traitement, permettant d'identifier où les modèles échouent à produire des sorties accessibles.

5. Limites et Perspectives

L'étude se limite à un seul modèle de diffusion et à un ensemble restreint de formulations de prompts. De plus, la métrique se concentre sur les régions adjacentes et ne résout pas encore les conflits entre régions non adjacentes mais sémantiquement liées. Les travaux futurs devront inclure des études utilisateurs avec des personnes CVD et explorer d'autres méthodes de daltonisation.