SemCovNet: Towards Fair and Semantic Coverage-Aware Learning for Underrepresented Visual Concepts

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : L'Injustice Invisible dans les Images

Imaginez que vous apprenez à un enfant à reconnaître des animaux en lui montrant des milliers de photos.

Si vous lui montrez 100 photos de chiens et seulement 1 photo de girafe, il deviendra un expert pour les chiens, mais il sera complètement perdu face à une girafe. C'est le problème classique du "déséquilibre de classes".

Mais les chercheurs ont découvert un problème encore plus subtil et plus sournois, qu'ils appellent l'Inégalité de Couverture Sémantique (SCI).

L'analogie du Dictionnaire Manquant :
Imaginez que vous apprenez à un détective à identifier des suspects.

Vous lui montrez 1000 photos de suspects avec une moustache.
Vous lui montrez 1000 photos de suspects avec des lunettes.
Mais vous ne lui montrez que 5 photos de suspects avec une moustache ET des lunettes.

Même si le nombre total de photos est équilibré, le détective va échouer lamentablement dès qu'il verra un homme avec une moustache et des lunettes. Il a appris les concepts séparément, mais pas leur combinaison rare.

Dans le domaine médical (comme pour le cancer de la peau), c'est grave : si un modèle n'a jamais assez vu de "lésions bleues" ou de "taches irrégulières" sur un certain type de peau, il risque de rater un diagnostic crucial pour un patient précis.

🛠️ La Solution : SemCovNet (Le "Correcteur de Vision")

Les auteurs proposent une nouvelle intelligence artificielle appelée SemCovNet. Pour comprendre comment elle fonctionne, imaginons qu'elle est comme un chef cuisinier très méticuleux qui prépare un repas pour tout le monde.

1. La Carte des Ingrédients (SDM - Semantic Descriptor Map)

Avant de commencer à cuisiner, le chef regarde la carte des ingrédients disponibles.

Il sait que l'ingrédient "sel" est abondant (très fréquent).
Il sait que l'ingrédient "safran" est très rare (très peu présent).
SemCovNet crée une carte mentale qui dit : "Attention, on a très peu d'exemples de ce concept précis, il faut faire très attention."

2. L'Attention Dynamique (DAM - Descriptor Attention Modulation)

C'est le moment de cuisiner. Un chef normal mettrait la même quantité d'attention sur tous les ingrédients.
Mais SemCovNet, lui, agit comme un chef qui ajuste ses lunettes.

Quand il voit un ingrédient rare (comme le safran), il zoome dessus. Il dit : "Attends, je n'ai pas beaucoup vu ça, je vais concentrer toute mon énergie pour bien comprendre ce que c'est."
Il réduit l'attention sur les ingrédients trop communs pour ne pas se laisser aveugler par la routine.

3. L'Alignement (DVA - Descriptor-Visual Alignment)

C'est comme si le chef vérifiait constamment : "Est-ce que ce que je vois dans l'assiette correspond bien à ce que j'ai appris dans le livre de cuisine ?"
Le modèle force l'ordinateur à faire le lien direct entre ce qu'il voit (l'image) et les mots qui la décrivent (les concepts), même si ces mots sont rares.

4. Le Juge de Paix (CDI - Coverage Disparity Index)

Enfin, SemCovNet a un juge interne. Ce juge vérifie une règle simple :

"Est-ce que je fais plus d'erreurs sur les choses que j'ai peu vues ?"

Si la réponse est "Oui", le juge pousse le modèle à corriger son tir. Il force le modèle à être aussi bon sur les cas rares que sur les cas fréquents. C'est ce qu'on appelle la justice sémantique.

🏆 Pourquoi c'est important ?

Dans le monde réel, surtout en médecine :

Avant : Une IA pouvait être très précise en moyenne, mais rater des cancers rares chez des patients spécifiques (par exemple, des taches de peau rares sur des peaux foncées). C'était injuste et dangereux.
Avec SemCovNet : Le modèle apprend à être équitable. Il ne se contente pas d'être "moyennement bon", il s'assure de ne pas abandonner les cas difficiles ou rares.

En Résumé

Imaginez que vous apprenez à un élève pour un examen.

Les modèles actuels apprennent tout ce qui est facile et fréquent, et oublient ce qui est rare.
SemCovNet est un professeur qui dit : "Je vois que tu as du mal avec les exercices 42 et 43 parce qu'il y en a peu dans le livre. On va s'entraîner spécifiquement dessus pour que tu sois aussi fort dessus que sur les autres."

C'est une avancée majeure pour rendre l'intelligence artificielle plus juste, plus fiable et capable de comprendre le monde dans toute sa complexité, pas seulement dans ses parties les plus courantes.

Each language version is independently generated for its own context, not a direct translation.

Titre : SemCovNet : Vers un apprentissage équitable et conscient de la couverture sémantique pour les concepts visuels sous-représentés

1. Problématique : Le Déséquilibre de la Couverture Sémantique (SCI)

Les modèles de vision par ordinateur modernes reposent de plus en plus sur des représentations sémantiques riches (descripteurs, attributs, contexte) au-delà des simples étiquettes de classes. Cependant, les auteurs identifient un biais préexistant mais négligé : le Déséquilibre de la Couverture Sémantique (Semantic Coverage Imbalance - SCI).

Définition du SCI : Contrairement au déséquilibre classique des classes (longue traîne des catégories), le SCI se produit au niveau des descripteurs sémantiques (ex: "voile bleu-blanc", "pigmentation irrégulière" en dermatologie). Même dans des jeux de données équilibrés en termes de classes, certains concepts visuels interprétables apparaissent très rarement ou sont absents dans certaines combinaisons de sous-groupes (démographie, contexte).
Conséquences : Ce déséquilibre entraîne un apprentissage biaisé des caractéristiques, une mauvaise généralisation aux concepts rares et une interprétabilité instable. Les modèles actuels tendent à ignorer les descripteurs sous-représentés, créant des sources cachées d'injustice et réduisant la fiabilité des prédictions.
Lacune actuelle : Les méthodes existantes de "fairness" (équité) se concentrent sur l'équilibre des classes ou des sous-groupes démographiques, mais ignorent la composition sémantique interne des images.

2. Méthodologie : L'Architecture SemCovNet

Pour atténuer le SCI, les auteurs proposent SemCovNet, un cadre d'apprentissage qui intègre explicitement la couverture des descripteurs dans le processus d'apprentissage visuel. L'architecture repose sur trois piliers principaux :

A. Carte de Descripteur Sémantique (Semantic Descriptor Map - SDM)

Ce module génère des cartes d'attention spatiales spécifiques aux descripteurs.
Il fusionne deux sources d'information :
1. Priors sémantiques : Basés sur les vecteurs de probabilité des descripteurs (ex: issus d'un modèle comme MONET).
2. Activations visuelles : Issues de l'image via un backbone (ex: EfficientNet).
Une fonction de porte adaptative ( $g(p)$ ) équilibre la contribution des descripteurs et des caractéristiques visuelles, permettant au modèle de localiser spatialement les concepts sémantiques même lorsqu'ils sont rares.

B. Modulation de l'Attention par Descripteur (Descriptor Attention Modulation - DAM)

Ce module intègre les priors descripteurs dans l'espace des caractéristiques visuelles via une modulation de canal (style FiLM) et un filtrage spatial.
Gestion de l'incertitude : Le module calcule l'incertitude des descripteurs (variance de Bernoulli). Les descripteurs à haute confiance amplifient l'attention spatiale, tandis que ceux à faible confiance (incertains) sont atténués pour assurer la robustesse.

C. Alignement Descripteur-Visuel (Descriptor–Visual Alignment - DVA)

Une perte de contraste (Contrastive Loss) aligne les embeddings visuels avec les embeddings des descripteurs.
Cela force le modèle à associer cohéremment les zones visuelles aux concepts sémantiques correspondants, améliorant la transférabilité vers de nouveaux domaines.

D. Régularisation par l'Indice de Disparité de Couverture (CDI)

C'est le cœur de l'approche "Fairness". Les auteurs définissent l'Indice de Disparité de Couverture (Coverage Disparity Index - CDI) comme la corrélation de Pearson entre la couverture d'entraînement d'un groupe sémantique (SCG) et son taux d'erreur.
Objectif : Minimiser cette corrélation. Si un descripteur rare a un taux d'erreur élevé, le CDI est élevé. La régularisation $L_{CDI}$ pénalise cette dépendance, forçant le modèle à réduire les erreurs sur les concepts peu couverts.

3. Contributions Clés

Conceptualisation du SCI : Identification et formalisation du déséquilibre de couverture sémantique comme une source fondamentale d'injustice dans la vision par ordinateur, distincte du déséquilibre de classe.
Cadre SemCovNet : Proposition d'une architecture intégrant SDM, DAM et DVA pour apprendre des représentations interprétables et généralisables pour les descripteurs rares.
Métrique et Régularisation CDI : Introduction du CDI comme métrique d'équité sémantique et comme terme de régularisation pour décorréler l'erreur de la couverture des données.
Validation Empirique : Démonstration que l'équité sémantique est nécessaire même dans des jeux de données équilibrés en termes de classes.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux jeux de données dermatologiques (MILK10k déséquilibré et ISIC-DICM-17K équilibré) et étendues à CelebA (visage).

Performance Globale : SemCovNet surpasse les modèles de base (EfficientNet, ViT) et les méthodes d'équilibrage classiques (CBL, ASL, GroupDRO) en termes de Sensibilité à 95% de Spécificité (S@95) et de Macro-F1, tout en maintenant une faible erreur d'étalonnage (ECE).
Équité Sémantique :
- SemCovNet réduit considérablement le CDI (jusqu'à 81% de réduction sur MILK10k), indiquant que l'erreur n'est plus corrélée à la rareté du descripteur.
- Il améliore le TPRw (Taux de Vrais Positifs minimum sur les SCGs les plus faibles), prouvant une meilleure performance sur les concepts sous-représentés.
Robustesse : Le modèle reste performant même avec des descripteurs "mous" (probabilistes) et incertains, et généralise bien aux domaines non médicaux (CelebA).
Analyse d'ablation :
- La fusion hybride (gated) dans le SDM est supérieure aux approches purement descriptives ou purement visuelles.
- L'ordre des modules (Attention $\to$ DAM vs DAM $\to$ Attention) impacte la performance selon la fiabilité des descripteurs (les descripteurs fiables bénéficient d'une modulation précoce).
- La régularisation CDI est essentielle : sans elle, la corrélation erreur-couverture reste élevée.

5. Signification et Impact

Ce travail marque une avancée significative en établissant que l'équité dans la vision par ordinateur ne peut se limiter à l'équilibre des classes ou des groupes démographiques.

Nouveau Paradigme : Il déplace le focus vers l'équité au niveau des concepts visuels interprétables, crucial pour des domaines sensibles comme la médecine (où un signe clinique rare mais critique ne doit pas être ignoré).
Interprétabilité : En liant explicitement les descripteurs aux features visuelles, SemCovNet rend les décisions du modèle plus transparentes et justifiables.
Généralité : La méthode propose un cadre applicable à tout domaine où des concepts interprétables (radiologie, pathologie, vision fine) coexistent avec des distributions de données déséquilibrées.

En résumé, SemCovNet fournit une solution technique robuste pour détecter et corriger les biais liés à la rareté des concepts sémantiques, garantissant ainsi des modèles de vision plus fiables, équitables et interprétables.