A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Each language version is independently generated for its own context, not a direct translation.

🏥 Le Problème : L'Échographie, un Art difficile

Imaginez que vous êtes un chef cuisinier (le médecin échographiste). Votre travail consiste à prendre une photo parfaite d'un bébé dans le ventre de sa mère. Mais ce n'est pas n'importe quelle photo : il faut que ce soit une "photo standard" précise pour mesurer la taille du bébé, vérifier son cœur, ses os, etc.

Le problème, c'est que le bébé bouge, la position change, et l'image est souvent floue ou difficile à lire. Pour devenir un expert, il faut des années d'entraînement. De plus, il y a une pénurie de ces experts : dans certains pays, il manque jusqu'à 18 % des médecins nécessaires !

🤖 La Solution "Boîte Noire" et son Problème

Pour aider, les scientifiques ont créé des intelligences artificielles (des robots) capables de dire : "Tiens, c'est une vue du ventre" ou "C'est une vue de la tête". Ces robots sont très forts, parfois même meilleurs que les humains.

Mais il y a un gros hic : ce sont des "boîtes noires".
C'est comme si un robot vous disait : "Je suis sûr à 100 % que c'est un ventre, mais je ne peux pas vous dire pourquoi."
Pour un médecin, c'est dangereux. Si le robot se trompe, il faut savoir pourquoi pour ne pas faire d'erreur de diagnostic. Le médecin a besoin de comprendre la logique derrière la décision, pas juste le résultat.

💡 L'Idée Géniale : Apprendre au Robot à "Penser" comme un Médecin

Les auteurs de ce papier ont eu une idée brillante : au lieu de forcer le robot à regarder chaque pixel de l'image (comme un robot qui compte les grains de sable), ils vont lui apprendre à penser comme un humain, en utilisant des concepts médicaux.

Voici comment ils ont fait, étape par étape, avec une analogie :

1. La Chasse aux Indices (L'Identification des Concepts)

Quand un médecin regarde une échographie, il ne cherche pas "une image". Il cherche des indices spécifiques, comme un détective.

Pour la vue du ventre, il cherche : une bulle d'estomac (comme une petite bulle d'air), une veine (comme un tuyau) et la colonne vertébrale (comme une chaîne de perles).
Pour la vue de la tête, il cherche : des structures précises comme le thalamus.

Les chercheurs ont programmé le robot pour qu'il repère d'abord ces indices (qu'ils appellent "concepts médicaux") au lieu de regarder l'image entière en vrac. C'est comme si on disait au robot : "Ne regarde pas tout le tableau, cherche juste le chat et le chien."

2. Le Réseau de Relations (Le Graphe)

Une fois que le robot a trouvé les indices (l'estomac, la colonne, etc.), il ne les laisse pas seuls. Il les relie entre eux avec des lignes invisibles.
Imaginez un réseau social ou un plan de métro :

Le nœud "Estomac" est connecté au nœud "Colonne".
Le nœud "Thalamus gauche" est connecté au "Thalamus droit".

Le robot utilise une technologie appelée GCN (Réseau de Neurones à Graphes) pour comprendre comment ces indices sont disposés les uns par rapport aux autres. C'est comme si le robot se demandait : "L'estomac est bien à gauche de la colonne ? Oui. La veine est bien au bon endroit ? Oui. Donc, c'est une bonne image."

3. L'Explication (Le "Pourquoi")

C'est ici que la magie opère. Quand le robot prend une décision, il peut maintenant dire :

"Je pense que c'est une vue du ventre PARCE QUE j'ai trouvé l'estomac ici, la colonne là, et qu'ils sont bien placés l'un par rapport à l'autre."

Au lieu de montrer une tache floue sur l'image (ce qui est souvent incompréhensible pour un humain), le robot montre les concepts clés qu'il a utilisés. C'est comme si le robot vous montrait ses notes de cours : "J'ai coché ces cases, donc ma réponse est correcte."

🧪 Les Résultats : Les Médecins sont Ravis

Les chercheurs ont testé leur méthode sur de vraies images d'hôpitaux.

Performance : Le robot est aussi performant que les meilleurs modèles existants pour classer les images.
Confiance : Quand ils ont montré les explications à des médecins réels, ceux-ci ont dit : "Ah, enfin ! On comprend sa logique. On peut lui faire confiance."

Les médecins ont préféré cette méthode car elle parle leur langage (anatomie, positions) au lieu de leur parler en "pixels".

🎯 En Résumé

Imaginez que vous essayez d'enseigner à un enfant à reconnaître un chien.

L'ancienne méthode (Boîte noire) : Vous montrez 1000 photos de chiens et l'enfant finit par dire "Chien" sans savoir pourquoi. Si vous lui montrez un loup, il pourrait dire "Chien" par erreur, et vous ne saurez pas pourquoi.
La nouvelle méthode (Ce papier) : Vous dites à l'enfant : "Regarde les oreilles pointues, la queue et les pattes. Si tu vois ces trois choses ensemble, c'est un chien."

Si l'enfant se trompe, vous pouvez voir quelle "règle" il a mal appliquée. C'est exactement ce que ce papier propose pour les robots qui regardent les bébés dans le ventre : rendre l'IA transparente, logique et digne de confiance pour les médecins.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La détection automatique des plans de balayage standard lors des échographies fœtales au deuxième trimestre est une tâche complexe nécessitant une expertise médicale approfondie. Bien que les réseaux de neurones profonds (DNN) aient démontré des performances élevées dans cette tâche, leur application clinique est limitée par leur manque de transparence et d'interprétabilité.
Les méthodes d'explication actuelles (comme les cartes de saillance basées sur les pixels) souffrent de trois défauts majeurs :

Elles se concentrent uniquement sur les relations pixel à pixel, ignorant les relations entre les structures anatomiques.
Les explications sont souvent floues et difficiles à identifier pour les radiologues.
Elles ne fournissent pas d'évaluation systématique alignée sur le raisonnement clinique.

L'objectif est donc de créer un système d'IA capable de classifier les plans échographiques tout en fournissant des explications compréhensibles par les cliniciens, basées sur leur cognition et leurs connaissances médicales préalables.

2. Méthodologie

Les auteurs proposent un cadre d'explication cognitif basé sur des concepts médicaux et utilisant des Graph Convolutional Networks (GCN). Le pipeline se décompose en quatre étapes principales :

A. Identification des concepts médicaux (avec connaissances préalables)

Au lieu d'analyser l'image brute, le système imite le processus de raisonnement de l'échographiste qui cherche d'abord des structures anatomiques clés.

Sélection des plans : L'étude se concentre sur trois plans standards : le plan abdominal fœtal (FASP), le plan thalamique (FTSP) et le plan du fémur (FFSP).
Extraction des concepts :
- Utilisation de l'algorithme SLIC (Simple Linear Iterative Clustering) pour obtenir des superpixels candidats.
- Application de connaissances anatomiques préalables (position, forme, texture, luminosité) pour filtrer et localiser les structures clés (ex: vésicule biliaire, veine ombilicale, colonne vertébrale, thalamus, fémur).
- Utilisation de Grad-CAM pour contraindre la recherche aux zones d'intérêt (avant-plan) et exclure les tissus non pertinents, palliant ainsi les limites des méthodes d'extraction de concepts sur les images médicales à faible contraste.

B. Construction du graphe de concepts

L'image échographique est transformée en une structure de graphe $G = (V, E)$ :

Nœuds ( $V$ ) : Représentent les concepts médicaux extraits. Leurs attributs sont des vecteurs de caractéristiques de haut niveau extraits par un classifieur CNN pré-entraîné.
Arêtes ( $E$ ) : Représentent les relations entre les concepts. Elles sont définies par deux facteurs :
1. La position relative spatiale dans l'image.
2. La corrélation basée sur les connaissances médicales préalables (ex: la relation fixe entre la colonne vertébrale et l'estomac dans un plan abdominal).

C. Apprentissage par GCN

Un réseau de neurones à graphes (GCN) est utilisé pour modéliser les interactions entre ces concepts.

Le GCN agrège les messages entre les nœuds voisins pour apprendre les dépendances de haut ordre.
Un coefficient pré-défini ( $\alpha$ ) mesure l'interdépendance entre les concepts.
Un réseau MLP (Multi-Layer Perceptron) finalise la classification en produisant une distribution de probabilité sur les classes de plans standards.

D. Expliquer post-hoc (Post-hoc Graph Explainer)

Pour interpréter les décisions du modèle "boîte noire", trois techniques d'explication de graphes sont appliquées :

Analyse de sensibilité (SA) : Utilise le gradient par rapport aux entrées.
Intégration des gradients (IG) : Évalue l'importance des caractéristiques en comparant l'entrée à une ligne de base.
Grad-CAM pour graphes : Combine les activations et les gradients pour générer des cartes d'activation de classe au niveau des concepts.

3. Contributions Clés

Cadre interprétable basé sur les concepts : Proposition d'un modèle qui explique les décisions non pas par des pixels, mais par des concepts médicaux validés par les échographistes.
Modélisation des relations spatiales : Utilisation d'un GCN pour encoder les relations spatiales et sémantiques entre les structures anatomiques, simulant le processus de prise de décision des médecins.
Validation clinique : Évaluation qualitative et quantitative rigoureuse des techniques d'explication graphique, validée par des échographistes experts qui ont confirmé l'utilité clinique de la méthode.

4. Résultats Expérimentaux

L'étude a été menée sur un jeu de données privé provenant de deux hôpitaux (Shenzhen), comprenant des images de plans FASP, FTSP, FFSP et d'autres vues.

Performance de classification :
- Les modèles CNN de base (ResNet, VGG, DenseNet, MobileNet) ont atteint des performances élevées (ex: ResNet50 sur le jeu de données de validation : ~90% de précision).
- Les classifieurs GCN ont également démontré une grande efficacité, avec DenseNet121 et MobileNetV2 obtenant les meilleurs scores (précision et rappel > 95% sur le jeu de test).
- Le modèle a montré une bonne capacité de généralisation sur les données d'un hôpital externe (Hôpital B), bien que légèrement inférieure à celle du jeu de données d'entraînement, ce qui est attendu.
Évaluation qualitative (Interprétabilité) :
- Une étude avec 5 médecins a comparé la méthode proposée avec Grad-CAM et CAMERAS.
- Résultat : Les médecins ont jugé que la méthode proposée était plus utile cliniquement. Contrairement aux méthodes qui mettent simplement en évidence des régions floues, la méthode basée sur les concepts permet de visualiser le raisonnement logique (ex: "le modèle a identifié la colonne vertébrale et la vésicule biliaire, donc c'est un plan abdominal").
- Les médecins ont confirmé que cela augmentait leur confiance dans le modèle et aidait à identifier les erreurs de décision.

5. Signification et Conclusion

Ce travail représente une avancée significative vers l'adoption de l'IA en milieu clinique pour l'échographie fœtale.

Confiance clinique : En alignant l'explication de l'IA sur la cognition humaine (concepts anatomiques et leurs relations), le système surmonte la barrière de la "boîte noire".
Robustesse : La méthode est capable de détecter les échecs de décision en analysant les relations entre les concepts, offrant ainsi un mécanisme de vérification plus fiable.
Perspectives : Bien que l'étude soit limitée par la taille du jeu de données externe et l'absence de traitement vidéo en temps réel, elle ouvre la voie à des systèmes d'aide au diagnostic qui ne se contentent pas de prédire, mais qui expliquent leur raisonnement selon la logique des praticiens.

En résumé, l'article propose une solution où l'IA ne se contente pas de dire "ceci est un plan abdominal", mais explique "ceci est un plan abdominal car j'ai détecté la colonne vertébrale, la vésicule biliaire et la veine ombilicale dans leurs positions relatives attendues".