FixationFormer: Direct Utilization of Expert Gaze Trajectories for Chest X-Ray Classification

Each language version is independently generated for its own context, not a direct translation.

🩺 FixationFormer : Quand l'ordinateur apprend à "regarder" comme un médecin

Imaginez que vous essayez d'apprendre à un enfant à reconnaître un chat sur une photo. Si vous lui montrez juste l'image, il pourrait se concentrer sur le fond ou sur une oreille qui dépasse. Mais si vous lui dites : "Regarde ici, c'est là que se trouve le nez !" en pointant du doigt, il comprend beaucoup plus vite.

C'est exactement le problème que les chercheurs de l'Université de Münster ont voulu résoudre avec les rayons X médicaux.

1. Le Problème : Les ordinateurs regardent partout, les experts regardent juste là

Les médecins radiologues sont des experts. Quand ils examinent une radio de thorax, leurs yeux ne vagabondent pas au hasard. Ils suivent un chemin précis, s'arrêtant (ce qu'on appelle des fixations) sur les zones suspectes : une tache blanche ici, une ombre là. C'est une carte au trésor de leur raisonnement.

Jusqu'à présent, les ordinateurs (les intelligences artificielles) avaient du mal à utiliser cette carte.

L'ancienne méthode : On prenait les mouvements des yeux du médecin et on les transformait en un "nuage de points" ou une carte de chaleur (un heatmap) floue. C'est comme essayer de comprendre une conversation en regardant juste une photo de la bouche de quelqu'un qui parle : on perd le rythme et la séquence des mots.
Le problème : Les ordinateurs modernes (les CNN) sont excellents pour voir des images, mais ils ne sont pas très doués pour comprendre des séquences de mouvements dans le temps.

2. La Solution : FixationFormer, le traducteur de regards

Les auteurs ont créé FixationFormer. Imaginez-le comme un chef d'orchestre très intelligent qui fait jouer deux instruments ensemble :

L'image (la radio).
Le regard (la trajectoire des yeux du médecin).

Au lieu de transformer le regard en une image floue, FixationFormer le traite comme une histoire.

Il prend chaque arrêt des yeux du médecin et le transforme en un "mot" (un jeton).
Il garde l'ordre : d'abord le médecin a regardé le cœur, puis les poumons, puis le diaphragme.
Il utilise une architecture appelée Transformer (la même technologie qui fait fonctionner les chatbots comme moi). Ces modèles sont naturellement doués pour comprendre les histoires et les séquences.

L'analogie : C'est comme si, au lieu de donner à l'ordinateur une photo de la radio, on lui donnait la photo ET le script exact de ce que le médecin a dit en la regardant : "Je commence par le haut à gauche, je descends vers le bas, je m'arrête 2 secondes ici...".

3. Comment ça marche ? (Le mécanisme de fusion)

Le système utilise deux types de "conversations" entre l'image et le regard :

La conversation à sens unique (Cross-Attention) : L'image demande au regard : "Hé, où dois-je regarder pour trouver la maladie ?". L'image met à jour sa compréhension en écoutant le médecin. C'est comme un étudiant qui écoute les conseils de son professeur.
La conversation à double sens (Two-Way Attention) : L'image et le regard se parlent en même temps. L'image dit au regard : "Regarde ici, c'est important !", et le regard dit à l'image : "Non, regarde plutôt là !". C'est une discussion intense.

4. Les Résultats : Qui gagne ?

Les chercheurs ont testé cette méthode sur trois bases de données de rayons X différents.

Le verdict : FixationFormer est un champion. Il bat ou égale les meilleurs systèmes existants.
La surprise : La méthode "conversation à sens unique" (où l'image écoute le regard) s'est révélée plus stable et efficace que la discussion à double sens. Parfois, il vaut mieux que l'élève écoute le maître sans essayer de le contredire tout de suite !
L'avantage clé : Même quand l'ordinateur n'est pas très fort en radiologie (quand on utilise un modèle plus simple), l'ajout du "regard du médecin" l'aide énormément à faire de meilleurs diagnostics. C'est comme donner un manuel de formation à un apprenti : il progresse beaucoup plus vite.

En résumé

FixationFormer est une nouvelle façon de faire travailler les ordinateurs ensemble avec l'humain. Au lieu de simplement montrer une photo à l'IA, on lui montre comment un expert regarde cette photo.

C'est comme passer d'un élève qui regarde une carte au hasard, à un élève qui suit le doigt du professeur. Le résultat ? Des diagnostics plus précis, plus rapides, et une IA qui comprend mieux la logique humaine derrière l'image.

Le mot de la fin : L'avenir de la médecine assistée par ordinateur ne consiste pas seulement à avoir de meilleures images, mais à apprendre aux machines à voir comme nous.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'analyse d'images médicales, en particulier les radiographies thoraciques (CXR), repose traditionnellement sur des réseaux de neurones convolutifs (CNN). Cependant, ces modèles peinent souvent à capturer les nuances diagnostiques complexes dues au chevauchement des organes et à la nature bidimensionnelle des projections 3D.

Pour améliorer les performances, les chercheurs intègrent des informations auxiliaires, notamment les trajectoires de regard (gaze) des radiologues experts, qui révèlent leur raisonnement diagnostique. Le défi majeur réside dans l'intégration de ces données :

Nature des données : Les enregistrements de regard sont séquentiels, temporellement denses mais spatialement clairsemés, bruyants et variables d'un expert à l'autre.
Limites des approches actuelles : La plupart des méthodes existantes convertissent les trajectoires en cartes thermiques (heatmaps) 2D statiques pour les utiliser avec des CNN. Cette approche perd les dynamiques temporelles cruciales et peut être coûteuse en calcul.
Opportunité : Les architectures Transformers, conçues pour les données séquentielles et basées sur des mécanismes d'attention, semblent naturellement adaptées pour modéliser les trajectoires de regard, mais leur application directe aux trajectoires brutes dans le domaine médical reste peu explorée.

2. Méthodologie : FixationFormer

Les auteurs proposent FixationFormer, une architecture basée sur des Transformers qui intègre directement les trajectoires de regard sous forme de séquences de tokens, préservant ainsi leur structure temporelle et spatiale.

A. Représentation du Regard (Tokenisation)

Au lieu d'utiliser des cartes thermiques, le modèle transforme les trajectoires brutes en une séquence de tokens :

Filtrage : Les trajectoires brutes (souvent à 60 Hz) sont converties en une séquence de fixations (points où l'œil reste stable), éliminant le bruit des saccades.
Encodage : Chaque fixation est décrite par trois composantes :
- Position spatiale ( $C$ ) : Projétée via une couche linéaire apprenable.
- Durée ( $D$ ) : Projétée via une couche linéaire apprenable.
- Temps de début ( $S$ ) : Utilisé pour l'encodage de position temporelle (inspiré de l'architecture Transformer originale).
Token Final : Un token de regard $G$ est obtenu par la somme de ces trois encodages : $G = \text{PositionalEncoding}(S) + L_D D + L_C C$ .

B. Intégration avec les Images

Le modèle utilise un backbone Vision Transformer (ViT) pré-entraîné sur le jeu de données MIMIC-CXR pour extraire les caractéristiques de l'image. L'intégration des tokens de regard se fait via un module d'attention croisée composé de couches de type "decoder". Deux mécanismes sont explorés :

Cross-Attention (Image vers Regard) :
- Seules les caractéristiques de l'image sont mises à jour en s'attendant aux tokens de regard.
- Une encodage de position spatiale est ajouté à chaque couche pour maintenir la corrélation spatiale entre les patches d'image et les fixations.
- Cela permet d'enrichir la représentation visuelle avec les motifs de visualisation experts.
Two-Way Attention (Bidirectionnelle) :
- Extension du mécanisme précédent où les tokens de regard sont également mis à jour en s'attendant aux caractéristiques de l'image (fusion profonde bidirectionnelle).
- Contrairement aux tâches NLP, aucune masquage n'est appliqué : chaque token d'image peut accéder à toute la trajectoire de regard et vice-versa.

3. Contributions Clés

Première intégration directe : Présentation de la première méthode intégrant les trajectoires de regard brutes comme séquences de tokens dans une architecture Transformer pour la classification d'images médicales, évitant la perte d'information temporelle des heatmaps.
Tokenisation innovante : Une méthode robuste pour transformer les fixations (spatial, durée, temps) en tokens sémantiques compatibles avec les Transformers.
Mécanismes d'attention comparés : Une analyse comparative des stratégies d'attention unidirectionnelle (Cross-Attention) et bidirectionnelle (Two-Way) pour la fusion de modalités.
Preuve de concept sur plusieurs jeux de données : Validation sur trois benchmarks publics de radiographies thoraciques.

4. Résultats Expérimentaux

Les performances ont été évaluées sur trois jeux de données : CXR-Gaze, SIIM-ACR et Reflacx. Les métriques principales sont la précision (Accuracy), le F1-score et l'AUC.

Performance globale : FixationFormer atteint des performances de l'état de l'art (SOTA) sur deux des trois jeux de données et égale les meilleurs résultats sur le troisième.
- Sur CXR-Gaze, la variante Cross-Attention atteint 84,11 % de précision, surpassant les méthodes précédentes comme GazeGNN (83,18 %).
- Sur SIIM-ACR, la variante Two-Way obtient 86,40 %, égalant ou dépassant légèrement les méthodes de référence.
Impact du regard :
- Un modèle utilisant uniquement le regard (sans image) montre que les tokens de regard capturent une sémantique significative (précision bien au-dessus du hasard sur CXR-Gaze et Reflacx), bien que moins performante que l'image seule.
- L'ajout du regard à un backbone d'image puissant (MGCA) améliore les résultats, particulièrement sur le jeu de données difficile Reflacx (gain de ~5 % avec Cross-Attention).
- Avec un backbone plus faible (ViT pré-entraîné sur ImageNet), l'intégration du regard via Cross-Attention apporte des gains substantiels, prouvant que la méthode compense la faiblesse du modèle visuel.
Comparaison des architectures : La variante Cross-Attention (unidirectionnelle) s'est révélée plus stable et performante que la variante Two-Way sur la plupart des tâches, suggérant que la mise à jour des tokens de regard peut introduire de l'instabilité ou du bruit dans ce contexte spécifique.

5. Signification et Conclusion

Ce travail démontre que la représentation des trajectoires de regard comme des séquences de tokens dans un Transformer est une approche supérieure aux cartes thermiques statiques pour l'analyse médicale.

Avantages : Préservation de la dynamique temporelle, intégration fine des indices diagnostiques experts, et capacité à fonctionner même avec des backbones d'image moins performants.
Limites et Perspectives : L'étude révèle que la fusion bidirectionnelle n'est pas toujours bénéfique, soulignant la nécessité d'analyser plus finement les poids d'attention. Les auteurs prévoient d'étendre cette méthode à d'autres modalités d'imagerie médicale et tâches, à mesure que de nouveaux jeux de données avec suivi oculaire deviendront disponibles.

En résumé, FixationFormer ouvre une nouvelle voie pour l'intégration de l'intelligence humaine (via le regard) dans les systèmes d'aide au diagnostic, en exploitant la synergie naturelle entre les mécanismes d'attention des Transformers et les processus cognitifs des radiologues.