DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Each language version is independently generated for its own context, not a direct translation.

🧐 Le problème : Regarder dans le noir avec des lunettes sales

Imaginez que vous essayez de deviner où regarde quelqu'un dans une foule, mais avec deux gros obstacles :

La photo est floue : C'est comme essayer de lire un panneau de signalisation à 100 mètres de distance avec des lunettes sales. Les détails (comme la pupille) sont invisibles.
La tête et les yeux ne sont pas d'accord : Souvent, une personne tourne la tête d'un côté mais regarde de l'autre (comme un joueur de tennis qui suit la balle). Les anciennes méthodes se fiaient trop à la position de la tête et oubliaient ce que les yeux faisaient vraiment.

C'est là qu'intervient DHECA-SuperGaze, une nouvelle méthode développée par des chercheurs de Zagreb pour résoudre ce casse-tête.

🛠️ Les deux super-pouvoirs de la méthode

Pour réussir là où les autres échouent, l'équipe a créé un système avec deux "super-pouvoirs" principaux :

1. Le "Super-Zoom" (Super-Resolution)

Imaginez que vous avez une photo de basse qualité d'un visage. Au lieu de simplement l'agrandir (ce qui la rendrait encore plus floue), le système utilise une intelligence artificielle pour recréer les détails manquants.

L'analogie : C'est comme si vous aviez un vieux dessin au crayon et que vous utilisiez un pinceau magique pour le transformer en une peinture haute définition. Le système "devine" et reconstruit les contours de la tête pour qu'ils soient nets, même si l'image d'origine était petite. Cela permet au modèle de voir les yeux beaucoup plus clairement.

2. La "Conversation" entre la tête et les yeux (DHECA)

C'est le cœur de l'invention. Dans les anciennes méthodes, le système regardait la tête, puis les yeux, comme deux personnes qui ne se parlent pas. Ici, on crée un échange constant d'informations.

L'analogie : Imaginez un duo de détectives. L'un (la tête) dit : "Je regarde vers la gauche !". L'autre (les yeux) répond : "Non, attends, mes pupilles sont tournées vers la droite !".
Le module DHECA (Dual Head-Eye Cross-Attention) est comme un chef d'orchestre qui force ces deux détectives à se parler en temps réel. Il combine les indices de la position de la tête avec le regard précis des yeux pour trouver la direction exacte. C'est une conversation bidirectionnelle : les yeux aident à comprendre la tête, et la tête aide à comprendre les yeux.

🧹 Le grand nettoyage de printemps (La correction des données)

Avant même de construire leur système, les chercheurs ont fait une découverte incroyable : l'un des plus grands livres de recettes (le jeu de données Gaze360) contenait des erreurs.

Le problème : Sur certaines photos, les étiquettes indiquaient que les yeux appartenaient à la personne au centre, alors qu'en réalité, elles appartenaient à quelqu'un d'autre dans le fond de l'image. C'était comme si on apprenait à un élève à conduire en lui montrant des photos où le volant appartenait à un passager !
La solution : Les chercheurs ont passé en revue des milliers d'images, repéré les erreurs et réécrit les étiquettes. C'est comme si on avait nettoyé une carte routière avant de partir en voyage. Résultat : tous les modèles (pas seulement le leur) fonctionnent mieux avec ces nouvelles données corrigées.

🏆 Les résultats : Qui gagne la course ?

Pour tester leur invention, ils l'ont mise en compétition avec les meilleurs systèmes existants sur deux terrains de jeu (les jeux de données Gaze360 et GFIE).

En mode "Photo fixe" (Statique) : Leur système a réduit l'erreur de direction de 0,48° à 3° par rapport aux meilleurs concurrents.
En mode "Vidéo" (Temporel) : En regardant une séquence de mouvement, l'amélioration est encore plus impressionnante.
La généralisation : Le plus beau, c'est que leur système fonctionne aussi bien sur des données qu'il n'a jamais vues (comme un détective qui résout un nouveau crime sans avoir vu l'ancien).

💡 En résumé

DHECA-SuperGaze, c'est comme donner à un détective :

Des lunettes de vision nocturne (Super-Resolution) pour voir les détails flous.
Un traducteur instantané (Cross-Attention) pour que la tête et les yeux s'expliquent mutuellement leurs intentions.
Une carte routière corrigée (Nettoyage des données) pour ne plus se tromper de chemin.

Grâce à cette combinaison, le système devine où nous regardons avec une précision bien supérieure, que ce soit pour surveiller un examen, aider un conducteur fatigué ou permettre à une personne en situation de handicap de contrôler un ordinateur juste avec le regard.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'estimation du regard (gaze estimation) non contrainte vise à déterminer la direction du regard d'un sujet dans des environnements réels et non contrôlés ("in-the-wild"). Bien que cette technologie soit cruciale pour des applications comme la surveillance de la distraction des conducteurs, le contrôle des examens ou les interfaces homme-machine accessibles, elle fait face à deux défis majeurs dans les scénarios réels :

La faible résolution des images : Les images capturées dans la nature sont souvent de basse résolution, ce qui rend difficile l'extraction de détails fins nécessaires à l'analyse oculaire.
La modélisation insuffisante des interactions tête-œil : Les méthodes de l'état de l'art (SOTA) actuelles ne modélisent pas toujours efficacement la relation bidirectionnelle entre l'orientation de la tête et la position des yeux. De plus, une divergence pouvant atteindre 35° entre l'alignement de la tête et la direction du regard rend l'utilisation exclusive de l'image de la tête insuffisante.
Problèmes d'annotation : Les auteurs ont identifié des erreurs d'annotation critiques dans le jeu de données Gaze360, l'un des plus utilisés, où les boîtes englobantes (bounding boxes) des yeux et du visage correspondent parfois à d'autres personnes présentes dans l'image plutôt qu'au sujet cible.

2. Méthodologie : DHECA-SuperGaze

L'article propose une méthode d'apprentissage profond nommée DHECA-SuperGaze, qui combine la super-résolution (SR) et un mécanisme d'attention croisée dual.

A. Prétraitement et Super-Résolution (SR)

Entrées : Le système traite des images de tête et des images des yeux (gauche et droite).
Super-Résolution : Une étape de SR est appliquée spécifiquement aux images de tête (et non aux yeux) pour améliorer la résolution et les détails faciaux. Le modèle utilisé est Real-DRCT-GAN (basé sur DRCT), un modèle SOTA de super-résolution.
Traitement multi-échelle : L'image de tête super-résolue est redimensionnée et recadrée à quatre échelles différentes (224, 200, 175, 150) pour capturer des informations contextuelles à différentes résolutions.
Configuration Temporelle : Pour les séquences vidéo, le processus est appliqué à chaque timestep (généralement 7 images consécutives), avec un effet de zoom progressif vers l'image centrale puis de dézoom.

B. Architecture du Modèle

Le modèle repose sur un backbone hybride convolutionnel-transformer :

Backbones CNN : Deux réseaux ResNet18 distincts extraient les caractéristiques visuelles : l'un pour les images de tête multi-échelles et l'autre pour les images des yeux.
Module DHECA (Dual Head-Eye Cross-Attention) : C'est le cœur de l'innovation.
- Contrairement aux approches précédentes qui ne font qu'une attention unidirectionnelle (œil vers tête), le module DHECA permet une attention croisée bidirectionnelle.
- Les tokens (caractéristiques) de la tête et des yeux sont projetés en matrices Query (Q), Key (K) et Value (V).
- Le mécanisme calcule l'attention où les Query proviennent d'une branche (ex: tête) et les Keys/Values de l'autre (ex: yeux), et vice-versa. Cela permet un raffinement mutuel des caractéristiques visuelles.
- Ce bloc est répété sur plusieurs couches (4 blocs dans l'implémentation).
Prédiction : Les tokens de classification (CLS) issus des deux branches sont concaténés et passés dans un Perceptron Multicouche (MLP) pour prédire les angles de lacet (yaw) et de tangage (pitch). La prédiction utilise des transformations sinusoïdales et cosinusoïdales pour gérer la périodicité des angles.

3. Contributions Clés

Les auteurs présentent trois contributions majeures :

Correction du jeu de données Gaze360 : Ils ont détecté et corrigé des erreurs d'annotation où les boîtes de détection de visage/yeux ciblaient de mauvaises personnes. Ils fournissent les annotations rectifiées, montrant que cela améliore les performances de tous les modèles utilisant ces données.
Module DHECA : Introduction d'un module d'attention croisée dual (Tête $\leftrightarrow$ Œil) qui exploite pleinement le potentiel de l'interaction entre les caractéristiques de la tête et celles des yeux, surpassant les mécanismes d'attention auto (self-attention) ou unidirectionnels.
Méthode DHECA-SuperGaze : Une nouvelle architecture qui intègre la SR sur les images de tête et le module DHECA pour l'estimation du regard statique et temporel, atteignant des performances SOTA.

4. Résultats Expérimentaux

Les évaluations ont été menées sur les jeux de données Gaze360 et GFIE, en comparant les performances intra-jeu (même jeu pour l'entraînement et le test) et inter-jeux (entraînement sur un jeu, test sur l'autre).

Performance Intra-jeu (Within-dataset) :
- Statique : Réduction de l'erreur angulaire (AE) de 0,48° sur Gaze360 et 2,95° sur GFIE par rapport à la deuxième meilleure méthode.
- Temporel : Réduction de l'AE de 0,59° sur Gaze360 et 3,00° sur GFIE.
Performance Inter-jeu (Cross-dataset) :
- Le modèle montre une excellente généralisation. Sur GFIE (test), l'amélioration atteint 3,99° par rapport aux méthodes existantes. Sur Gaze360 (test), l'amélioration est de 1,53°.
Études d'ablation :
- Le module DHECA est supérieur aux alternatives (pas d'attention, self-attention, ou attention croisée unidirectionnelle type CrossGaze).
- L'application de la SR uniquement sur les images de tête (en gardant les yeux originaux) s'avère être la configuration optimale, surpassant l'application de SR sur les deux ou aucune.
- L'utilisation des annotations rectifiées de Gaze360 améliore systématiquement les résultats d'environ 0,15°.

5. Signification et Impact

Ce travail est significatif pour plusieurs raisons :

Qualité des données : Il met en lumière l'importance critique de la propreté des données d'entraînement, en corrigeant un biais majeur dans un jeu de données de référence (Gaze360).
Architecture innovante : La démonstration que l'attention croisée bidirectionnelle entre la tête et les yeux est supérieure aux approches unidirectionnelles ouvre une nouvelle voie pour la modélisation du regard.
Robustesse : L'intégration de la super-résolution spécifiquement sur les images de tête permet de mieux gérer les images de faible qualité, un problème courant dans les applications réelles.
État de l'art : La méthode établit de nouveaux records de précision sur des environnements non contraints, rendant l'estimation du regard plus fiable pour des applications critiques comme la sécurité routière et l'accessibilité.

En résumé, DHECA-SuperGaze combine une amélioration de la qualité des données, une architecture de réseau neurale avancée exploitant l'attention croisée, et une stratégie de prétraitement par super-résolution pour repousser les limites actuelles de l'estimation du regard.