GazeShift: Unsupervised Gaze Estimation and Dataset for VR

Each language version is independently generated for its own context, not a direct translation.

🕶️ Le Problème : Le "Regard" perdu dans les casques VR

Imaginez que vous portez un casque de réalité virtuelle (VR). Pour que l'ordinateur sache exactement où vous regardez (pour afficher des détails nets là où vos yeux se posent, par exemple), il doit deviner la direction de votre regard.

Le problème, c'est que dans les casques modernes, les caméras qui filment vos yeux ne sont pas placées juste devant (comme un miroir), mais sur le côté, en biais. C'est comme essayer de deviner où quelqu'un regarde en le regardant de profil à travers une vitre sale : c'est difficile !

De plus, pour entraîner une intelligence artificielle (IA) à faire ça, il faut des milliers d'images étiquetées manuellement (en disant : "ici, il regarde à gauche"). C'est long, cher et souvent imprécis, car les humains clignent des yeux ou bougent la tête sans le vouloir.

💡 La Solution : GazeShift et le Dataset VRGaze

Les chercheurs de Samsung ont créé deux choses magiques pour résoudre ce problème :

1. VRGaze : La "Bibliothèque" géante

Imaginez une bibliothèque immense contenant 2,1 millions de photos des yeux de 68 personnes différentes, prises avec les caméras de casques VR réels (en biais).

L'analogie : C'est comme avoir un dictionnaire complet des expressions des yeux, appris spécifiquement pour la géométrie bizarre des casques VR, alors que les anciens dictionnaires étaient faits pour des photos de face prises dans un studio.

2. GazeShift : L'IA qui apprend sans dictionnaire

C'est la partie la plus brillante. Au lieu de donner à l'IA des milliers d'exemples avec les réponses (étiquettes), ils lui ont appris à apprendre par elle-même.

Le concept : Imaginez que vous avez deux photos du même œil. Sur l'une, la personne regarde à gauche. Sur l'autre, elle regarde à droite.
Le jeu de l'IA : L'IA doit prendre la photo de gauche et essayer de la "transformer" pour qu'elle ressemble à la photo de droite.
La magie : Pour réussir cette transformation, l'IA doit comprendre ce qui a changé. Elle se rend vite compte que le seul élément important qui a bougé, c'est la direction du regard. Tout le reste (la forme de l'œil, la couleur de la peau) reste stable.
L'analogie : C'est comme si vous appreniez à un artiste à peindre un visage en lui disant : "Prends ce portrait et dessine-le en train de regarder ailleurs, mais garde exactement la même personne." L'artiste apprendra à isoler le mouvement des yeux du reste du visage.

🎯 Comment ça marche ? (Les 3 ingrédients secrets)

Deux cerveaux séparés : L'IA a deux parties distinctes. L'une s'occupe de la "forme" de l'œil (l'apparence), l'autre s'occupe de la "direction" (le regard). Elles ne se mélangent pas, ce qui évite la confusion.
Le "Filtre Attentionné" : L'IA utilise un mécanisme appelé "Attention". Imaginez un projecteur qui éclaire uniquement la pupille et l'iris, et laisse le reste de l'image dans le noir. L'IA apprend à se concentrer uniquement sur les zones qui changent quand on regarde ailleurs, en ignorant les ombres ou les reflets inutiles.
L'ajustement rapide (Calibration) : Une fois entraînée, l'IA est très bonne, mais chaque personne a des yeux légèrement différents. GazeShift peut s'adapter à un utilisateur spécifique en seulement quelques secondes, comme un opticien qui ajuste une paire de lunettes sur mesure.

🚀 Les Résultats : Rapide, Précis et Économe

Précision : Sur les casques VR, l'erreur est de seulement 1,84 degrés. C'est presque aussi précis que si on lui avait donné toutes les réponses par cœur, mais sans avoir eu besoin de les apprendre !
Vitesse : L'IA est si légère qu'elle tourne directement sur la puce du casque VR en 5 millisecondes. C'est instantané, comme un clignement d'œil.
Économie : Elle utilise 10 fois moins de mémoire et 35 fois moins de puissance de calcul que les méthodes actuelles. C'est comme remplacer un camion de déménagement par un vélo électrique pour faire le même trajet.

🌍 Pourquoi c'est important ?

Aujourd'hui, les casques VR et les lunettes de réalité augmentée (AR) ont du mal à suivre le regard car ils n'ont pas assez de données adaptées à leur forme.
GazeShift change la donne :

Il fournit les données manquantes (le dataset VRGaze).
Il offre une méthode qui n'a pas besoin de labels coûteux.
Il rend possible des interfaces où l'on contrôle l'ordinateur juste en regardant, même sur des appareils peu puissants.

En résumé : GazeShift est comme un détective très intelligent qui, au lieu de lire un manuel, observe simplement comment vos yeux bougent pour comprendre exactement où vous regardez, le tout en temps réel et sans vous demander de faire de grands efforts.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'estimation du regard (gaze estimation) est cruciale pour les systèmes de réalité virtuelle (VR), permettant le rendu foveal, les interfaces sans mains et l'analyse de l'attention. Cependant, ce domaine fait face à deux obstacles majeurs :

Pénurie de données adaptées : Les méthodes existantes reposent souvent sur des caméras « on-axis » (alignées avec l'œil) ou des caméras distantes. Or, les casques VR modernes utilisent des caméras off-axis (sous un angle oblique) pour réduire l'encombrement visuel. Cette géométrie introduit des distorsions de perspective fortes que les modèles entraînés sur des données on-axis (comme OpenEDS) ne peuvent pas gérer efficacement.
Difficulté d'annotation : L'annotation manuelle du regard est coûteuse et imprécise car la fixation sur une cible ne peut être garantie à 100 % (mouvements saccadés involontaires, incertitude de fixation). De plus, l'apprentissage supervisé nécessite des milliers d'images étiquetées avec précision, ce qui est difficile à obtenir à grande échelle.

2. Méthodologie : GazeShift

Les auteurs proposent GazeShift, un cadre d'apprentissage non supervisé conçu spécifiquement pour l'imagerie infrarouge proche-œil, capable de fonctionner sans étiquettes de regard.

Architecture et Principes Clés

Contrairement aux méthodes précédentes basées sur la géométrie 3D ou des champs de déformation complexes, GazeShift utilise une architecture basée sur l'attention pour apprendre des représentations de regard via une tâche de prétexte de « redirection de regard ».

Encodage Séparé (Disentanglement) : Le modèle utilise deux encodeurs distincts :
1. Un encodeur de regard (léger, basé sur MobileNetV2) qui extrait un vecteur latent $g_t$ à partir de l'image cible.
2. Un encodeur d'apparence (plus profond) qui extrait les caractéristiques spatiales $A_s$ de l'image source.
  Cette séparation est cruciale pour isoler l'information de regard (attribut abstrait) de l'apparence (structure spatiale).
Redirection par Attention Croisée : Le modèle tente de reconstruire l'image cible en modifiant l'apparence de l'image source selon le vecteur de regard cible. Cela se fait via un mécanisme d'attention croisée où le vecteur de regard agit comme une requête globale pour moduler les caractéristiques d'apparence. Cela permet une transformation fluide du regard sans altérer l'identité de l'utilisateur.
Perte de Reconstruction Axée sur le Regard (Gaze-Focused Loss) : Au lieu d'une perte MSE standard qui traite tous les pixels également, GazeShift exploite ses propres cartes d'attention pour générer un masque spatial adaptatif.
- La perte pondère davantage les pixels des régions pertinentes pour le regard (iris, pupille) et atténue le bruit périphérique (paupières, fond).
- Cela crée une boucle de rétroaction où l'attention s'affine pour se concentrer sur les signaux de regard, améliorant la précision de l'embedding.
Calibration Few-Shot : Après l'entraînement non supervisé, une étape de calibration légère (régression linéaire) est appliquée avec un petit nombre de points de fixation étiquetés (par utilisateur ou de manière agnostique) pour mapper les embeddings latents aux angles de regard réels.

3. Contributions Principales

VRGaze (Dataset) : Introduction du premier jeu de données à grande échelle pour l'estimation du regard en VR avec des caméras off-axis.
- 2,1 millions d'images infrarouges synchronisées (œil gauche/droit).
- Collecté auprès de 68 participants diversifiés.
- Capture la géométrie réelle des casques modernes (Apple Vision Pro, Meta Quest Pro, etc.).
Framework GazeShift : Un modèle non supervisé qui apprend la redirection du regard uniquement par des transformations d'images appariées, sans nécessiter de géométrie 3D explicite ni de détecteurs externes.
Efficacité et Généralisation : Démonstration d'une capacité à généraliser des données VR (off-axis) aux caméras distantes (RGB), tout en étant extrêmement léger pour le déploiement sur matériel embarqué.

4. Résultats Expérimentaux

Sur le Dataset VRGaze (VR Off-Axis)

Précision : GazeShift atteint une erreur moyenne de 1,84° avec une calibration par personne, se rapprochant des performances des méthodes supervisées (1,54° pour un modèle supervisé de référence).
Agnosticisme à l'utilisateur : Même sans calibration spécifique (person-agnostic), l'erreur reste compétitive (2,13° avec 200 points de calibration).
Ablation : L'étude montre que la combinaison de l'encodage séparé, de l'attention croisée et de la perte focalisée sur le regard est essentielle pour atteindre cette performance.

Sur les Datasets à Caméra Distante (MPIIGaze, Columbia)

Généralisation : Le modèle entraîné sur VRGaze se transfère bien aux caméras RGB distantes.
Performance : Sur MPIIGaze, GazeShift atteint une erreur de 7,15° (person-agnostic).
Efficacité Computationnelle : Le modèle utilise 10x moins de paramètres et 35x moins d'opérations (FLOPs) que les méthodes de base (Cross-Encoder) tout en offrant une meilleure précision.
Temps d'inférence : Déployé nativement sur un GPU de casque VR (Exynos 2200), l'inférence prend seulement 5 ms, permettant un suivi en temps réel.

Analyse de la Disentanglement

Les expériences montrent que les embeddings de regard sont robustes aux variations d'apparence (lumière, contraste) et que les embeddings d'apparence sont stables face aux changements de regard, confirmant la capacité du modèle à séparer ces deux facteurs.

5. Signification et Impact

Résolution du problème des données : VRGaze comble le vide critique concernant les données off-axis, essentielles pour le développement de systèmes de suivi du regard réalistes sur les casques VR modernes.
Réduction de la dépendance aux étiquettes : GazeShift démontre qu'il est possible d'atteindre une haute précision sans annotation manuelle massive, réduisant considérablement les coûts de développement.
Déploiement Edge : La légèreté du modèle (5 ms d'inférence) le rend viable pour une intégration directe dans les casques VR, ouvrant la voie à des applications d'XR plus réactives et économes en énergie.
Généralité : L'approche basée sur l'attention pour la transformation de paires d'images pourrait être étendue à d'autres tâches de représentation non supervisée (mouvement facial, pose de tête).

En résumé, ce travail établit un nouvel état de l'art pour le suivi du regard en VR en combinant un nouveau dataset massif et une architecture non supervisée efficace, rendant la technologie plus accessible et précise pour les applications grand public.