DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Este artículo presenta DHECA-SuperGaze, un método de aprendizaje profundo que mejora la estimación de la mirada en entornos no controlados mediante la integración de superresolución y un módulo de atención cruzada dual cabeza-ojo, corrigiendo además errores en el conjunto de datos Gaze360 y logrando un rendimiento superior al estado del arte en múltiples métricas y configuraciones.

Franko Šikić, Donik Vršnak, Sven Lončarić

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este paper es como la receta para un super-visor digital capaz de adivinar exactamente a dónde estás mirando, incluso si estás en un lugar lleno de gente, con mala luz o moviéndote rápido.

Aquí te explico la idea central de DHECA-SuperGaze usando analogías sencillas:

1. El Problema: "Ver a través de la niebla"

Imagina que eres un detective intentando adivinar a qué mira una persona en una foto borrosa tomada en la calle.

  • El reto: A veces la foto es de mala calidad (poca resolución) y a veces la persona mueve mucho la cabeza.
  • El error común: Los sistemas antiguos miraban solo la cara completa. Pero, ¡ojo! Una persona puede tener la cara mirando hacia la izquierda, pero sus ojos pueden estar mirando hacia la derecha (como cuando lees un libro mientras caminas). Los viejos sistemas se confundían porque no entendían bien la relación entre la cabeza y los ojos. Además, a veces las fotos de los ojos estaban tan borrosas que era imposible ver la pupila.

2. La Solución: Dos herramientas mágicas

Los autores crearon un nuevo sistema llamado DHECA-SuperGaze que usa dos trucos principales para ser el mejor detective:

A. El Truco de la "Fotografía de Alta Definición" (Super-Resolución)

Imagina que tienes una foto antigua y pixelada de un rostro.

  • Lo que hace el sistema: Antes de intentar adivinar la mirada, el sistema usa una "máquina mágica" (llamada Super-Resolución o SR) que toma esa foto borrosa de la cara y la convierte en una imagen nítida y de alta definición, como si hubiera usado un filtro de magia para limpiar la niebla.
  • El resultado: Ahora el sistema puede ver detalles que antes eran solo manchas de color.

B. El Truco de la "Conversación entre la Cabeza y los Ojos" (Atención Cruzada Dual)

Aquí está la parte más genial. Imagina que tienes dos expertos en un equipo:

  1. El Experto en Cabezas: Mira la orientación general del rostro.
  2. El Experto en Ojos: Mira los detalles finos de las pupilas.

En los sistemas viejos, estos dos expertos trabajaban en silencio, cada uno por su lado. Pero en este nuevo sistema, les damos un walkie-talkie (el módulo DHECA).

  • Cómo funciona: El Experto en Cabeza le dice al Experto en Ojos: "Oye, la cabeza está girada hacia la izquierda, así que si tus ojos parecen mirar recto, probablemente en realidad están mirando un poco a la derecha". Y viceversa.
  • La magia: Se "escuchan" mutuamente y se corrigen entre ellos. Esto se llama Atención Cruzada Dual. Gracias a esta conversación, el sistema entiende mucho mejor hacia dónde va la atención real de la persona.

3. La Gran Limpieza: "Arreglando el mapa"

Los autores descubrieron algo curioso: uno de los mapas más famosos que usan los detectives (el dataset llamado Gaze360) tenía errores.

  • El problema: En algunas fotos, el sistema de anotación había marcado la cara de un transeúnte de fondo en lugar de la cara de la persona principal. ¡Era como si el detective estuviera mirando a la persona equivocada!
  • La solución: Los autores revisaron miles de fotos, encontraron estos errores y "arreglaron el mapa". Al entrenar a sus sistemas con datos limpios y correctos, el resultado fue mucho más preciso.

4. ¿Qué lograron?

Gracias a limpiar los datos, usar fotos de alta definición y hacer que la cabeza y los ojos "hablen" entre sí, su sistema:

  • Acertó más: Comete menos errores al adivinar la dirección de la mirada que cualquier otro sistema anterior.
  • Es más fuerte: Funciona bien incluso cuando prueba datos que nunca había visto antes (como si un detective pudiera resolver casos en una ciudad nueva sin estudiar el mapa antes).

En resumen

DHECA-SuperGaze es como un detective que:

  1. Usa lentes de aumento mágicos para ver mejor (Super-Resolución).
  2. Tiene un equipo donde la cabeza y los ojos se pasan notas para no confundirse (Atención Cruzada).
  3. Usa un mapa de la ciudad que ha sido corregido para no tener errores (Datos limpios).

Todo esto permite que la tecnología de seguimiento de la mirada sea mucho más útil para cosas como vigilar la seguridad en los exámenes, ayudar a conductores a no distraerse o permitir que personas con discapacidad controlen sus computadoras solo con la mirada.