GazeMoE: Perception of Gaze Target with Mixture-of-Experts

El artículo presenta GazeMoE, un marco de trabajo novedoso basado en una mezcla de expertos que aprovecha modelos fundacionales de visión congelados y mecanismos de equilibrio de clases para lograr un rendimiento superior en la estimación del objetivo de la mirada humana a partir de imágenes visibles.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li

Publicado 2026-03-09
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que eres un robot o una cámara inteligente que quiere entender hacia dónde mira una persona. ¿Está mirando a un perro que está en la foto, o está mirando a un pájaro que voló fuera del encuadre?

Hacer esto es como intentar adivinar el pensamiento de alguien solo viendo sus ojos, su cabeza y lo que hay alrededor. Es difícil porque a veces la persona está de espaldas, a veces hay mucha luz, o a veces es un niño moviéndose mucho.

Aquí te explico el GazeMoE (el "cerebro" que propone el artículo) usando analogías sencillas:

1. El Problema: Un Solo Cerebro no es suficiente

Antes, los robots usaban un solo modelo de inteligencia artificial para analizar todo. Era como tener a un detective único que intentaba resolver todos los casos: desde un crimen en una oficina hasta un accidente en la playa.

  • Si el detective era experto en oficinas, fallaba en la playa.
  • Si el caso era muy difícil (por ejemplo, la persona tenía la cara tapada o la foto estaba distorsionada), el detective se confundía.

2. La Solución: El "Equipo de Expertos" (Mixture-of-Experts)

Los autores crearon GazeMoE. Imagina que en lugar de un solo detective, tienes un equipo de especialistas en una sala de reuniones.

  • El Jefe (El Modelo Congelado): Tienes un "jefe" muy inteligente (llamado DINOv2) que ya ha visto millones de fotos y sabe reconocer caras, gestos y escenas. Este jefe no aprende nada nuevo; solo da la información base.
  • Los Expertos (Los "MoE"): Aquí está la magia. Tienes varios especialistas:
    • Experto Ojos: Solo mira los ojos.
    • Experto Cabeza: Solo mira la postura de la cabeza.
    • Experto Gestos: Mira las manos y el cuerpo.
    • Experto Entorno: Mira el fondo y la escena.

¿Cómo funciona?
Cuando llega una foto, un portero inteligente (llamado "gating mechanism") decide rápidamente: "¡Esta foto tiene la cara tapada! No llames al experto Ojos, llama al experto Cabeza y al experto Entorno".
El sistema no usa a todos los expertos a la vez. Solo despierta a los 2 o 3 que son necesarios para ese caso específico. Esto hace que el robot sea rápido y no se sienta abrumado.

3. El Entrenamiento: La Clase de "Adivina el Destino"

Para entrenar a este equipo, los autores tuvieron que ser muy creativos porque los datos reales son desordenados:

  • El Desequilibrio: En la vida real, la gente mira más cosas que están dentro de la foto que cosas que están fuera. Es como si en un examen hubiera 90 preguntas fáciles y 10 muy difíciles. El equipo de expertos tendía a ignorar las difíciles.
    • La Solución: Usaron una técnica llamada "Focal Loss". Imagina que el profesor (el algoritmo) le grita más fuerte a los estudiantes que fallan en las preguntas difíciles, obligándolos a prestarles más atención. Así, el robot aprende a detectar cuando alguien mira fuera de la pantalla.
  • El Gimnasio de Datos: Para que el robot sea fuerte, lo sometieron a un entrenamiento duro. Les mostraron fotos borrosas, en blanco y negro, con colores extraños o recortadas. Fue como si un atleta entrenara bajo la lluvia y con pesas extra para que, cuando salga a la calle, nada lo sorprenda.

4. Los Resultados: ¡El Campeón!

Probaron a GazeMoE en situaciones reales y locas:

  • Niños: Los niños se mueven mucho y sus caras son pequeñas. GazeMoE los entendió mejor que nadie.
  • Lentes de Ojo de Pez: Fotos distorsionadas (como las de cámaras de seguridad redondas). El sistema se adaptó perfectamente.
  • Zero-Shot (Sin entrenamiento previo): Le mostraron videos de un laboratorio que nunca había visto antes y adivinó correctamente hacia dónde miraban las personas.

En resumen

GazeMoE es como un director de orquesta genial. En lugar de tocar todos los instrumentos a la vez, escucha la música (la imagen) y le dice a los violinistas, trompetistas o bateristas exactamente cuándo entrar para crear la melodía perfecta.

Gracias a esto, los robots pueden entender mejor a los humanos, saber si un conductor está cansado, o si un niño está interesado en un juguete, todo de forma rápida y precisa, incluso en situaciones caóticas. ¡Es un gran paso para que las máquinas entiendan nuestra atención!