EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Este trabajo presenta EgoCampus, un nuevo conjunto de datos y un modelo de red neuronal (EgoCampusNet) diseñados para predecir la atención visual de peatones en entornos exteriores, basándose en grabaciones egocéntricas realizadas con gafas Meta Project Aria en un campus universitario.

Ronan John, Aditya Kesari, Vincenzo DiMatteo, Kristin Dana

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enseñarle a un robot a caminar por un campus universitario sin chocar con nadie y sin perderse. Para hacerlo, el robot necesita saber no solo dónde está, sino hacia dónde mira la gente mientras camina. ¿Por qué? Porque a menudo, la dirección de la mirada nos dice qué es importante en ese momento (un semáforo, un amigo que viene hacia ti, o una señal de "Salida").

Este paper presenta EgoCampus, un proyecto de la Universidad Rutgers que intenta resolver este misterio. Aquí te lo explico como si fuera una historia:

1. El Problema: ¿Qué ven nuestros ojos mientras caminamos?

Antes de este trabajo, la mayoría de los estudios sobre "hacia dónde miramos" se hacían en laboratorios. Imagina a alguien sentado en una silla mirando fotos fijas en una pantalla. Eso es útil, pero no es la vida real. En la vida real, caminamos, giramos la cabeza, y el mundo se mueve a nuestro alrededor.

Los autores se preguntaron: ¿Qué pasa si grabamos a personas reales caminando por la calle y vemos exactamente a qué miran?

2. La Solución: Las Gafas "Espejo" (EgoCampus)

Para capturar esto, usaron unas gafas especiales llamadas Project Aria (de Meta). Piensa en estas gafas como un "espejo mágico" que hace tres cosas a la vez:

  • Cámara frontal: Graba lo que ves (como tus propios ojos).
  • Cámaras internas: Te vigilan a ti para saber exactamente a dónde apuntan tus pupilas.
  • Sensores de movimiento: Son como un "oído interno" que siente si te inclinas, giras o aceleras (GPS, acelerómetros, etc.).

El "Tesoro" de Datos:
Grabaron a 82 personas caminando por 25 rutas diferentes en el campus. Es como si hicieras un documental de 32 horas donde cada persona camina, mira a los lados y registra todo.

  • La analogía: Imagina que eres un detective y tienes 82 testigos que te cuentan, segundo a segundo, qué vieron mientras cruzaban la ciudad. Eso es EgoCampus.

3. El Cerebro del Robot: EgoCampusNet

Con estos datos, crearon un modelo de Inteligencia Artificial llamado EgoCampusNet.

  • ¿Cómo funciona?
    Imagina que estás viendo una película de alguien caminando. Tu cerebro no solo mira el fotograma actual; recuerda lo que pasó hace dos segundos para entender hacia dónde vas.
    • El modelo hace lo mismo: Mira el video pasado (para entender el contexto) y la imagen actual (para ver los detalles).
    • Luego, "fusiona" esa información para predecir: "¡Ah! La persona probablemente mirará hacia esa farola o hacia ese grupo de amigos que viene".

4. Lo que Descubrieron (Los "Secretos" de la Mirada)

Al analizar los datos, encontraron cosas interesantes:

  • El "Centro" es un imán: Cuando caminamos, tendemos a mirar al centro de la pantalla (hacia donde vamos). Es como si nuestro cerebro dijera: "Lo más importante está justo enfrente".
  • Los giros revelan todo: Cuando la gente gira la cabeza rápidamente (como para mirar un cartel o a alguien que pasa), es cuando realmente prestan atención a cosas específicas: edificios, árboles, o cambios en el camino.
  • Los robots actuales fallan: Probaron modelos de IA existentes (los que ya existen en el mercado) y descubrieron que, sin entrenamiento específico, son muy malos predeciendo esto. Tienden a mirar siempre al centro o a adivinar mal.

5. ¿Para qué sirve todo esto?

Imagina un futuro donde:

  • Robots de reparto caminan por la acera y saben exactamente cuándo apartarse porque "ven" lo mismo que tú.
  • Coches autónomos entienden si un peatón va a cruzar la calle porque el robot "sabe" que el peatón está mirando hacia la carretera.
  • Realidad Aumentada: Tus gafas inteligentes podrían mostrarte información justo donde estás mirando, sin tener que buscarla.

En resumen

Este paper es como abrir una caja negra de la atención humana. Nos dan los datos (EgoCampus) y el manual de instrucciones (EgoCampusNet) para que cualquier investigador pueda enseñar a las máquinas a entender que, cuando caminamos, nuestros ojos no solo ven, sino que piensan y deciden a dónde ir.

Es un paso gigante para que la tecnología deje de ser un "ciego" que tropieza, y se convierta en un compañero que entiende el mundo tal como lo hacemos nosotros.