ALERT Open Dataset and Input-Size-Agnostic Vision Transformer for Driver Activity Recognition using IR-UWB

Este trabajo presenta el conjunto de datos ALERT y el modelo ISA-ViT, un transformador de visión agnóstico al tamaño de entrada, para mejorar el reconocimiento de actividades del conductor mediante radar IR-UWB, abordando la falta de datos a gran escala y las limitaciones de adaptación de modelos existentes.

Jeongjun Park, Sunwook Hwang, Hyeonho Noh, Jin Mo Yang, Hyun Jong Yang, Saewoong Bahk

Publicado 2026-02-17
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que el coche del futuro no solo sabe conducir, sino que también tiene un "superpoder" para saber si tú, el conductor, estás distraído. Pero para tener ese superpoder, primero necesita aprender a ver lo que haces sin usar cámaras (que invaden tu privacidad) ni micrófonos (que te escuchan).

Este paper presenta una solución genial llamada ALERT, que es como un "kit de entrenamiento" completo para enseñar a los coches a detectar cuando un conductor está jugando con el móvil, fumando, bebiendo o incluso durmiendo al volante.

Aquí te lo explico como si fuera una historia, usando analogías sencillas:

1. El Problema: ¿Cómo "ver" sin cámaras?

Antes, para saber si un conductor estaba distraído, usaban cámaras (como los ojos del coche) o micrófonos. Pero a la gente no le gusta que lo graben o escuchen por privacidad. Además, las cámaras no funcionan bien de noche.

La solución es usar un radar de ondas de radio (IR-UWB).

  • La analogía: Imagina que el radar es como un sonar de un submarino o como un murciélago usando ecolocalización. En lugar de luz, envía ondas de radio invisibles que rebotan en tu cuerpo. Si te mueves, el eco cambia.
  • Ventaja: No te ve, no te graba, funciona de noche y no le importan las luces o la oscuridad. Es como tener "superpoderes" para ver a través de la ropa y la oscuridad, pero solo viendo tu movimiento, no tu cara.

2. El Primer Obstáculo: La falta de "libros de texto"

Para que una inteligencia artificial aprenda, necesita miles de ejemplos. El problema es que nadie tenía un "libro de texto" (un conjunto de datos) grande y real sobre conductores distraídos usando este tipo de radar en la vida real. La mayoría de los estudios anteriores eran en simuladores (como un videojuego), y los coches reales vibran y tienen ruidos que los simuladores no capturan.

  • La solución (ALERT): Los autores crearon el conjunto de datos ALERT.
  • La analogía: Imagina que antes solo tenías recetas de cocina hechas en una cocina de juguete. Ahora, han grabado a 9 personas reales conduciendo de verdad por la ciudad y por el campus, haciendo cosas como fumar, beber, mirar el móvil o controlar el panel. Han recogido más de 10,000 "instantáneas" de radar de estas actividades. Es como tener una biblioteca gigante de "cómo se mueve un conductor distraído en la vida real".

3. El Segundo Obstáculo: El "cuelle de botella" del modelo

Tenían los datos, pero el modelo de inteligencia artificial más potente que existe (llamado Vision Transformer o ViT) estaba diseñado para ver fotos cuadradas (como las que sacas con tu móvil). Los datos del radar, en cambio, son como rectángulos alargados y extraños (no son cuadrados).

  • El problema: Si intentas forzar una foto rectangular a que quepa en un marco cuadrado, la estiras o la aplastas.
    • La analogía: Imagina que tienes una foto de un gato estirado (rectangular) y quieres ponerla en un marco cuadrado. Si la estiras para que quepa, el gato se ve deformado, como si tuviera las patas cortas o la cola gigante. El modelo de IA se confunde porque el gato ya no parece un gato.
  • La solución (ISA-ViT): Crearon un nuevo modelo llamado ISA-ViT.
    • La analogía: En lugar de estirar la foto del gato, ISA-ViT es como un marco inteligente que se adapta. Si la foto es larga, el marco se hace largo; si es corta, se hace corto. Pero lo más importante: no aplasta al gato. El modelo aprende a mirar la foto tal como es, manteniendo todos los detalles importantes (como la velocidad de tu mano o la posición de tu cabeza) sin deformarlos.

4. El Secreto Final: Ver con "dos ojos"

El radar no solo te dice dónde estás (distancia), sino también cómo te mueves (velocidad).

  • La analogía: Imagina que tienes dos ojos. Un ojo ve la forma de las cosas (distancia) y el otro ve el movimiento (velocidad).
    • Si solo usas el ojo de la distancia, podrías confundirte: ¿Estás bebiendo agua o fumando? Ambos movimientos son parecidos en distancia.
    • Si usas el ojo de la velocidad, ves que el vaso se mueve lento y el cigarrillo rápido.
  • La fusión: El modelo ISA-ViT combina la información de ambos "ojos" (dominio de distancia y dominio de frecuencia). Al unirlos, el coche entiende mucho mejor lo que haces. Es como si tu cerebro combinara lo que ves con lo que sientes para tomar una decisión más rápida y precisa.

¿Qué lograron?

Gracias a este sistema (el dataset ALERT + el modelo ISA-ViT):

  1. Precisión: El sistema acierta en el 76% de las actividades específicas (saber si estás fumando o bebiendo).
  2. Seguridad: Si solo preguntamos "¿Está el conductor distraído o conduciendo bien?", el sistema acierta en un 97.35%. ¡Casi perfecto!
  3. Privacidad: Todo esto se hace sin cámaras, protegiendo tu intimidad.

En resumen

Los autores crearon un entrenador de IA (ISA-ViT) que aprende a leer los "ecos" de un radar especial, usando una biblioteca de datos real (ALERT) que ellos mismos grabaron. En lugar de forzar los datos a encajar en un molde cuadrado (como hacían antes), crearon un molde flexible que no pierde información.

El resultado es un sistema que puede vigilar si estás distraído al volante de forma segura, privada y muy precisa, ayudando a evitar accidentes en el futuro. ¡Es como darle al coche un sexto sentido para cuidarte!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →