ALERT Open Dataset and Input-Size-Agnostic Vision Transformer for Driver Activity Recognition using IR-UWB

Cette présentation introduit le jeu de données ALERT et le modèle ISA-ViT, une architecture de Vision Transformer adaptable à la taille d'entrée, pour améliorer la reconnaissance des activités de conduite distraite via des radars IR-UWB tout en préservant la vie privée.

Jeongjun Park, Sunwook Hwang, Hyeonho Noh, Jin Mo Yang, Hyun Jong Yang, Saewoong Bahk

Publié 2026-02-17
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous conduisez votre voiture. Parfois, vous êtes concentré, mais d'autres fois, vous regardez votre téléphone, vous fumez une cigarette, ou vous vous endormez un peu. C'est ce qu'on appelle la conduite distraite, et c'est très dangereux.

Les chercheurs veulent créer un "gardien invisible" dans la voiture pour vous alerter si vous faites quelque chose de dangereux, sans utiliser de caméras (qui peuvent être intrusives pour la vie privée) ni de microphones (qui peuvent entendre vos conversations).

Voici comment cette équipe a résolu le problème, expliqué simplement :

1. Le Problème : Deux gros obstacles

Pour créer ce gardien, ils ont utilisé un radar spécial appelé IR-UWB (comme un sonar très précis qui utilise des ondes radio). Mais ils se sont heurtés à deux murs :

  • Le mur des données : Il n'existait pas de "livre de recettes" (jeu de données) avec assez d'exemples de vraies situations de conduite distraite. Les anciennes études utilisaient des simulateurs (comme dans un jeu vidéo), mais la vraie route est pleine de vibrations, de bosses et de bruit que le jeu vidéo ne copie pas bien.
  • Le mur de la taille : Les meilleurs cerveaux artificiels actuels (les Vision Transformers ou ViT) sont entraînés pour regarder des images carrées (comme des photos de chats). Or, les données du radar ressemblent à des rectangles bizarres et de tailles différentes. C'est comme essayer de mettre un carré de beurre dans un trou rond : ça ne rentre pas bien, et si on force, on écrase le beurre (on perd des informations importantes).

2. La Solution : Le duo gagnant

L'équipe a proposé deux choses pour briser ces murs :

A. Le "Carnet de Route" (Le Dataset ALERT)

Ils sont allés sur de vraies routes, avec de vrais conducteurs, et ont enregistré 10 220 situations.

  • L'analogie : Imaginez qu'ils ont filmé 9 amis dans une vraie voiture pendant des heures. Ils ont noté quand ils conduisaient normalement, quand ils dormaient, quand ils fumaient, buvaient, ou regardaient leur téléphone.
  • Pourquoi c'est génial ? Contrairement aux jeux vidéo, ce dataset contient les vrais "tremblements" de la route. C'est comme apprendre à nager dans une vraie piscine avec des vagues, plutôt que dans une baignoire calme.

B. Le "Transformateur Adaptatif" (ISA-ViT)

C'est leur invention principale. Ils ont créé un cerveau artificiel capable de comprendre n'importe quelle taille de données radar, sans les écraser.

  • L'analogie : Imaginez un photographe qui doit mettre une photo rectangulaire (le radar) dans un cadre carré (le modèle ViT).
    • L'ancienne méthode : On étirait ou on coupait la photo pour qu'elle rentre. Résultat : le visage du conducteur devenait tout déformé.
    • La méthode ISA-ViT : Le photographe ajoute intelligemment des bordures ou ajuste le cadre sans jamais couper le visage. Il garde la photo intacte, mais la rend compatible avec le cadre. De plus, il utilise des "étiquettes de position" pré-entraînées (comme un GPS) qui s'adaptent parfaitement à la nouvelle forme de la photo.

3. La Magie Finale : La Fusion des Sens

Le radar donne deux types d'informations :

  1. La distance (Où est la main ?)
  2. La vitesse (La main bouge-t-elle vite ?)

L'équipe a créé une astuce pour combiner ces deux infos.

  • L'analogie : C'est comme si vous aviez un détective qui regarde vous êtes (la distance) et un autre qui regarde comment vous bougez (la vitesse). Si l'un dit "C'est une main" et l'autre dit "C'est une main qui fume", en les mettant ensemble, ils sont sûrs à 100% que vous fumez. S'ils travaillent seuls, ils pourraient se tromper.

Les Résultats ?

Grâce à cette combinaison (vrais données + cerveau adaptatif + fusion des sens) :

  • Le système est devenu 22 % plus précis que les méthodes précédentes.
  • Il détecte la conduite distraite avec une précision de 97 %.
  • Il respecte la vie privée (pas de caméra, pas de son).

En résumé

Cette équipe a construit une base de données réelle (ALERT) pour apprendre aux ordinateurs ce qu'est la vraie route, et a inventé un nouveau type de cerveau artificiel (ISA-ViT) capable de lire les données radar sans les déformer. C'est un pas de géant vers des voitures plus sûres qui savent vous dire : "Hé, tu regardes ton téléphone, fais attention !" sans jamais vous espionner.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →