ALERT Open Dataset and Input-Size-Agnostic Vision Transformer for Driver Activity Recognition using IR-UWB

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous conduisez votre voiture. Parfois, vous êtes concentré, mais d'autres fois, vous regardez votre téléphone, vous fumez une cigarette, ou vous vous endormez un peu. C'est ce qu'on appelle la conduite distraite, et c'est très dangereux.

Les chercheurs veulent créer un "gardien invisible" dans la voiture pour vous alerter si vous faites quelque chose de dangereux, sans utiliser de caméras (qui peuvent être intrusives pour la vie privée) ni de microphones (qui peuvent entendre vos conversations).

Voici comment cette équipe a résolu le problème, expliqué simplement :

1. Le Problème : Deux gros obstacles

Pour créer ce gardien, ils ont utilisé un radar spécial appelé IR-UWB (comme un sonar très précis qui utilise des ondes radio). Mais ils se sont heurtés à deux murs :

Le mur des données : Il n'existait pas de "livre de recettes" (jeu de données) avec assez d'exemples de vraies situations de conduite distraite. Les anciennes études utilisaient des simulateurs (comme dans un jeu vidéo), mais la vraie route est pleine de vibrations, de bosses et de bruit que le jeu vidéo ne copie pas bien.
Le mur de la taille : Les meilleurs cerveaux artificiels actuels (les Vision Transformers ou ViT) sont entraînés pour regarder des images carrées (comme des photos de chats). Or, les données du radar ressemblent à des rectangles bizarres et de tailles différentes. C'est comme essayer de mettre un carré de beurre dans un trou rond : ça ne rentre pas bien, et si on force, on écrase le beurre (on perd des informations importantes).

2. La Solution : Le duo gagnant

L'équipe a proposé deux choses pour briser ces murs :

A. Le "Carnet de Route" (Le Dataset ALERT)

Ils sont allés sur de vraies routes, avec de vrais conducteurs, et ont enregistré 10 220 situations.

L'analogie : Imaginez qu'ils ont filmé 9 amis dans une vraie voiture pendant des heures. Ils ont noté quand ils conduisaient normalement, quand ils dormaient, quand ils fumaient, buvaient, ou regardaient leur téléphone.
Pourquoi c'est génial ? Contrairement aux jeux vidéo, ce dataset contient les vrais "tremblements" de la route. C'est comme apprendre à nager dans une vraie piscine avec des vagues, plutôt que dans une baignoire calme.

B. Le "Transformateur Adaptatif" (ISA-ViT)

C'est leur invention principale. Ils ont créé un cerveau artificiel capable de comprendre n'importe quelle taille de données radar, sans les écraser.

L'analogie : Imaginez un photographe qui doit mettre une photo rectangulaire (le radar) dans un cadre carré (le modèle ViT).
- L'ancienne méthode : On étirait ou on coupait la photo pour qu'elle rentre. Résultat : le visage du conducteur devenait tout déformé.
- La méthode ISA-ViT : Le photographe ajoute intelligemment des bordures ou ajuste le cadre sans jamais couper le visage. Il garde la photo intacte, mais la rend compatible avec le cadre. De plus, il utilise des "étiquettes de position" pré-entraînées (comme un GPS) qui s'adaptent parfaitement à la nouvelle forme de la photo.

3. La Magie Finale : La Fusion des Sens

Le radar donne deux types d'informations :

La distance (Où est la main ?)
La vitesse (La main bouge-t-elle vite ?)

L'équipe a créé une astuce pour combiner ces deux infos.

L'analogie : C'est comme si vous aviez un détective qui regarde où vous êtes (la distance) et un autre qui regarde comment vous bougez (la vitesse). Si l'un dit "C'est une main" et l'autre dit "C'est une main qui fume", en les mettant ensemble, ils sont sûrs à 100% que vous fumez. S'ils travaillent seuls, ils pourraient se tromper.

Les Résultats ?

Grâce à cette combinaison (vrais données + cerveau adaptatif + fusion des sens) :

Le système est devenu 22 % plus précis que les méthodes précédentes.
Il détecte la conduite distraite avec une précision de 97 %.
Il respecte la vie privée (pas de caméra, pas de son).

En résumé

Cette équipe a construit une base de données réelle (ALERT) pour apprendre aux ordinateurs ce qu'est la vraie route, et a inventé un nouveau type de cerveau artificiel (ISA-ViT) capable de lire les données radar sans les déformer. C'est un pas de géant vers des voitures plus sûres qui savent vous dire : "Hé, tu regardes ton téléphone, fais attention !" sans jamais vous espionner.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La conduite distrayante est une cause majeure d'accidents mortels dans le monde. Bien que la reconnaissance d'activités de conduite (DAR) soit cruciale, les approches existantes présentent des limites :

Caméras et microphones : Soulèvent des problèmes de vie privée et sont sensibles aux conditions d'éclairage ou au bruit ambiant.
Signaux RF (Wi-Fi) : Souvent utilisés, mais peuvent créer des interférences dans la bande ISM encombrée (2,4 GHz).
Radar UWB (Ultra-Wideband) : Offre une grande robustesse aux interférences, une faible puissance et une protection intrinsèque de la vie privée. Cependant, son adoption pour la DAR fait face à deux obstacles majeurs :
1. Absence de données réalistes : Le manque de grands ensembles de données (datasets) collectés dans des conditions de conduite réelles couvrant une diversité d'activités distrayantes. Les données existantes sont souvent simulées ou limitées à une seule activité.
2. Incompatibilité des modèles : Les modèles state-of-the-art comme les Vision Transformers (ViT) sont conçus pour des images de taille fixe (ex: 224x224). L'adaptation des données radar UWB (qui ont des dimensions non standard et des caractéristiques physiques spécifiques comme les décalages Doppler) à ces modèles entraîne une perte d'information critique lors du redimensionnement naïf.

2. Méthodologie

Les auteurs proposent une solution double : la création d'un nouvel ensemble de données et le développement d'une nouvelle architecture de modèle.

A. L'Ensemble de Données ALERT

Collecte : Données collectées dans un environnement de conduite réel (routes urbaines et campus) avec un radar IR-UWB monté sur la ventilation du véhicule (position non intrusive).
Contenu : 10 220 échantillons couvrant 7 activités : conduite normale, relaxation (autopilotage), hochement de tête (somnolence), fumer, boire, contrôle du tableau de bord et utilisation d'un smartphone.
Représentation : Le dataset fournit les données brutes sous deux formes :
- Domaine Temps-Distance (Range-Time) : Capture le mouvement spatial fin.
- Domaine Temps-Fréquence (Frequency-Time) : Capture les caractéristiques de vitesse (Doppler).
Flexibilité : Les utilisateurs peuvent personnaliser la taille des fenêtres d'observation et les bins de fréquence/distance.

B. Le Modèle ISA-ViT (Input-Size-Agnostic Vision Transformer)

Pour surmonter le décalage entre les données UWB et les ViT pré-entraînés, les auteurs proposent ISA-ViT :

Redimensionnement sans perte d'information : Au lieu d'interpoler naïvement les données UWB vers 224x224 (ce qui détruit les détails du signal), le modèle étend le côté le plus court pour égaler le plus long, puis calcule une taille de patch ( $k \times k$ ) qui divise l'entrée en une grille de $14 \times 14$ tokens. Cela préserve la structure spatiale originale.
Adaptation des Embeddings Positionnels (PEV) : Le modèle réutilise les PEV pré-entraînés (optimisés pour une grille 14x14) sans les manipuler (troncature ou interpolation excessive), ce qui maintient la cohérence spatiale apprise sur ImageNet.
Ajustement des noyaux CNN : Les poids des couches de projection linéaire (CNN) sont adaptés (par moyenne ou interpolation) pour correspondre à la nouvelle taille de patch $k \times k$ .
Fusion de Domaines : Une stratégie de fusion combine les caractéristiques extraites du domaine distance et du domaine fréquence. Un facteur d'ajustement $\beta$ (paramètre apprenable) est utilisé pour équilibrer la contribution du domaine fréquence par rapport au domaine distance, évitant ainsi que le bruit d'un domaine ne domine l'autre.

3. Contributions Clés

Le Dataset ALERT : Le premier dataset UWB open-source couvrant 7 activités de conduite distrayante dans des conditions réelles, avec des représentations à la fois distance et fréquence.
ISA-ViT : Une architecture novatrice permettant d'appliquer des ViT pré-entraînés à des données radar de tailles variables sans perte d'information ni dégradation des embeddings positionnels.
Benchmarking Complet : Une évaluation comparative de 8 algorithmes (CNN, RNN, Transformers) sur le dataset ALERT, fournissant des lignes de base pour la recherche future.
Stratégie de Fusion : Démonstration que la fusion des domaines distance et fréquence, avec un équilibrage appris, améliore significativement la précision.

4. Résultats Expérimentaux

Les expériences ont été menées avec une validation croisée "leave-one-subject-out" pour garantir l'indépendance des sujets entre l'entraînement et le test.

Performance Globale : ISA-ViT atteint une précision de classification globale de 76,28 %, surpassant les méthodes ViT existantes de 22,68 % et les meilleures approches CNN de plus de 5 %.
Détection de Conduite Distrayante : En se concentrant spécifiquement sur la détection des activités distrayantes (vs conduite normale), le système atteint une précision de 97,35 %.
Impact de la Fusion : La fusion des domaines (distance + fréquence) améliore les scores F1 pour toutes les activités par rapport à l'utilisation d'un seul domaine (ex: +13,69 % pour l'activité "Panel").
Comparaison des méthodes de redimensionnement : Les méthodes de redimensionnement simples ou basées sur CNN perdent des informations critiques. ISA-ViT, en préservant l'information brute, surpasse toutes les autres approches sur les datasets ALERT et RaDA.
Coût Computationsnel : Bien que ISA-ViT soit plus coûteux que les CNN (environ 60 GFLOPs contre 3-7 GFLOPs), il offre un gain de précision considérable pour un surcoût marginal par rapport au ViT standard (0,3 GFLOPs supplémentaires).

5. Signification et Impact

Ce travail établit une nouvelle référence pour la reconnaissance d'activités de conduite basée sur le radar :

Pratique : Il démontre la viabilité du radar UWB pour la sécurité routière en conditions réelles, en surmontant les problèmes de vie privée des caméras.
Scientifique : Il résout le problème fondamental de l'adaptation des modèles de vision (ViT) aux données non visuelles et de dimensions variables, ouvrant la voie à l'utilisation de modèles pré-entraînés massifs dans le domaine du radar.
Communauté : La mise à disposition publique du dataset ALERT et du code permet à la communauté de recherche de développer des systèmes plus robustes, scalables et précis pour la détection de la conduite distrayante.

En conclusion, l'approche proposée (ALERT + ISA-ViT) offre une solution robuste et évolutive pour la surveillance de la conduite, capable de fonctionner dans des environnements réels complexes tout en préservant la vie privée des conducteurs.