Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

Each language version is independently generated for its own context, not a direct translation.

🚗 Le Grand Défi : Comment une voiture peut-elle avoir de l'intuition ?

Imaginez que vous conduisez. Soudain, un piéton regarde votre voiture et fait un signe de la main. Vous ralentissez. Pourquoi ? Parce que vous avez compris son intention. Mais si ce piéton regarde ailleurs, vous pourriez accélérer ou rester prudent.

Le problème, c'est que les voitures autonomes actuelles sont comme des robots très forts mais un peu « naïfs ». Elles voient les objets (piétons, voitures), mais elles ne comprennent pas toujours ce que ces objets pensent ou comment le conducteur humain réagit à la situation. Elles calculent des collisions, mais pas le « ressenti » du danger.

🛠️ La Solution : RAID, le nouveau manuel d'instruction

Les chercheurs de Honda (l'équipe derrière ce papier) ont créé quelque chose d'unique : un énorme cahier d'exercices appelé RAID.

L'analogie : Imaginez que vous voulez apprendre à un enfant à traverser la rue. Au lieu de lui donner juste une liste de règles (« ne traversez pas si une voiture arrive »), vous lui montrez 4 691 vidéos de situations réelles.
Ce que contient RAID : Ce n'est pas juste une vidéo. C'est une vidéo annotée comme un livre de cuisine. Pour chaque scène, on sait :
- Ce que le conducteur a voulu faire (tourner, aller tout droit).
- Ce qu'il a fait (freiner, dévier).
- Le plus important : Si le piéton regardait la voiture ou non (le contact visuel).

C'est comme si on donnait à la voiture non seulement les yeux, mais aussi la capacité de lire les pensées des autres usagers de la route.

🧠 L'Enseignant : Comment la voiture apprend-elle ?

Les chercheurs ont créé un système d'apprentissage « faiblement supervisé ». C'est un terme compliqué pour dire : « On n'a pas besoin de tout expliquer, on laisse la voiture deviner en regardant les conséquences. »

Voici comment ça marche, avec une analogie de détective :

Le Scénario : La voiture regarde une vidéo. Elle voit un piéton, une voiture, un feu rouge.
L'Enquête : La voiture se demande : « Qui est le coupable qui m'a fait freiner ? ».
Le Jeu de l'Effacement : Le système imagine : « Et si je supprimais ce piéton de la vidéo ? Est-ce que j'aurais quand même freiné ? ».
- Si la voiture dit « Non, sans lui, j'aurais continué », alors ce piéton est le danger.
- Si la voiture dit « Oui, j'aurais quand même freiné à cause du feu rouge », alors le piéton n'est pas le problème principal.
Le Secret du Piéton : Le système ajoute une couche de génie : il regarde si le piéton a regardé la voiture.
- Analogie : Si un piéton vous regarde dans les yeux, c'est comme un accord tacite : « Je sais que tu es là, je vais traverser ». Le danger est géré.
- Si le piéton regarde son téléphone, c'est comme s'il était invisible. Le danger est maximal.

📊 Les Résultats : Une victoire sur les anciens modèles

Les chercheurs ont testé leur méthode sur deux terrains de jeu (deux ensembles de données) :

RAID (leur nouveau terrain de jeu).
HDDS (un ancien terrain de jeu connu).

Le verdict ?
Leur méthode a battu tous les anciens champions.

Sur RAID, ils ont gagné 20 % de performance.
Sur HDDS, ils ont gagné 23 %.

C'est comme si un élève qui utilisait une calculatrice basique (les anciennes méthodes) avait été remplacé par un élève qui a appris à faire des calculs mentaux en comprenant le contexte (la nouvelle méthode).

💡 Pourquoi c'est important pour nous ?

Aujourd'hui, les voitures autonomes sont souvent trop prudentes ou, au contraire, trop confiantes. Elles ne comprennent pas la communication non verbale entre humains.

Ce papier nous dit : « Pour avoir des voitures vraiment sûres, il ne suffit pas de voir les objets. Il faut comprendre l'attention des gens autour de nous. »

Avant : La voiture voit un piéton = Danger potentiel.
Maintenant (avec RAID) : La voiture voit un piéton qui regarde la voiture = « OK, il sait que je suis là, je peux continuer prudemment ».
Et si : La voiture voit un piéton qui regarde ailleurs = « STOP ! Danger immédiat ! ».

En résumé

Les chercheurs ont créé un super-entraînement (RAID) et un nouveau cerveau (le modèle d'apprentissage) qui apprend aux voitures à être des conducteurs humains : attentifs, capables de lire les regards et de comprendre que le danger ne vient pas seulement de la présence d'un objet, mais de la façon dont cet objet interagit avec nous.

C'est un pas de géant vers des routes où les voitures ne conduisent pas seulement avec des capteurs, mais avec de l'intelligence sociale.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La sécurité routière et la mobilité sans collision reposent sur la capacité des systèmes de véhicules intelligents à comprendre la perception du risque par le conducteur. Ce processus cognitif complexe implique non seulement la prédiction des collisions, mais aussi l'interprétation des réponses comportementales du conducteur face aux stimuli externes (ex. : dévier de sa trajectoire pour éviter un obstacle) et de l'attention des autres usagers (ex. : un piéton qui regarde le véhicule).

Les défis majeurs identifiés dans la littérature sont :

Limites des données existantes : Les jeux de données actuels (comme JAAD, HDDS) manquent de diversité scénaristique, ne quantifient pas suffisamment les situations à risque, et omettent souvent des indices comportementaux cruciaux comme l'attention des piétons (regard, orientation de la tête).
Définition du risque : La plupart des approches se basent sur la probabilité de collision explicite, alors que le risque devrait être inféré à partir de la réponse comportementale du conducteur (évitement, freinage).
Manque de corrélation : Peu d'études lient l'attention des piétons (via le visage) à l'évaluation du risque par le conducteur dans des scénarios réels.

2. Contributions Clés

Les auteurs proposent trois contributions principales :

Le jeu de données RAID (Risk Assessment In Driving scenes) : Un nouveau jeu de données à grande échelle contenant 4 691 clips vidéo annotés. Il se distingue par :
- Une diversité de scénarios (4 691 clips, 75 873 objets à risque).
- Des annotations multi-couches : Action du conducteur, Topologie de la route, Situation à risque, Réponse du conducteur.
- Attention des piétons : Annotation manuelle des boîtes englobantes du corps et du visage, avec des étiquettes d'attention (Regarde, Ne regarde pas, Incertain).
Un cadre d'identification d'objets à risque faiblement supervisé : Une méthode qui modélise la relation de cause à effet entre l'action intentionnelle du conducteur et sa réponse comportementale pour identifier la source du risque sans annotations d'objets explicites.
Analyse de l'impact de l'attention : Une étude démontrant comment l'attention des piétons (déduite via le visage) module le score de risque global.

3. Méthodologie

A. Architecture du modèle d'identification d'objets à risque

Le problème est formulé comme un problème de cause à effet : identifier l'objet (cause) qui provoque un changement de comportement du conducteur (effet).

Représentation par Graphes (GCN) :
- Les agents de la scène (piétons, véhicules, feux, etc.) sont détectés et suivis (Mask R-CNN + Deep SORT).
- Un graphe spatio-temporel est construit où les nœuds sont les agents et les arêtes modélisent les relations d'apparence et de présence.
- Une convolution partielle est utilisée pour simuler l'absence d'agents (masquage itératif) afin de déterminer quel agent, s'il était retiré, permettrait au véhicule de continuer sa trajectoire sans modification (score "Continue" élevé). Cet agent est identifié comme l'objet à risque.
Prédiction de l'action du conducteur (Encodeur-Décodeur Temporel) :
- Un réseau LSTM (Encodeur-Décodeur) prédit les actions futures du conducteur (tourner à gauche/droite, aller tout droit) à partir des frames vidéo.
- Cette prédiction d'intention sert de signal d'entraînement supplémentaire pour affiner la compréhension du contexte.
Fusion : Les caractéristiques relationnelles du graphe et l'état caché de l'encodeur d'action sont combinés pour prédire la réponse du conducteur (Continuer ou Altérer).

B. Détection et Classification de l'attention des piétons

Classification : Entraînement de modèles ResNet-101 sur des images recadrées du visage et du corps. Les résultats montrent que l'utilisation du visage est un indicateur bien plus fort que la posture corporelle seule.
Détection : Modification d'un détecteur de visages existant pour ajouter une branche de classification de l'attention (Regarde/Ne regarde pas) en parallèle de la régression des boîtes.
Évaluation du risque conjoint : Un score de risque final ( $s_{risk}$ ) est calculé en combinant le score d'identification de l'objet à risque ( $s_{roi}$ ) et la probabilité que le piéton ne regarde pas le véhicule ($1 - s_{look}$).

4. Résultats Expérimentaux

Les évaluations ont été menées sur le nouveau jeu de données RAID et sur le jeu de données existant HDDS.

Identification d'objets à risque :
- Sur HDDS, la méthode proposée atteint une précision moyenne (mAcc) de 40,41 %, surpassant l'état de l'art (DROID à 29,60 %) de plus de 10 points.
- Sur RAID, la méthode atteint 22,10 % (avec le module d'action du conducteur), soit une amélioration de 20,6 % par rapport aux approches précédentes sur ce jeu de données.
- L'ajout de la prédiction d'action du conducteur améliore significativement la détection de la réponse du conducteur (mAP passant de 80,98 % à 86,88 %).
Attention des piétons :
- L'utilisation d'annotations faciales améliore considérablement la précision de classification (mAP de 83,76 % pour le visage contre 62,10 % pour le corps).
- La classe "Ne regarde pas" est mieux détectée en classification mais plus difficile en détection (due à la petite taille des visages et aux occlusions).
Analyse Qualitative : Les visualisations montrent que l'attention d'un piéton réduit son score de risque attribué, même s'il traverse la route, validant l'hypothèse que le contact visuel diminue l'incertitude.

5. Signification et Conclusion

Ce travail représente une avancée significative pour la compréhension du comportement des conducteurs et la sécurité des véhicules autonomes :

Nouveau Standard de Données : RAID comble le vide en fournissant des données riches sur les interactions conducteur-piéton et l'attention visuelle, un aspect négligé par les jeux de données précédents.
Approche Holistique : En intégrant la réponse comportementale du conducteur et l'attention des piétons, le modèle s'éloigne de la simple prédiction de collision pour adopter une approche cognitive de la perception du risque.
Impact Futur : La méthodologie faiblement supervisée permet d'exploiter de grandes quantités de données non étiquetées pour l'identification de risques, et l'analyse de l'attention ouvre la voie à des systèmes de détection plus robustes capables de comprendre les intentions non verbales dans les environnements de conduite complexes.

En résumé, l'article démontre que la modélisation de l'interaction entre la réponse du conducteur et l'attention des autres usagers est essentielle pour une anticipation réaliste des risques, et propose les outils (données et algorithmes) nécessaires pour y parvenir.