Multi-Context Fusion Transformer for Pedestrian Crossing Intention Prediction in Urban Environments

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un conducteur autonome, comme une voiture intelligente qui doit traverser une ville très animée. Votre plus grand défi n'est pas de voir la route, mais de deviner ce que les piétons vont faire. Un piéton va-t-il traverser la rue maintenant ? Va-t-il attendre ? Va-t-il simplement marcher le long du trottoir ?

C'est là que cette recherche intervient. Les auteurs ont créé un "cerveau" artificiel appelé MFT (Transformateur à Fusion Multi-Contexte) pour aider les voitures à lire dans les pensées des piétons.

Voici comment cela fonctionne, expliqué simplement avec des images du quotidien :

1. Le Problème : Ne pas regarder que le visage

Jusqu'à présent, beaucoup de systèmes regardaient uniquement le piéton (son visage, ses mouvements) pour deviner ses intentions. C'est un peu comme essayer de deviner si quelqu'un va traverser la rue en ne regardant que ses yeux, sans voir la route, les feux rouges ou la voiture qui arrive. C'est risqué !

Les chercheurs ont dit : "Non, il faut regarder tout le tableau."

2. La Solution : Les 4 Piliers de l'Intelligence

Leur système, le MFT, ne se contente pas d'un seul indice. Il rassemble quatre types d'informations, comme un détective qui réunirait quatre témoins différents pour reconstituer l'histoire :

Le Comportement du Piéton (Le "Quoi") : Regarde-t-il la voiture ? Fait-il un signe de la main ? S'arrête-t-il ? C'est comme observer si quelqu'un a l'air pressé ou distrait.
La Localisation (Le "Où") : Où se trouve le piéton exactement ? Est-il sur le trottoir ou déjà sur la chaussée ? C'est la position sur le plan.
Le Véhicule (Le "Moi") : Que fait la voiture elle-même ? Freine-t-elle ? Accélère-t-elle ? Si la voiture ralentit, le piéton pourrait penser qu'il a la priorité.
L'Environnement (Le "Cadre") : Y a-t-il un passage piéton ? Un feu rouge ? Une rue à sens unique ? C'est le décor de la scène.

3. Le Cerveau : Un Chef d'Orchestre (Le Transformer)

Comment le système combine-t-il ces quatre informations ? Imaginez une réunion de travail avec quatre experts (les quatre piliers ci-dessus).

Étape 1 : La discussion de groupe (Fusion intra-contexte). Chaque expert discute d'abord avec ses propres notes. Par exemple, l'expert "Comportement" analyse tous les mouvements du piéton pour comprendre son humeur.
Étape 2 : La grande réunion (Fusion inter-contexte). Ensuite, les quatre experts se parlent entre eux. L'expert "Environnement" dit : "Il y a un feu rouge !" L'expert "Comportement" répond : "Ah, donc le piéton s'arrête probablement." Ils échangent des idées pour former une opinion commune.
Étape 3 : Le Chef d'Orchestre (Le Token CLS). Il y a un chef (le "Token CLS") qui écoute tout le monde. Mais ce chef n'est pas passif. Il utilise une technique spéciale appelée "Attention Guidée".
- L'analogie : Imaginez que le chef a un projecteur. Au lieu de regarder tout le monde en même temps de manière confuse, il pointe son projecteur intelligemment sur l'expert le plus important à ce moment précis.
- Si le feu est rouge, il éclaire l'expert "Environnement".
- Si le piéton fait un signe de la main, il éclaire l'expert "Comportement".
- Cela permet de ne pas se perdre dans le bruit et de prendre la décision la plus précise.

4. Pourquoi c'est génial ?

C'est léger et rapide : Contrairement aux autres systèmes qui essaient de tout analyser en détail (comme regarder chaque pixel d'une photo, ce qui est lent et coûteux), le MFT utilise des "résumés" intelligents. C'est comme lire un résumé de livre plutôt que de lire chaque mot : on comprend l'histoire beaucoup plus vite.
C'est robuste : Même si la vidéo est floue ou si le piéton bouge bizarrement, le système utilise les autres indices (comme le feu rouge ou la position) pour ne pas se tromper.
Les résultats : Sur des tests réels, ce système a deviné l'intention des piétons avec une précision impressionnante (jusqu'à 93% de réussite), battant les meilleurs systèmes existants.

En résumé

Cette recherche propose une voiture intelligente qui ne se contente pas de "voir" les piétons. Elle comprend la scène entière en combinant le comportement humain, la position, la dynamique de la voiture et le décor urbain. Grâce à un mécanisme d'attention intelligent qui sait exactement sur quel indice se concentrer à chaque seconde, elle peut prédire les intentions avec une grande fiabilité, rendant nos routes plus sûres pour tout le monde.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La prédiction de l'intention de traverser des piétons est un défi critique pour la sécurité des véhicules autonomes (VA) en milieu urbain. Bien que des méthodes existantes utilisent des modalités brutes (images RGB, flux optique, poses squelettiques), elles souffrent de plusieurs limitations :

Coût computationnel élevé : Le traitement de modalités brutes haute dimensionnalité entraîne des modèles sur-paramétrés et coûteux.
Manque d'interprétabilité : Les caractéristiques apprises sont souvent implicites et entremêlées, rendant difficile la compréhension de leur contribution spécifique.
Fragilité : Ces modèles sont sensibles au bruit, aux données incomplètes et manquent de robustesse face à la variabilité des comportements piétons et des environnements complexes.
Contexte incomplet : De nombreuses approches négligent des facteurs contextuels fins (comportement du piéton, dynamique du véhicule, conditions environnementales) au profit de simples repères visuels.

L'objectif est donc de développer une méthode légère, interprétable et robuste capable d'intégrer efficacement des contextes hétérogènes pour prédire l'intention de traverser.

2. Méthodologie : Le Transformer à Fusion Multi-Contexte (MFT)

Les auteurs proposent le MFT, une architecture basée sur des Transformers qui ne traite pas les données brutes, mais des attributs contextuels numériques sémantiquement explicites dérivés des données capteurs.

Représentation des Entrées (4 Contextes)

Le modèle intègre quatre dimensions complémentaires :

Comportement du piéton (P) : États discrets (marche/arrêt, regard, hochement de tête, gestes de la main, direction du mouvement).
Localisation du piéton (L) : Coordonnées de la boîte englobante (bounding box) pour capturer la position spatiale et le mouvement.
Mouvement du véhicule (V) : État cinématique du véhicule égo (vitesse, décélération, accélération) indiquant les intentions de cession de priorité.
Environnement (E) : Attributs de la scène (présence de passage piéton, feux de circulation, type de route, panneaux, nombre de voies).

Stratégie de Fusion Progressive

L'architecture MFT utilise une stratégie de fusion en plusieurs étapes pour intégrer ces contextes :

Fusion Intra-Contexte (ICF) :
- Chaque contexte est d'abord traité individuellement via un mécanisme d'attention intra-contexte mutuelle (MI-Attn).
- Un token de contexte spécifique ( $f_{cls}^i$ ) interagit bidirectionnellement avec la séquence temporelle de ce contexte pour capturer les dépendances temporelles et créer une représentation compacte.
Fusion Inter-Contexte (CCF) :
- Les tokens de contexte mis à jour sont combinés avec un token CLS global.
- Un mécanisme d'attention inter-contexte mutuelle (MC-Attn) permet un échange d'informations bidirectionnel entre les différents contextes et le token global, créant une représentation multi-contexte préliminaire.
Raffinement Intra-Contexte (ICR) :
- Un mécanisme d'attention intra-contexte guidée (GI-Attn) affine les tokens de contexte individuels. Contrairement à la MI-Attn, l'attention est dirigée : le token de contexte agrège sélectivement les informations de sa propre séquence temporelle pour un raffinement précis.
Raffinement Inter-Contexte (CCR) :
- C'est l'étape finale de fusion. Un mécanisme d'attention inter-contexte guidée (GC-Attn) permet au token CLS global d'attirer sélectivement les informations des tokens de contexte raffinés.
- Cette attention dirigée (du contexte vers le CLS) permet une agrégation efficace et une représentation globale unifiée, qui est ensuite passée à un MLP pour la classification binaire (traverser / ne pas traverser).

3. Contributions Clés

Représentation Explicite et Légère : Remplacement des modalités brutes par des attributs numériques sémantiques, réduisant la complexité computationnelle et améliorant l'interprétabilité.
Stratégie de Fusion Progressive : Conception d'une architecture Transformer à quatre étapes (ICF, CCF, ICR, CCR) utilisant des mécanismes d'attention mutuels et guidés pour une intégration fine des informations intra et inter-contextes.
Performance et Efficacité : Démonstration que l'intégration de ces quatre contextes hétérogènes améliore significativement la précision par rapport aux méthodes de l'état de l'art (SOTA), tout en restant très légère (0,95 million de paramètres).

4. Résultats Expérimentaux

Le modèle a été évalué sur les jeux de données publics JAAD (JAADbeh et JAADall) et PIE.

Précision (Accuracy) :
- JAADbeh : 73 % (meilleur résultat, +2 % par rapport au SOTA).
- JAADall : 93 % (meilleur résultat, +1 % par rapport au SOTA).
- PIE : 90 % (3ème place, mais meilleur AUC de 94 %).
Efficacité Computationnelle :
- MFT est le modèle le plus compact (0,95 M de paramètres, 9,40 Mo) parmi les comparés.
- Temps d'inférence : 23,20 ms, permettant une utilisation en temps réel.
Études d'Ablation :
- La suppression de n'importe quel contexte entraîne une baisse de performance, confirmant la complémentarité des quatre dimensions.
- L'attention guidée (GC-Attn) s'avère supérieure aux mécanismes d'attention additifs, pondérés ou par pooling moyen.
Horizon de Prédiction Long :
- Pour des horizons de 2 à 3 secondes (plus difficiles), MFT surpasse nettement les modèles basés sur des modalités brutes (comme Global PCPA), démontrant une meilleure robustesse grâce à la nature explicite de ses entrées.

5. Signification et Impact

Ce travail marque une avancée significative dans la prédiction d'intention des piétons en démontrant qu'une approche basée sur des caractéristiques sémantiques explicites peut surpasser les approches "end-to-end" lourdes basées sur les images brutes.

Robustesse : La méthode est moins sensible au bruit et aux variations de conditions d'éclairage ou de météo, car elle repose sur des attributs structuraux et comportementaux plutôt que sur des pixels bruts.
Déploiement : Sa faible empreinte mémoire et son temps d'inférence rapide en font un candidat idéal pour l'intégration dans les systèmes de véhicules autonomes réels.
Interprétabilité : La visualisation des cartes d'attention montre que le modèle apprend à pondérer dynamiquement les contextes (par exemple, se concentrer sur l'environnement pour les passages piétons ou sur le comportement pour les piétons statiques), offrant une transparence cruciale pour la sécurité.

En conclusion, le MFT propose un cadre efficace et évolutif pour la sécurité des usagers vulnérables de la route, en combinant rigueur sémantique et puissance des Transformers.