Uncertainty-Aware Diffusion Model for Multimodal Highway Trajectory Prediction via DDIM Sampling

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous conduisez sur l'autoroute. Vous devez deviner ce que vont faire les autres voitures dans les 5 prochaines secondes. Vont-elles changer de voie ? Vont-elles freiner ? Vont-elles accélérer ?

Le problème, c'est que l'avenir est incertain. Une même situation peut avoir plusieurs issues plausibles. C'est là que ce papier scientifique intervient. Il présente une nouvelle intelligence artificielle (IA) appelée cVMDx, conçue pour prédire ces trajectoires futures de manière plus rapide, plus sûre et plus intelligente.

Voici une explication simple, avec des analogies du quotidien, de ce que cette équipe a réalisé.

1. Le Problème : La "Bougie" qui brûle trop lentement

Avant ce travail, les chercheurs utilisaient un modèle appelé cVMD. C'était comme un artiste très talentueux qui peignait des paysages, mais qui prenait des heures pour faire un seul tableau.

Le problème : Pour prédire l'avenir, il ne suffit pas de faire un seul dessin (une seule trajectoire). Il faut en faire des centaines pour voir toutes les possibilités (changer de voie à gauche, à droite, ou rester tout droit).
La conséquence : L'ancien modèle était trop lent. Faire 100 dessins pour une seule voiture prenait trop de temps pour une voiture autonome qui doit réagir en temps réel. C'était comme essayer de lire un livre en attendant qu'une tortue traverse la route.

2. La Solution : Le "Super-Express" (DDIM)

L'équipe a amélioré le moteur de leur IA en utilisant une technique appelée DDIM.

L'analogie : Imaginez que l'ancien modèle devait dessiner chaque trait de crayon, un par un, en tremblant un peu à chaque fois pour ajouter du réalisme. C'était lent.
La nouveauté : Le nouveau modèle (cVMDx) utilise un "express". Au lieu de faire 1000 petits pas pour dessiner la trajectoire, il fait 10 grands pas intelligents.
Le résultat : C'est 100 fois plus rapide ! On peut maintenant générer des dizaines de scénarios possibles en quelques millisecondes, ce qui est crucial pour la sécurité routière.

3. La Boîte à Outils Météo (Le VQ-VAE vs CVQ-VAE)

Pour prédire l'avenir, l'IA doit comprendre le "contexte" : est-ce que la route est encombrée ? Y a-t-il un camion ?
L'ancien modèle utilisait une "boîte à outils" (un codebook) pour classer les situations. Parfois, cette boîte avait un défaut : elle utilisait toujours les mêmes outils et oubliait les autres (un peu comme un chef qui n'utilise que le couteau et l'assiette, même pour faire une soupe).

L'amélioration : Ils ont remplacé cette boîte par une version améliorée (CVQ-VAE). C'est comme donner au chef une boîte à outils complète et bien rangée où chaque outil est utilisé à sa juste place. Cela évite que l'IA oublie certaines situations rares mais dangereuses.

4. La Boussole de l'Incertitude (Guidance Adaptative)

C'est la partie la plus intelligente. L'IA doit savoir quand elle est sûre d'elle et quand elle doit être prudente.

L'analogie : Imaginez un guide touristique.
- Si vous êtes dans un quartier qu'il connaît par cœur (situation familière), il vous dit : "Tournez à droite, c'est sûr !" (Il est très directif).
- Si vous êtes dans une zone de brouillard ou une route inconnue (situation incertaine), il dit : "Attention, il y a plusieurs chemins possibles, regardez bien autour de vous." (Il est plus flexible).
Le fonctionnement : Le nouveau modèle mesure son propre "degré de doute". S'il est incertain, il relâche la pression et laisse l'IA imaginer plus de scénarios différents. S'il est sûr, il se concentre sur le scénario le plus probable. Cela évite de prédire des choses impossibles ou dangereuses.

5. Le Résultat : Un Nuage de Possibilités

Au lieu de donner une seule ligne droite (ce qui est souvent faux), le modèle génère un nuage de trajectoires.

Il dessine, par exemple, 9 chemins possibles.
Ensuite, il regroupe ces chemins en "modes" : "Voici le groupe qui va changer de voie à gauche", "Voici le groupe qui va rester tout droit".
Cela permet à la voiture autonome de dire : "Il y a 70% de chances que l'autre voiture change de voie, donc je vais ralentir par sécurité."

En Résumé

Ce papier nous dit essentiellement : "Nous avons pris un modèle de prédiction de trajectoire qui était lent et rigide, et nous l'avons transformé en un système rapide, flexible et capable de gérer l'incertitude."

Grâce à cette innovation, les voitures autonomes pourront mieux anticiper les comportements imprévisibles des autres conducteurs, un peu comme un bon conducteur humain qui ne se contente pas de regarder la route, mais qui imagine aussi ce qui pourrait arriver.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La prédiction de trajectoire est un composant critique des systèmes de conduite autonome. Elle doit relever plusieurs défis majeurs :

Multimodalité et Stochasticité : Le comportement futur des véhicules est intrinsèquement stochastique et multimodal (plusieurs manœuvres plausibles, comme changer de voie ou accélérer, peuvent découler d'une même situation).
Incertitude : Il est crucial de quantifier l'incertitude pour la planification sûre, plutôt que de fournir une seule trajectoire déterministe.
Limitations des modèles existants : L'approche précédente, cVMD (Conditioned Vehicle Motion Diffusion), bien que performante, présente trois faiblesses majeures :
1. Inefficacité computationnelle : L'échantillonnage itératif des modèles de diffusion (DDPM) est trop lent pour des applications temps réel, empêchant la génération de multiples hypothèses nécessaires à l'estimation de l'incertitude.
2. Représentation fragile : L'utilisation d'un VQ-VAE pour encoder les scénarios est sujette à l'effondrement du codebook (codebook collapse), réduisant la diversité des encodages.
3. Sortie unique : cVMD ne génère qu'une seule trajectoire à l'inférence, limitant sa capacité à capturer la structure multimodale réelle.

2. Méthodologie : Le cadre cVMDx

Les auteurs proposent cVMDx, une amélioration du cadre cVMD intégrant quatre innovations clés pour rendre la prédiction plus rapide, robuste et multimodale.

A. Représentation de Scénario Améliorée (CVQ-VAE)

Au lieu d'un VQ-VAE standard, le modèle utilise un CVQ-VAE (Continuous Vector Quantized VAE).
Objectif : Mitiger l'effondrement du codebook en mettant à jour adaptativement les entrées du codebook, assurant une utilisation équilibrée des tokens de scénario et une meilleure capacité latente.
Estimation d'incertitude contextuelle : Une fois les scénarios discrétisés en clusters, une distribution gaussienne multivariée est ajustée à chaque cluster. La distance de Mahalanobis entre un nouvel encodage latent et son cluster attribué sert de mesure d'incertitude ( $\delta_m$ ).

B. Objectif d'Entraînement par Vitesse

Le modèle de diffusion est entraîné non pas pour prédire le bruit ou les données brutes, mais pour prédire la vitesse ( $v_t$ ) dans l'espace latent.
Cette paramétrisation (introduite par [15]) offre une stabilité d'entraînement supérieure et un signal d'apprentissage plus uniforme à travers les étapes de temps, évitant les déséquilibres liés aux facteurs d'échelle variables des paramètres classiques.

C. Échantillonnage DDIM et Inférence Rapide

Pour résoudre le problème de lenteur, le passage du DDPM (stochastique) au DDIM (Deterministic Denoising Diffusion Implicit Models) est effectué.
Le DDIM interprète le processus comme la résolution d'une équation différentielle ordinaire (ODE), permettant un échantillonnage déterministe avec beaucoup moins d'étapes ( $S \ll T$ ).
Résultat : Une accélération d'inférence d'un facteur 100x, rendant possible la génération de multiples trajectoires (ex: 9 échantillons) en temps réel pour l'estimation de l'incertitude.

D. Guidage Classifier-Free Adaptatif (CFG)

Le modèle utilise un mécanisme de guidage sans classifieur (CFG) où la force de conditionnement ( $w$ ) est ajustée dynamiquement.
Adaptation à l'incertitude : La valeur maximale de $w$ est réduite si l'incertitude du scénario ( $\delta_m$ ) est élevée (scénario peu familier), favorisant la diversité des hypothèses. À l'inverse, pour des scénarios familiers, le guidage est plus fort pour assurer la fidélité.
Planification Cosinus : Une schedule en cosinus est appliquée sur les étapes de diffusion pour éviter un sur-conditionnement en fin de processus.

E. Modélisation Multimodale Explicite

Au lieu de sortir une seule trajectoire, le modèle génère $N_{samples}$ trajectoires.
Ces trajectoires sont projetées en PCA puis modélisées par un Mélange de Gaussiennes (GMM).
Le nombre optimal de modes ( $C$ ) est sélectionné via le critère d'information bayésien (BIC), permettant d'extraire des hypothèses de manœuvre distinctes (ex: changement de voie à gauche vs maintien de voie) et d'estimer leurs probabilités respectives.

3. Résultats Expérimentaux

Les expériences ont été menées sur le jeu de données highD (autoroutes allemandes).

Efficacité : Le passage au DDIM permet une accélération d'inférence de 100 fois par rapport à cVMD (DDPM), rendant la génération de multiples hypothèses praticable.
Précision :
- cVMDx (moyenne des échantillons) atteint un ADE (Average Displacement Error) de 1.37 m et un FDE (Final Displacement Error) de 3.84 m sur 5 secondes.
- Cela représente une amélioration significative par rapport à cVMD original (ADE: 1.79 m) et à d'autres modèles de l'état de l'art (comme GFTNNv2, HSTA, CS-LSTM).
Étude Ablative (Codebook) : L'augmentation de la taille du codebook ( $Q$ ) dans le CVQ-VAE n'apporte que des gains marginaux. L'analyse montre que simplement augmenter la capacité du codebook sans augmenter la taille du dataset ne réduit pas significativement la divergence KL, suggérant que la structure des données est le facteur limitant plutôt que la capacité du codebook.
Multimodalité : Bien que les modèles de régression ponctuelle (point estimators) puissent obtenir de meilleurs scores sur des métriques moyennes dans certains cas, cVMDx excelle dans la représentation de la distribution complète des futurs possibles, ce qui est crucial pour la sécurité.

4. Contributions Clés

cVMDx : Un cadre de prédiction de trajectoire basé sur la diffusion, amélioré pour l'efficacité et la robustesse.
Intégration CVQ-VAE : Remplacement du VQ-VAE pour stabiliser l'encodage des scénarios et éviter l'effondrement du codebook.
Inférence DDIM : Réduction drastique du temps d'inférence (100x) permettant une estimation d'incertitude par échantillonnage multiple.
Guidage Adaptatif : Un schéma de guidage CFG sensible à l'incertitude qui ajuste la force du conditionnement selon la familiarité du scénario.
Modélisation GMM : Une approche non supervisée pour extraire et quantifier les modes comportementaux distincts à partir des échantillons générés.

5. Signification et Impact

Ce travail démontre que les modèles de diffusion peuvent être rendus pratiques pour la conduite autonome en temps réel tout en conservant leurs avantages génératifs (multimodalité, incertitude).

Pour la sécurité : La capacité à générer et à pondérer plusieurs hypothèses de trajectoire permet aux systèmes de planification de mieux gérer les situations ambiguës et de prendre des décisions plus sûres.
Pour la recherche : Il établit un nouveau standard pour l'efficacité des modèles de diffusion dans les applications critiques, en montrant que l'optimisation de l'échantillonnage (DDIM) et de l'objectif d'entraînement (vitesse) est aussi importante que l'architecture du réseau lui-même.

En résumé, cVMDx résout le compromis traditionnel entre la richesse des prédictions probabilistes et la contrainte de temps réel, offrant une solution robuste pour la prédiction de trajectoires sur autoroute.