Recover to Predict: Progressive Retrospective Learning for Variable-Length Trajectory Prediction

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous conduisez une voiture autonome. Votre but est de prédire où vont aller les autres voitures, piétons ou cyclistes dans les prochaines secondes. Pour cela, votre cerveau artificiel (l'ordinateur de bord) a besoin de regarder l'historique de leurs mouvements.

Le problème, c'est que dans la vraie vie, la vue de votre voiture n'est pas toujours parfaite.

Parfois, un camion cache un piéton pendant quelques secondes, puis il réapparaît.
Parfois, une voiture entre dans votre champ de vision alors qu'elle venait de tourner.

Dans ces cas-là, vous n'avez qu'un morceau de l'histoire (une trajectoire courte et incomplète) au lieu de l'histoire complète. Les anciennes méthodes de prédiction étaient comme des élèves qui avaient appris à résoudre un problème en regardant 10 pages de texte, mais qui paniquaient dès qu'on ne leur donnait que 2 pages. Elles faisaient des erreurs dangereuses.

Voici comment les auteurs de cette nouvelle méthode, appelée PRF, ont résolu le problème, en utilisant des analogies simples :

1. Le problème : Le saut trop grand

Les méthodes actuelles essaient de deviner le passé manquant d'un coup, comme si on demandait à quelqu'un de reconstituer un puzzle de 1000 pièces en ne lui donnant que 5 pièces. C'est trop difficile, et le résultat est souvent faux.

2. La solution : L'escalier (Le "Recul Progressif")

Au lieu de faire un saut géant, les auteurs proposent de monter un escalier. Imaginez que vous devez remonter une colline raide (retrouver l'histoire complète) à partir d'un point bas (l'observation courte).

L'ancienne méthode : Essayer de sauter du bas au sommet en un seul bond. Vous tombez.
La méthode PRF : Construire un escalier avec plusieurs petites marches. Vous montez d'abord une marche, puis une autre, jusqu'au sommet.

C'est ce qu'ils appellent un "Cadre de Rétrospection Progressive". Le système ne devine pas tout d'un coup. Il regarde ce qu'il a, puis il essaie de deviner juste un peu de ce qui manquait avant, puis encore un peu plus, étape par étape, jusqu'à reconstituer l'histoire complète.

3. Les deux outils magiques de chaque marche

Pour chaque petite marche de l'escalier, le système utilise deux assistants :

L'Assistant "Distillateur" (RDM) : Imaginez que vous avez un verre d'eau trouble (les données incomplètes). Cet assistant filtre l'eau pour en extraire l'essentiel, mais il ajoute aussi un peu de "magie" (des détails appris) pour simuler ce qui aurait dû être là. Il nettoie et prépare l'information pour la prochaine étape.
L'Assistant "Détective" (RPM) : Une fois l'information nettoyée, ce détective essaie de reconstituer les pièces manquantes du puzzle. Il dit : "Attends, si la voiture était ici il y a 2 secondes, elle a dû passer par là il y a 3 secondes". Il comble les trous de l'histoire.

4. L'astuce de l'entraînement : Le "Début en Rouleau" (RSTS)

C'est ici que ça devient intelligent pour l'apprentissage.
D'habitude, pour entraîner un élève, on lui donne un long texte et on lui demande de répondre. Si on lui donne un texte court, on ne l'utilise pas. C'est du gaspillage.

Les auteurs ont inventé une méthode appelée "Stratégie de Début en Rouleau".
Imaginez un film de 10 minutes. Au lieu de ne l'utiliser qu'une seule fois pour l'entraînement, on le découpe en plusieurs morceaux :

On entraîne le système avec les 10 minutes.
On l'entraîne aussi avec les 8 dernières minutes.
Puis avec les 6 dernières, etc.

Ainsi, une seule vidéo de formation sert à entraîner le système sur plein de longueurs différentes. C'est comme si un étudiant lisait un livre entier, puis relisait seulement les derniers chapitres, puis les derniers et l'avant-dernier, etc. Il devient un expert de la lecture, peu importe la longueur du texte qu'on lui donne.

5. Le résultat : Une voiture plus sûre

Grâce à cette méthode :

La voiture autonome ne panique plus si elle perd de vue un piéton pendant quelques secondes.
Elle peut prédire où il va même avec très peu d'informations.
Elle fonctionne aussi bien avec une observation courte qu'avec une longue, sans avoir besoin d'installer plusieurs cerveaux différents (ce qui économise de la puissance de calcul).

En résumé :
Au lieu d'essayer de deviner le passé d'un coup (ce qui est dur et imprécis), cette nouvelle méthode le reconstruit brique par brique, en utilisant un entraînement malin qui apprend à la voiture à être un expert de l'histoire, même quand l'histoire est incomplète. C'est comme passer d'un saut périlleux risqué à une montée d'escaliers sûre et méthodique.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La prédiction de trajectoire est essentielle pour la conduite autonome, permettant aux véhicules de planifier des manœuvres sûres dans un trafic dense et dynamique. Cependant, la plupart des méthodes existantes optimisent leur précision en supposant des observations historiques de longueur fixe et complète.

Dans le monde réel, cette hypothèse est souvent violée :

Un véhicule peut entrer tardivement dans le champ de perception de l'égo-véhicule.
Un agent peut être temporairement perdu en raison d'occlusions ou d'erreurs de suivi.
Cela génère des observations incomplètes et de longueur variable.

Les stratégies actuelles pour gérer ce problème souffrent de limitations majeures :

Entraînement Isolé (Isolated Training - IT) : Entraîner un modèle distinct pour chaque longueur d'observation. Bien que cela améliore légèrement les performances, cela entraîne des coûts de calcul et de mémoire prohibitifs (multiples modèles).
Cartographie Directe (One-shot Mapping) : Tenter de mapper directement les caractéristiques d'une observation courte vers une représentation complète. Cette approche échoue souvent sur les trajectoires très courtes en raison de l'écart informationnel trop important entre l'entrée courte et la cible complète, rendant l'apprentissage de représentations fidèles difficile.

2. Méthodologie : Le Cadre Rétrospectif Progressif (PRF)

Les auteurs proposent le Progressive Retrospective Framework (PRF), une architecture "plug-and-play" qui s'insère entre l'encodeur et le décodeur des modèles existants. Au lieu d'une reconstruction directe, PRF aligne progressivement les caractéristiques des observations incomplètes avec celles des observations complètes via une cascade d'unités rétrospectives.

A. Architecture Globale

Le PRF décompose le problème complexe de reconstruction d'une longue trajectoire à partir d'une courte en plusieurs étapes plus simples.

Soit une observation complète de longueur $T_o$ .
Soit une observation incomplète $X_v$ où les premiers $v \cdot \Delta T$ pas de temps sont manquants.
Le système utilise $\tau$ unités rétrospectives ( $\Phi_1, \dots, \Phi_\tau$ ). Chaque unité $\Phi_v$ est responsable de la reconstruction d'un segment manquant de longueur $\Delta T$ pour passer d'une observation de longueur $T_v$ à $T_{v-1}$ .
Le processus est itératif : l'entrée courte traverse successivement les unités pour reconstruire l'histoire manquante pas à pas jusqu'à atteindre la longueur standard.

B. Modules Clés de chaque Unité

Chaque unité $\Phi_v$ se compose de deux modules :

Module de Distillation Rétrospective (RDM - Retrospective Distillation Module) :
- Objectif : Aligner les caractéristiques de l'observation courte (élève) avec celles de l'observation plus longue (enseignant).
- Stratégie : Utilisation d'une distillation basée sur les résidus. Au lieu de prédire directement les caractéristiques manquantes, le RDM modélise la différence (le résidu) induite par les pas de temps omis comme un vecteur résiduel apprenable.
- Mécanisme : Il utilise des branches parallèles (logit et résiduelle) avec des mécanismes d'attention (Self-Attn, Cross-Attn) pour générer un vecteur de porte (gating) et un résidu, fusionnés via une connexion de raccourci. Cela permet de préserver les composantes fiables tout en imputant les omissions.
Module de Prédiction Rétrospective (RPM - Retrospective Prediction Module) :
- Objectif : Reconstruire les pas de temps historiques manquants ( $\Delta T$ ) à partir des caractéristiques distillées.
- Stratégie : Une approche de requêtes découplées intégrant des schémas "sans ancre" (anchor-free) et "avec ancre" (anchor-based).
  - Requêtes de mode (Mode Queries) : Génèrent des propositions multimodales grossières (diversité des trajectoires possibles).
  - Requêtes d'état (State Queries) : Affinent ces propositions en apprenant la dynamique temporelle des agents.
- Innovation : Utilisation de l'architecture Mamba (modèle d'état séquentiel) pour modéliser les dépendances temporelles dans les requêtes d'état, remplaçant les mécanismes d'attention traditionnels pour une meilleure efficacité séquentielle.
- Rôle de supervision : Le RPM fournit une supervision implicite au RDM en forçant la reconstruction de l'histoire, améliorant ainsi la qualité de la distillation.

C. Stratégie d'Entraînement : RSTS

Pour améliorer l'efficacité des données, les auteurs proposent la Rolling-Start Training Strategy (RSTS).

Au lieu d'utiliser une seule fenêtre d'observation par séquence, RSTS génère plusieurs échantillons d'entraînement à partir d'une seule séquence en décalant le point de départ.
Cela permet d'utiliser des observations partielles pour entraîner non seulement les unités ciblées, mais aussi les unités supérieures (plus longues), augmentant considérablement la quantité de données d'entraînement disponibles pour les scénarios à courte durée.

3. Contributions Principales

Cadre PRF : Un nouveau cadre qui aligne progressivement les caractéristiques d'observations variables via une cascade d'unités, réduisant la difficulté d'apprentissage par rapport aux méthodes de cartographie directe.
Modules RDM et RPM : Conception conjointe d'un module de distillation par résidus et d'un module de prédiction rétrospective utilisant Mamba et des requêtes découplées pour une récupération précise de l'histoire.
Stratégie RSTS : Une méthode d'augmentation de données qui exploite les séquences incomplètes pour améliorer l'efficacité de l'entraînement.
Compatibilité et Performance : Le PRF est "plug-and-play" (s'adapte aux modèles existants comme QCNet et DeMo) et atteint des performances de pointe (SOTA) sur des longueurs variables et standard.

4. Résultats Expérimentaux

Les expériences ont été menées sur les ensembles de données Argoverse 2 et Argoverse 1.

Prédiction à longueur variable :
- PRF surpasse significativement les méthodes de référence (QCNet, DeMo, DTO, FLN, LaKD, CLLS) sur toutes les longueurs d'observation.
- Il réduit considérablement l'écart de performance entre les observations courtes (ex: 10 pas) et les observations complètes (ex: 50 pas), là où les méthodes SOTA dégradent fortement leurs performances.
- Sur Argoverse 2, avec un backbone DeMo, PRF atteint un mADE6 de 0.617 (contre 0.658 pour DeMo original) et un mFDE6 de 1.183 (contre 1.278) pour une observation de 10 pas.
Prédiction standard (Longueur complète) :
- PRF améliore également les performances sur les tâches standard.
- Sur Argoverse 2, la méthode DeMo-PRF obtient le meilleur résultat sur le leaderboard officiel (b-mFDE6 de 1.81), surpassant des modèles comme DeMo, QCNet et Tamba.
- Sur Argoverse 1, elle obtient également les meilleurs résultats pour mADE6 et mFDE6.
Analyse d'ablation :
- L'ajout du RDM apporte des gains substantiels.
- L'ajout du RPM apporte des gains supplémentaires grâce à la supervision implicite.
- La stratégie RSTS améliore la robustesse en augmentant l'utilisation des données.
- La distillation progressive est supérieure à la distillation directe (one-shot), comme le montrent les visualisations t-SNE (meilleure alignement des caractéristiques).
Efficacité :
- Bien que l'inférence implique une itération (rétrospection), le coût computationnel reste modeste (augmentation linéaire de ~0.03s et 0.07G FLOPs par étape rétrospective).
- Les modules RDM et RPM ne sont pas utilisés lors de l'inférence standard (seulement l'alignement progressif), mais le coût global reste acceptable pour le gain de précision.

5. Signification et Impact

Ce travail adresse un problème critique et souvent négligé en conduite autonome : la robustesse face aux observations incomplètes.

Pratique : En permettant aux systèmes de prédire avec précision même lorsque les véhicules sont récemment apparus ou ont été perdus de vue, PRF réduit les risques de manœuvres dangereuses et de collisions dans des scénarios réels.
Théorique : Il démontre que la décomposition d'un problème de reconstruction complexe en une série de petites étapes (apprentissage progressif) est plus efficace que les tentatives de mapping direct, surtout lorsque l'écart informationnel est grand.
Généralité : Le caractère "plug-and-play" de PRF permet son intégration immédiate dans les pipelines de prédiction existants, offrant une voie simple pour améliorer la robustesse des systèmes de conduite autonome sans nécessiter de réinventer l'architecture de base.