Open-World Motion Forecasting

Each language version is independently generated for its own context, not a direct translation.

🚗 La Voiture Autonome qui Apprend à Vivre dans un Monde Changeant

Imaginez que vous apprenez à conduire. Au début, vous apprenez à reconnaître les voitures et les piétons. Votre cerveau (ou l'ordinateur de la voiture) sait exactement comment ils bougent.

Mais que se passe-t-il si, un an plus tard, des trottinettes électriques apparaissent partout dans la ville ? Ou des vélos cargo géants ?

L'ancienne méthode (Le "Monde Fermé") : Pour apprendre ces nouveaux objets, il faudrait tout effacer, relire des milliers d'heures de vidéos anciennes pour les étiqueter à nouveau, et réapprendre tout depuis zéro. C'est lent, cher et impossible à faire sur une voiture qui roule déjà.
Le problème : Si on essaie d'apprendre les trottinettes sans effacer les connaissances sur les voitures, la voiture risque d'oublier comment les voitures se comportent. C'est ce qu'on appelle l'"oubli catastrophique".

C'est là que les chercheurs de l'Université de Fribourg (avec l'aide de Qualcomm et d'autres) proposent une solution géniale appelée OMEN.

🧠 L'Idée Géniale : OMEN, le Super-Mémoire

Leur approche s'appelle OMEN (Open-World Motion PrEdictioN). Imaginez OMEN comme un chef cuisinier très organisé qui doit apprendre de nouveaux plats sans oublier les anciens, mais avec une contrainte : il n'a qu'un petit réfrigérateur (la mémoire de la voiture) et pas de temps pour tout réécrire.

Voici comment OMEN fonctionne en trois étapes magiques :

1. Le "Devin" (Les Étiquettes Fictives)

Quand une nouvelle classe d'objet arrive (disons, les trottinettes), la voiture n'a pas encore de manuel d'instructions pour elles. Mais elle a déjà appris à repérer les voitures et les piétons.

L'astuce : OMEN utilise son ancienne intelligence pour "deviner" où sont les voitures et les piétons dans les nouvelles vidéos, même si elles ne sont pas étiquetées. Il crée des étiquettes fictives (comme des post-it temporaires) pour dire : "Tiens, c'est probablement une voiture ici".
Le filtre intelligent (Le VLM) : Parfois, le "devin" se trompe et dit "C'est une voiture !" alors que c'est juste un nuage ou un reflet. Pour éviter ça, OMEN utilise un super-œil numérique (un modèle de vision et de langage, comme un Chatbot très visuel) qui regarde l'image et dit : "Non, ce n'est pas une voiture, c'est un panneau." Cela nettoie les erreurs avant qu'elles ne corrompent l'apprentissage.

2. Le "Musée de la Mémoire" (La Révision Sélective)

Pour ne pas oublier les anciennes classes (les voitures), la voiture doit réviser. Mais elle ne peut pas garder toutes les vidéos de l'histoire (trop de place !).

L'ancienne méthode : Choisir des vidéos au hasard pour réviser.
La méthode OMEN : Elle choisit les vidéos les plus intéressantes. Elle se demande : "Quelle vidéo montre les voitures faisant des choses compliquées ?" (virages brusques, arrêts soudains). Elle garde ces scènes "riche en mouvement" dans son petit réfrigérateur.
L'analogie : C'est comme un étudiant qui révise pour un examen. Au lieu de relire tout son cours au hasard, il relit uniquement les pages où il a le plus de mal à comprendre les concepts difficiles. Cela permet de garder la mémoire fraîche sans surcharger le cerveau.

3. L'Apprentissage Continu (Le Monde Ouvert)

Grâce à ces deux astuces, la voiture peut apprendre les trottinettes pendant qu'elle roule, sans jamais oublier comment conduire avec les voitures. Elle s'adapte au monde réel qui change tout le temps.

🌍 Les Résultats : Ça Marche Vraiment ?

Les chercheurs ont testé OMEN sur deux bases de données géantes de vidéos de voitures (nuScenes et Argoverse 2) et même sur leur propre voiture autonome en vrai !

Résultat 1 : La voiture n'oublie pas les anciennes classes. Elle reste aussi bonne sur les voitures qu'avant d'apprendre les trottinettes.
Résultat 2 : Elle apprend très vite les nouveaux objets.
Résultat 3 (Le plus impressionnant) : Ils ont testé la voiture sur de vraies routes (en Irlande, par exemple) alors qu'elle n'avait été entraînée que sur des données de Singapour ou des États-Unis. C'est ce qu'on appelle le "Zero-Shot" : elle a compris la situation sans avoir jamais vu ce lieu spécifique auparavant. Elle a réussi à prédire où allaient les piétons et les voitures, même dans un environnement inconnu.

🎯 En Résumé

Ce papier dit essentiellement : "Arrêtons de construire des voitures autonomes qui sont bloquées dans un monde figé. Créons des voitures qui apprennent comme des humains : elles découvrent de nouveaux objets, s'adaptent, et n'oublient jamais ce qu'elles ont déjà appris."

C'est un pas de géant vers des voitures vraiment autonomes, capables de rouler partout dans le monde, même si les règles de la route ou les types de véhicules changent du jour au lendemain.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Open-World Motion Forecasting" (Prévision de mouvement en monde ouvert), présenté par Nicolas Schischka et ses collègues de l'Université de Fribourg, Qualcomm et QT Technologies.

1. Problématique : La limite du "Monde Fermé"

La prévision de mouvement (Motion Forecasting) est cruciale pour les véhicules autonomes afin d'anticiper le comportement des agents dynamiques (véhicules, piétons, etc.). Cependant, les approches existantes opèrent sous une hypothèse de "monde fermé" (closed-world) :

Taxonomie fixe : L'ensemble des classes d'objets est défini à l'avance et exhaustif.
Perfection de la perception : Elles supposent l'accès à des trajectoires passées parfaitement observées.
Limites réelles : Dans le monde réel, la perception est imparfaite (erreurs de détection) et de nouvelles classes d'objets émergent constamment (ex. : trottinettes électriques, nouveaux types de véhicules).
Le défi de l'apprentissage continu : Ajouter une nouvelle classe nécessite généralement de ré-annoter l'ensemble des données historiques et de ré-entraîner le modèle, ce qui est économiquement et opérationnellement impossible. De plus, un simple ajustement (fine-tuning) sur les nouvelles données entraîne un oubli catastrophique (catastrophic forgetting), dégradant les performances sur les classes déjà apprises.

L'objectif de ce travail est de définir et de résoudre le problème de la prévision de mouvement en monde ouvert, où le modèle doit apprendre continuellement de nouvelles classes à partir de données limitées, sans accès aux données originales des classes précédentes, tout en maintenant ses performances.

2. Méthodologie : Le cadre OMEN

Les auteurs proposent OMEN (Open-World Motion PrEdictioN), le premier cadre de prévision de mouvement en classe incrémentale de bout en bout (end-to-end). L'architecture repose sur deux mécanismes complémentaires pour gérer l'apprentissage continu et éviter l'oubli :

A. Génération de Pseudo-Étiquettes Guidée par VLM (Vision-Language Model)

Pour entraîner le modèle sur de nouvelles classes sans ré-annoter les anciennes données, OMEN génère des étiquettes pour les classes déjà connues :

Pseudo-étiquetage : Le modèle de l'étape précédente ( $\Phi_{i-1}$ ) est utilisé pour générer des détections 3D et des trajectoires futures pour les classes connues sur les nouvelles images.
Filtrage par VLM : Pour éviter que le modèle n'apprenne des faux positifs ou des trajectoires incohérentes (un risque majeur avec des données auto-étiquetées), un modèle Vision-Language (Grounded SAM 2) est utilisé.
- Le VLM vérifie la cohérence visuelle entre les boîtes englobantes 3D générées et les masques d'instances 2D dans les images.
- Seules les prédictions dont la majorité des points clés projetés tombent à l'intérieur des masques du VLM sont conservées comme vérités terrain (pseudo-labels).
- Cela assure une calibration de la confiance du modèle et réduit l'accumulation d'erreurs.

B. Rééchantillonnage d'Expérience Basé sur la Variance (Sequence-Based Experience Replay)

Pour combattre l'oubli catastrophique sans stocker l'ensemble des données historiques :

Buffer de Replay : Un petit tampon ( $\epsilon_i$ ) conserve un nombre fixe de séquences d'images des étapes précédentes.
Stratégie de sélection par Variance : Au lieu de choisir des échantillons aléatoires ou basés sur des similarités d'images (comme DINOv3), OMEN sélectionne les séquences en fonction de la variance des caractéristiques latentes des requêtes de mouvement (motion queries).
- L'algorithme calcule la moyenne des requêtes de mouvement par classe.
- Il sélectionne les séquences où la somme des écarts quadratiques par rapport à cette moyenne est la plus élevée.
- Objectif : Privilégier les scènes contenant des mouvements complexes et informatifs (trajectoires linéaires et non-linéaires) plutôt que des scènes statiques, maximisant ainsi l'efficacité de l'apprentissage continu avec peu de données.

C. Extension à la Planification

Le cadre est conçu pour s'étendre naturellement à la planification en boucle ouverte (open-loop planning) incrémentale en classe, en concaténant une requête pour le véhicule égo au set de requêtes d'objets, permettant au système de planifier sa trajectoire en tenant compte des nouvelles classes d'agents.

3. Contributions Clés

Formalisation d'une nouvelle tâche : Introduction de la "prévision de mouvement en monde ouvert" (Open-World Motion Forecasting).
OMEN : Le premier cadre end-to-end pour la prévision de mouvement incrémentale en classe, fonctionnant directement à partir d'images caméra brutes.
Filtrage VLM : Une stratégie de pseudo-étiquetage innovante utilisant des modèles de langage-vision pour éliminer les faux positifs et maintenir la cohérence temporelle.
Rééchantillonnage par Variance : Un mécanisme de sélection de buffer de replay basé sur la distribution latente des requêtes de mouvement pour préserver la plasticité du modèle sur les agents dynamiques.
Validation Étendue : Démonstration de la capacité de transfert "zero-shot" sur des données réelles et extension à la planification incrémentale.

4. Résultats Expérimentaux

Les évaluations ont été menées sur les datasets nuScenes et Argoverse 2 avec des scénarios d'apprentissage incrémental (par classe et par groupe).

Performance : OMEN surpasse les méthodes de base (Forgetting, CL-DETR, Pseudo-labeling simple) et se rapproche des performances d'un entraînement conjoint (Joint Training) utilisant toutes les données et toutes les classes simultanément.
Gestion de l'oubli : Le modèle maintient des performances élevées sur les classes apprises précédemment tout en s'adaptant aux nouvelles, réduisant significativement l'oubli catastrophique.
Métriques :
- Sur nuScenes, OMEN atteint un mAP de prévision (mAP f) de 15,60 % (contre 14,35 % pour CL-DETR) dans le scénario par classe.
- Sur Argoverse 2, il atteint 29,36 % de mAP f, surpassant les autres méthodes incrémentales.
- L'approche montre une excellente capacité à prédire les trajectoires non-linéaires complexes.
Qualité visuelle : Les visualisations montrent que OMEN prédit correctement les virages et les arrêts, là où les méthodes concurrentes produisent des trajectoires irréalistes (ex: traverser la circulation opposée).
Monde Réel : Des tests sur le véhicule autonome de l'équipe démontrent une capacité de transfert zero-shot réussie, le modèle conservant sa connaissance des classes "voiture" et "piéton" même après un changement de domaine (données de Singapour/Boston vers des données réelles en Allemagne).

5. Signification et Impact

Ce travail représente une avancée majeure pour le déploiement de systèmes de conduite autonome dans des environnements réels et dynamiques.

Évolutivité : Il résout le problème de la mise à jour des modèles face à de nouveaux types d'objets sans nécessiter de ré-annotation massive ni de stockage de données historiques complètes.
Robustesse : En intégrant la perception imparfaite et l'apprentissage continu, OMEN rend les systèmes plus robustes aux erreurs de détection et aux changements de l'environnement.
Futur : La démonstration de l'extension à la planification suggère que cette approche pourrait être le fondement de systèmes de conduite autonome complets capables d'évoluer continuellement dans un "monde ouvert".

En résumé, OMEN comble le fossé entre les approches théoriques de prévision de mouvement et les contraintes pratiques du déploiement réel, offrant une solution scalable et efficace pour l'apprentissage continu en conduite autonome.