AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🤖 AutoTraces : Le "Super-Prévisionniste" pour les Robots

Imaginez que vous êtes dans un centre commercial très bondé. Vous marchez, vous évitez les gens, vous tournez autour des étals, et vous vous arrêtez devant une vitrine. C'est une danse sociale complexe. Maintenant, imaginez un robot qui doit faire la même chose.

Le problème ? La plupart des robots actuels sont comme des élèves qui apprennent par cœur. Ils ont vu des milliers de vidéos de gens marcher, et ils essaient de répéter ce qu'ils ont vu. Mais si la situation change un tout petit peu (un enfant court soudainement, une porte s'ouvre), ils se trompent ou paniquent.

C'est là qu'intervient AutoTraces. C'est un nouveau système qui donne au robot un cerveau capable de raisonner, comme un humain, pour prédire où les gens vont aller.

🧠 1. Le Problème : Les Robots ne "lisent" pas bien les chiffres

Avant AutoTraces, les chercheurs essayaient d'utiliser de très gros intelligences artificielles (les LLM, comme les modèles qui écrivent des textes) pour prédire les trajectoires. Mais ils avaient un gros souci : ils parlaient aux robots en texte.

L'analogie : Imaginez que vous demandez à un architecte de dessiner une maison, mais au lieu de lui donner un plan avec des mesures précises, vous lui écrivez : "La fenêtre est à 1,543 mètres du mur, la porte est à 2,012 mètres...".

L'architecte (le robot) va lire ces chiffres comme des mots. Il va comprendre que "1,543" est un mot, pas une distance exacte. Il va faire des erreurs d'arrondi et perdre la précision. C'est ce qui arrivait aux robots précédents : ils perdaient le fil des coordonnées précises.

✨ 2. La Solution Magique : Les "Jetons-Points" (Point Tokens)

L'équipe de l'Université du Sud-Est (en Chine) a eu une idée brillante : arrêter de parler en texte pour les coordonnées, et parler en "points".

Ils ont créé une nouvelle langue pour le robot. Au lieu d'écrire [1.5, 2.3] en lettres, ils utilisent un symbole spécial, comme un bouton magique qu'on appelle <point>.

L'analogie : C'est comme passer d'un manuel d'instructions écrit en petits caractères à un télécommande universelle.

Avant (Texte) : Le robot doit lire "Avance de 1 mètre, tourne de 30 degrés, avance de 0,5 mètre". C'est long, lent et sujet aux erreurs de lecture.

Maintenant (AutoTraces) : Le robot appuie sur un bouton "Point". Ce bouton contient déjà toute l'information de la position (X et Y) dans sa mémoire. Le robot comprend instantanément : "Ah, c'est ici !" sans avoir à calculer des chiffres.

Cela permet au robot de penser étape par étape (comme un humain qui regarde devant lui, puis avance un peu, puis regarde à nouveau) au lieu de deviner tout le chemin d'un coup.

🧩 3. Le "Fil de Pensée" Automatique (Chain-of-Thought)

Pour que le robot comprenne pourquoi les gens bougent ainsi, AutoTraces utilise une technique appelée Chain-of-Thought (CoT).

L'analogie : Imaginez un détective privé.

Un robot classique regarde une vidéo et dit : "La personne va tourner à gauche." (C'est un pari).

Le robot AutoTraces, lui, agit comme un détective. Il observe la vidéo et se dit à lui-même : "Attends, je vois un obstacle devant elle (analyse visuelle). Elle va donc devoir contourner. Elle va donc tourner à droite, puis se redresser."

Le génie d'AutoTraces, c'est qu'il génère ce raisonnement tout seul, sans qu'un humain ait besoin de l'écrire à la main. Il analyse la vidéo, repère les obstacles, et déduit le mouvement logique avant même de prédire la trajectoire.

🚀 4. Pourquoi c'est révolutionnaire ?

Grâce à cette méthode, AutoTraces est capable de :

Voir loin dans le futur : Il peut prédire le chemin d'un robot sur 10, 15 ou 20 secondes, avec une précision incroyable, même dans des situations nouvelles.
S'adapter à n'importe où : Que ce soit dans un bureau, un parc ou un centre commercial, le robot comprend la "danse sociale" sans avoir besoin d'être réentraîné de zéro.
Être rapide et efficace : Comme il utilise des "boutons magiques" (<point>) au lieu de longs textes, il consomme moins de puissance de calcul et commet moins d'erreurs.

🎯 En résumé

AutoTraces, c'est comme donner à un robot un instinct humain pour la navigation.

Au lieu de lire un manuel de mathématiques (les coordonnées en texte), il voit les points sur une carte mentale.
Au lieu de deviner, il raisonne comme un détective pour comprendre les intentions des gens.
Il apprend à chaque pas, ajustant sa trajectoire en temps réel, exactement comme vous le feriez en marchant dans une foule.

C'est un pas de géant pour rendre les robots autonomes plus sûrs et plus naturels dans nos vies quotidiennes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La prédiction de trajectoires socialement conformes dans des environnements peuplés d'humains reste un défi majeur pour les systèmes autonomes. Les méthodes existantes souffrent de plusieurs limitations :

Approches par apprentissage par renforcement (DRL) : Elles reposent sur des essais-erreurs, ce qui pose des problèmes pratiques pour le déploiement réel.
Approches par apprentissage par imitation (Transformers) : Des modèles comme ViNT, NoMad ou CityWalker prédisent des séquences de trajectoires de longueur fixe. Ils manquent de flexibilité et de généralisation dans des scénarios ouverts.
Méthodes basées sur les LLM (Grands Modèles de Langage) : Les approches récentes tentent d'utiliser les LLM en textuant les coordonnées (ex: "[x, y]"). Cependant, cela entraîne une inefficacité des tokens (trop de tokens pour un seul point) et une modélisation spatio-temporelle limitée. De plus, la plupart des méthodes LLM actuelles pour la prédiction de trajectoires sont non-autorégressives (génération d'une séquence complète en une seule passe), ce qui empêche une modélisation fine des dynamiques temporelles et une prédiction de longueur flexible.

2. Méthodologie : AutoTraces

Les auteurs proposent AutoTraces, un modèle vision-langage-trajectoire autorégressif conçu pour combler le fossé entre les motifs spatio-temporels et les représentations latentes des LLM.

A. Tokenisation Innovante des Trajectoires

Au lieu de convertir les coordonnées numériques en texte brut, AutoTraces introduit un schéma de tokenisation structuré :

Token <point> : Un token spécial unique est utilisé pour marquer chaque point de passage (waypoint), qu'il soit historique ou futur.
Encodage des coordonnées : Les valeurs numériques (x, y) ne sont pas textuelles mais sont encodées via un Point Encoder (une petite architecture encodeur-décodeur) qui projette les coordonnées physiques dans l'espace latent du LLM.
Avantage : Cela préserve le mécanisme de génération autorégressive natif du LLM tout en l'étendant à l'espace des coordonnées physiques, permettant une prédiction de longueur flexible.

B. Chaîne de Pensée (Chain-of-Thought - CoT) Automatisée

Pour améliorer la compréhension des comportements sociaux complexes sans annotation manuelle coûteuse :

Le système utilise un modèle VLM (Qwen-VL-Max) pour générer automatiquement des raisonnements de type "Chaîne de Pensée".
Ce processus analyse les observations visuelles et les trajectoires pour déduire des relations spatio-temporelles (ex: analyse de la courbure, détection d'obstacles, déduction d'actions comme "tourner à droite").
Ces raisonnements servent de contexte intermédiaire pour guider la prédiction de la trajectoire.

C. Stratégie d'Entraînement en Deux Étapes

Pré-entraînement (Stage 1) : Le modèle apprend à générer des raisonnements CoT structurés à partir d'observations visuelles et de données de trajectoire, en utilisant des couches LoRA (Low-Rank Adaptation) et une perte d'entropie croisée standard.
Affinement (Stage 2) : Le modèle est spécialisé pour la prédiction de trajectoire. On intègre le token <point> et les encodeurs/décodeurs de points. L'objectif combine la perte de génération de séquence (LLM) et une perte de régression directe ( $L_{point}$ ) sur les coordonnées prédites pour assurer la précision numérique.

3. Contributions Clés

Tokenisation de trajectoire hybride : Utilisation de tokens <point> comme marqueurs positionnels couplés à des embeddings numériques, permettant une génération autorégressive efficace dans l'espace des coordonnées.
Génération automatique de CoT : Un mécanisme qui infère les relations spatio-temporelles et les comportements sociaux sans annotation humaine, améliorant la robustesse du modèle.
Prédiction flexible et généralisable : Le modèle supporte des prédictions de longueur variable (flexible-length) et démontre une forte capacité de généralisation inter-scènes (cross-scene).

4. Résultats Expérimentaux

Les expériences ont été menées sur les jeux de données SCAND (navigation sociale), GoStanford (intérieur) et RECON (extérieur).

Précision (SOTA) : AutoTraces dépasse les méthodes de l'état de l'art (GNM, ViNT, NoMad, CityWalker) et les modèles LLM de base (LLaVA-Video) sur toutes les métriques (L1 et L2).
- Sur SCAND, pour une prédiction à long terme (T=10), AutoTraces atteint une erreur L2 de 1.089m, surpassant CityWalker (1.407m) et LLaVA-Video (1.963m).
Généralisation : Le modèle montre une supériorité marquée sur des scènes non vues (GoStanford et RECON), confirmant que l'approche autorégressive capture mieux les dépendances temporelles que les méthodes non-autorégressives.
Efficacité et Flexibilité :
- Longueur variable : Contrairement aux modèles entraînés sur des longueurs fixes, AutoTraces peut prédire des trajectoires de 12 à 20 pas avec une précision d'exécution des instructions (IEAcc) de 99.92% (contre 40.34% pour LLaVA-Video).
- Efficacité des tokens : Le nombre de tokens par réponse (TPR) est drastiquement réduit (25 tokens contre 375 pour LLaVA-Video) grâce à l'utilisation d'un seul token par point de passage au lieu de multiples tokens textuels.

5. Signification et Impact

AutoTraces représente une avancée significative dans la robotique sociale et la navigation autonome :

Unification des modalités : Il réussit à intégrer harmonieusement la vision, le langage et la géométrie physique dans un seul cadre de génération autorégressive.
Élimination de l'annotation manuelle : La capacité à générer automatiquement des raisonnements (CoT) réduit le coût de préparation des données et améliore l'interprétabilité des décisions du robot.
Adaptabilité : La capacité à prédire des trajectoires de longueur variable sans réentraînement massif du modèle de base (seuls les modules LoRA et de projection sont ajustés) rend cette approche très prometteuse pour le déploiement sur divers robots avec des vitesses et des capacités de manœuvre différentes.

En résumé, AutoTraces démontre que les LLM multimodaux, lorsqu'ils sont correctement adaptés via une tokenisation spatiale et un raisonnement structuré, peuvent surpasser les méthodes spécialisées traditionnelles pour la prédiction de trajectoires complexes et socialement conformes.