TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

Each language version is independently generated for its own context, not a direct translation.

🚗 TREND : Apprendre à conduire sans manuel d'instructions

Imaginez que vous voulez apprendre à un robot à conduire une voiture autonome. Pour cela, il doit comprendre ce qui l'entoure : les voitures, les piétons, les arbres, etc.

Le problème, c'est que pour apprendre, on a l'habitude de lui montrer des milliers de photos où un humain a pris le temps de dessiner des boîtes autour de chaque objet (c'est un "piéton", c'est une "voiture"). C'est comme si un professeur devait annoter manuellement chaque seconde d'un film pendant 10 ans. C'est long, cher et épuisant.

C'est là qu'intervient TREND. C'est une nouvelle méthode qui permet à la voiture d'apprendre toute seule, sans étiquettes, en observant simplement comment le monde bouge.

🕵️‍♂️ Le problème des anciennes méthodes : "Le jeu du cache-cache"

Avant TREND, les chercheurs utilisaient deux astuces pour apprendre aux robots sans étiquettes :

Le jeu du cache-cache (Auto-encodeur) : On cache une partie de la route (on efface des points) et on demande au robot de deviner ce qu'il y avait derrière.
Le jeu des jumelles (Contraste) : On montre deux versions légèrement différentes de la même image et on dit au robot : "C'est la même chose !".

Le hic ? Ces méthodes sont un peu statiques. Elles regardent une photo fixe. Or, la route n'est pas une photo fixe, c'est un film. Les piétons marchent, les voitures tournent. En ignorant le mouvement, on rate une partie cruciale de la compréhension.

🚀 La solution TREND : "Deviner la suite du film"

TREND change la donne. Au lieu de demander au robot de deviner ce qui est caché, on lui demande de prédire l'avenir.

Imaginez que vous regardez un film de course. Si vous voyez une voiture accélérer et tourner à gauche, vous savez instinctivement où elle sera dans 2 secondes. TREND fait la même chose avec les données du capteur LiDAR (le "œil" laser de la voiture).

Voici comment ça marche, étape par étape :

1. Le "Chrono-Acteur" (L'Embedding Récurrent)

La voiture ne bouge pas seule. Si elle freine, les piétons peuvent s'arrêter. Si elle accélère, les autres réagissent.
TREND intègre les actions du conducteur (freiner, tourner, accélérer) directement dans son cerveau. C'est comme si le robot disait : "Je tourne le volant, donc je m'attends à voir les objets bouger d'une certaine manière." Cela lui permet de comprendre la relation entre sa propre conduite et le mouvement des autres.

2. Le "Peintre de l'Invisible" (Le Champ Neural Temporel)

Pour prédire l'avenir, le robot ne se contente pas de déplacer des points. Il utilise une technique appelée Champ Neural.
Imaginez que le robot ne voit pas seulement les points (les objets), mais qu'il "sent" l'espace vide autour d'eux. Il construit une carte mentale 3D continue, comme un nuage de points invisible qui remplit toute la route.
Il utilise cette carte pour dessiner (rendu) ce que le capteur devrait voir dans le futur.

3. La Récompense : "Tu as vu juste !"

Le robot prédit : "Dans 1 seconde, il y aura un point laser ici."
Ensuite, on regarde la réalité (la prochaine image prise par le capteur).

Si la prédiction correspond à la réalité : Bravo ! Le robot apprend.
Si ça ne correspond pas : Essaie encore ! Il ajuste son cerveau.

C'est comme un enfant qui apprend à attraper une balle. Il lance sa main, regarde où la balle atterrit, et ajuste sa prochaine tentative. Il n'a pas besoin qu'un adulte lui dise "c'est une balle", il apprend juste en essayant de prédire où elle va.

🏆 Pourquoi c'est génial ?

Les résultats sont impressionnants :

Moins de travail humain : On n'a pas besoin de dessiner des boîtes autour de chaque voiture.
Plus intelligent : En apprenant à prédire le mouvement, le robot comprend mieux la sémantique (la nature des objets). Il sait qu'un piéton va marcher, mais qu'un poteau restera fixe.
Meilleures performances : Sur les tests réels (comme sur les données de la ville de NüShen ou de Waymo), TREND a permis d'améliorer la détection d'objets de manière significative, battant les anciennes méthodes de loin.

🎭 L'analogie finale

Les anciennes méthodes sont comme apprendre à conduire en regardant des photos de voitures garées. Vous savez à quoi elles ressemblent, mais vous ne savez pas comment elles bougent.
TREND, c'est comme apprendre à conduire en regardant un film de circulation et en essayant de deviner la prochaine scène. En faisant cela, le robot comprend non seulement ce qui est là, mais aussi comment le monde fonctionne.

En résumé, TREND transforme la voiture autonome en un observateur curieux qui apprend en anticipant l'avenir, rendant nos routes futures plus sûres et notre apprentissage beaucoup plus rapide.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'apprentissage de représentations 3D pour la perception LiDAR (détection d'objets, segmentation sémantique) est entravé par le coût prohibitif de l'annotation manuelle des nuages de points. Les méthodes existantes d'apprentissage non supervisé se concentrent principalement sur deux approches :

Auto-encodeurs masqués (Masked Autoencoders - MAE) : Reconstruction de parties masquées du nuage de points.
Apprentissage contrastif : Maximisation de la similarité entre différentes vues d'une même scène.

Cependant, ces méthodes négligent souvent la dimension temporelle inhérente aux séquences LiDAR. Elles traitent les données comme des instantanés statiques ou utilisent des augmentations de données artificielles, manquant ainsi l'information cruciale sur le mouvement des objets et les interactions dynamiques (notamment entre le véhicule égo et les autres usagers de la route). De plus, les méthodes de prédiction temporelle existantes ignorent souvent l'action du véhicule égo ou utilisent des champs neuronaux conçus pour les images (caméra) plutôt que pour les spécificités du LiDAR (géométrie + intensité).

2. Méthodologie : TREND

TREND propose une approche d'apprentissage non supervisé basée sur la prédiction temporelle (forecasting) du futur pour apprendre des représentations 3D riches. L'architecture repose sur trois piliers principaux :

A. Schéma d'Encodage Récurrent (Recurrent Embedding)

Pour intégrer l'information temporelle et l'action du véhicule égo dans les représentations 3D :

Le modèle prend les caractéristiques 3D de l'état actuel ( $t_0$ ) et les actions du véhicule égo (déplacement $\Delta x, \Delta y$ et rotation $\Delta \theta$ ) pour les étapes futures.
Les actions sont encodées via un encodage sinusoïdal (sinusoidal encoding) et un MLP.
Ces embeddings d'action sont concaténés aux caractéristiques 3D précédentes et traités par une convolution 3D dense pour générer les embeddings temporels futurs ( $\hat{P}_{t_{n+1}}$ ). Cela permet au modèle de modéliser l'évolution de la scène en fonction du mouvement du véhicule.

B. Champ Neural Temporel LiDAR (Temporal LiDAR Neural Field)

Contrairement aux champs neuronaux classiques conçus pour les images, TREND utilise un champ neural spécifique au LiDAR pour représenter la scène 3D à différents instants :

Il prend en entrée la position d'un point $p$ , l'encodage temporel $t$ et les caractéristiques 3D interpolées.
Il prédit deux valeurs clés :
1. La fonction de géométrie ( $f_{geo}$ ) : Pour comprendre la structure de la surface.
2. La valeur de distance signée (SDF) : Pour déterminer si un point est à l'intérieur ou à l'extérieur d'un objet.
Ce champ est conçu pour gérer spécifiquement les caractéristiques du LiDAR, notamment l'intensité du retour du laser, en plus de la géométrie.

C. Rendu Différentiable et Fonction de Perte

L'objectif de pré-entraînement est de reconstruire et de prédire les nuages de points (actuels et futurs) via un rendu différentiable :

Échantillonnage de rayons : Le modèle échantillonne des rayons depuis le capteur LiDAR (en filtrant les points au sol pour se concentrer sur les objets).
Prédiction de portée et d'intensité : En intégrant les valeurs SDF le long des rayons, le modèle prédit la distance d'impact (range) et l'intensité du point.
Perte (Loss) : Le modèle est optimisé en minimisant l'erreur L1 entre les observations réelles et les prédictions sur la portée, l'intensité et la contrainte SDF (distance nulle pour les points observés).

D. Apprentissage par Curriculum

Pour faciliter l'apprentissage de la prédiction à long terme, TREND utilise une stratégie de curriculum learning : il commence par prédire des horizons temporels courts et augmente progressivement la durée de prédiction au cours de l'entraînement.

3. Contributions Clés

Nouvelle approche de pré-entraînement : TREND est la première méthode à utiliser la prédiction temporelle explicite (forecasting) comme objectif principal pour l'apprentissage non supervisé de représentations LiDAR, exploitant la dynamique naturelle des scènes.
Modélisation de l'action égo : Intégration explicite des actions du véhicule égo dans l'encodage temporel, permettant au modèle de comprendre les interactions véhicule-environnement (ex: un piéton s'arrêtant si le véhicule approche).
Champ Neural Spécifique au LiDAR : Conception d'un décodeur (Temporal LiDAR Neural Field) qui gère simultanément la géométrie 3D et l'intensité du signal LiDAR, contrairement aux méthodes précédentes adaptées aux images.
Performance supérieure : Démonstration que cette approche surpasse les méthodes SOTA (State-of-the-Art) en pré-entraînement non supervisé sur plusieurs tâches et jeux de données.

4. Résultats Expérimentaux

Les expériences ont été menées sur quatre jeux de données majeurs : Once, Waymo, NuScenes et SemanticKITTI.

Détection d'objets 3D (Once & NuScenes) :
- Sur Once, TREND améliore le mAP de 1,77 % par rapport à un modèle entraîné à partir de zéro (from-scratch), soit une amélioration jusqu'à 400 % supérieure à celle des méthodes non supervisées précédentes.
- Sur NuScenes, l'amélioration est de 2,11 % en mAP et de 1,46 % en NDS (NuScenes Detection Score), surpassant UniPAD (l'état de l'art précédent) de 90 % en termes de gain relatif.
Segmentation Sémantique (SemanticKITTI) :
- Gain de 2,89 % en mIoU (Mean Intersection over Union) et de 9,14 % en précision globale par rapport à l'initialisation aléatoire.
Robustesse et Transfert :
- Les modèles pré-entraînés sur Once transfèrent efficacement leurs poids sur Waymo, montrant une bonne généralisation inter-jeux de données.
- TREND réduit la variance des résultats liés à l'initialisation aléatoire, rendant l'entraînement plus stable.
Analyse des caractéristiques (T-SNE) : Les visualisations montrent que les caractéristiques apprises par TREND séparent efficacement les objets statiques des objets en mouvement, prouvant que le modèle a appris la dynamique de la scène sans étiquettes.

5. Signification et Impact

TREND représente une avancée significative pour la perception autonome en démontrant que la dynamique temporelle est une source d'information riche et sous-exploitée pour l'apprentissage non supervisé.

Réduction du coût d'annotation : En permettant des performances élevées avec moins de données étiquetées (apprentissage few-shot), TREND réduit la dépendance aux coûteux processus d'annotation manuelle.
Compréhension de la scène : Contrairement aux méthodes statiques, TREND apprend implicitement les interactions entre les objets et le véhicule égo, ce qui est crucial pour la sécurité des véhicules autonomes.
Fondation pour le futur : Cette approche ouvre la voie à des modèles de fondation 3D plus robustes, capables de comprendre non seulement la forme des objets, mais aussi leur comportement dans le temps.

En conclusion, TREND établit un nouveau standard pour le pré-entraînement non supervisé du LiDAR en combinant ingénieusement la prédiction temporelle, l'action du véhicule et des champs neuronaux adaptés à la modalité LiDAR.