On the Feasibility and Opportunity of Autoregressive 3D Object Detection

Each language version is independently generated for its own context, not a direct translation.

🚗 AutoReg3D : Apprendre à une voiture à "raconter" ce qu'elle voit

Imaginez que vous conduisez une voiture autonome. Votre cerveau (ou l'ordinateur de la voiture) doit identifier les autres voitures, les piétons et les obstacles autour de vous. C'est ce qu'on appelle la détection d'objets en 3D.

Jusqu'à présent, les systèmes utilisés pour faire cela fonctionnaient un peu comme un chasseur de fantômes :

Ils lançaient des milliers de "filets" (des boîtes virtuelles) partout dans la scène.
Ils vérifiaient ensuite un par un si ces filets contenaient quelque chose.
S'ils trouvaient plusieurs filets sur le même objet, ils devaient faire un gros ménage (appelé "suppression non maximale" ou NMS) pour ne garder que le meilleur. C'est lent, complexe et ça demande beaucoup de réglages manuels.

Le papier propose une nouvelle idée : AutoReg3D.
Au lieu de lancer des filets partout, ce nouveau système fonctionne comme un conteur ou un écrivain. Il ne cherche pas tout d'un coup ; il raconte la scène, objet par objet, dans un ordre précis.

1. Le concept clé : Raconter l'histoire du plus proche au plus loin

Dans la vraie vie, quand vous conduisez, vous voyez d'abord ce qui est près de vous, puis ce qui est plus loin. Les objets proches cachent souvent ceux qui sont derrière (c'est l'occlusion).

L'ancienne méthode : Regarder tout le champ de vision en même temps, comme une photo floue qu'on essaie de nettoyer.
La méthode AutoReg3D : Elle suit une logique naturelle. Elle dit : "Ok, je vois un piéton juste devant moi. Maintenant, je sais qu'il est là, donc je peux chercher ce qui se trouve juste derrière lui, puis plus loin encore."

C'est comme si vous lisiez un livre : vous lisez la page 1, puis la page 2, puis la page 3. Vous ne lisez pas toutes les pages en même temps. Cette méthode s'appelle la génération séquentielle.

2. Comment ça marche ? (La magie des "mots")

Pour que l'ordinateur puisse "écrire" cette histoire, il transforme les objets en une suite de mots (des tokens), comme dans un langage humain.

Au lieu de dire "Voiture à la position X, Y, Z avec une vitesse de 50 km/h", le système écrit une petite phrase codée :
[Début] -> [Voiture] -> [Position 1] -> [Taille 1] -> [Vitesse 1] -> [Fin]

Ensuite, il enchaîne avec le prochain objet :
[Prochaine voiture] -> [Position 2]...

Pourquoi c'est génial ?

Pas de "ménage" : Comme le système écrit les objets un par un, il sait déjà ce qu'il a écrit. Il ne va pas écrire deux fois la même voiture au même endroit. Plus besoin de la technique compliquée de "suppression non maximale" (NMS).
Plus flexible : C'est comme un modèle de langage (comme ceux qui écrivent des emails ou des poèmes). On peut utiliser les mêmes outils puissants pour améliorer la détection.

3. Les super-pouvoirs de cette nouvelle approche

Le papier montre que cette méthode n'est pas seulement plus simple, elle ouvre des portes intéressantes :

L'entraînement par renforcement (Le coach sportif) :
Imaginez que vous apprenez à un élève à écrire. Au début, vous lui donnez la réponse (c'est l'entraînement classique). Mais avec AutoReg3D, on peut aussi lui dire : "Bravo, tu as bien détecté 5 voitures !" ou "Oups, tu en as oublié une". Le système apprend de ses erreurs globales, comme un sportif qui s'entraîne pour gagner un match, pas juste pour faire des exercices. Cela améliore la précision.
La correction en cascade (Le duo d'enquêteurs) :
Parfois, le système rate un objet caché. Avec cette méthode, on peut lui dire : "Attends, j'ai déjà trouvé ces voitures-ci, cherche maintenant ce qui manque autour d'elles." C'est comme si un premier détective faisait une première passe, et qu'un second venait combler les trous en se basant sur le travail du premier.

4. Le petit bémol (La vitesse)

Il y a un compromis. Écrire une histoire mot par mot prend un peu plus de temps que de lancer des filets partout d'un coup.

L'ancienne méthode : Une photo instantanée (très rapide).
AutoReg3D : Une petite conversation (un tout petit peu plus lent, mais très intelligent).

Les auteurs disent que la vitesse s'améliorera avec le temps (comme les processeurs des ordinateurs), et que la flexibilité de cette méthode vaut largement le petit temps d'attente.

En résumé

Ce papier dit : "Arrêtons de traiter la détection d'objets comme un problème de mathématiques complexes avec des règles rigides. Transformons-le en un problème de langage."

En faisant cela, les voitures autonomes peuvent :

Comprendre la scène de manière plus naturelle (du proche au lointain).
Utiliser les dernières avancées de l'intelligence artificielle (comme les grands modèles de langage) pour devenir plus intelligentes.
Se débarrasser de beaucoup de code compliqué et de réglages manuels.

C'est un changement de paradigme : passer d'un chasseur de boîtes à un conteur de scènes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les détecteurs d'objets 3D basés sur le LiDAR actuels reposent majoritairement sur un paradigme de "proposition puis classification" (propose-then-classify). Ces systèmes génèrent d'abord des propositions de régions (via des ancres ou des requêtes) puis les raffinent et les classifient. Cette approche présente plusieurs limitations majeures :

Complexité artisanale : Elle dépend d'une pile de composants conçus à la main, tels que l'assignation des ancres, le matching des propositions, les cibles de régression géométrique, les seuils de confiance et le Non-Maximum Suppression (NMS).
Perte d'information : Le NMS et le filtrage post-traitement éliminent des boîtes redondantes mais peuvent aussi supprimer des informations utiles.
Manque de modularité : Cette rigidité rend difficile l'intégration avec des modules avancés comme les grands modèles de langage (LLM) ou l'apprentissage par renforcement, limitant l'évolutivité de la détection 3D.
Hypothèse d'indépendance : Les prédictions sont souvent faites de manière indépendante pour chaque emplacement spatial, ignorant les dépendances structurelles entre les objets (par exemple, l'occlusion).

L'objectif de ce travail est de démontrer qu'il est possible de reformuler la détection 3D comme un problème de génération de séquence, éliminant ainsi la nécessité de ces composants rigides.

2. Méthodologie : AutoReg3D

Les auteurs proposent AutoReg3D, le premier détecteur 3D autorégressif capable de générer directement des séquences d'objets à partir de nuages de points.

A. Reformulation en Génération de Séquence

Au lieu de prédire des boîtes de manière indépendante, le modèle génère les objets un par un, en conditionnant chaque nouvelle prédiction sur les objets déjà générés.

Représentation Tokenisée : Chaque objet est encodé comme une courte séquence de tokens discrets comprenant :
- La classe de l'objet.
- La position (x, y, z).
- Les dimensions (l, w, h).
- L'orientation (angle de lacet $\psi$ ).
- La vitesse (vx, vy).
Vocabulaire Spécifique : Contrairement aux approches précédentes (comme Pix2Seq en 2D) qui utilisent un vocabulaire partagé, AutoReg3D utilise des vocabulaires séparés pour chaque type de paramètre (position, taille, vitesse, etc.) pour mieux modéliser leurs plages de valeurs et leurs sémantiques distinctes.

B. Ordre de Décodage : Du Proche au Loin (Near-to-Far)

L'innovation clé réside dans l'ordre de génération. Dans les images 2D, l'ordre de décodage est arbitraire. En revanche, pour le LiDAR, les auteurs exploitent la géométrie causale :

Les objets proches du véhicule égoïste sont physiquement rencontrés et observés avant les objets lointains.
Les objets proches occulter les objets lointains, mais pas l'inverse.
Le modèle génère donc les objets dans un ordre déterministe du proche au loin. Cela permet un teacher forcing (enseignement forcé) naturel lors de l'entraînement et permet au modèle de tenir compte des objets déjà détectés pour prédire les objets suivants, réduisant ainsi les chevauchements et éliminant le besoin de NMS.

C. Architecture

Le système utilise une architecture Encodeur-Décodeur :

Encodeur : N'importe quel encodeur de nuage de points existant (basé sur Pillars, Voxels, Transformers ou Mamba) peut être utilisé pour extraire des représentations globales.
Décodeur : Un décodeur Transformer causal (6 couches) qui prédit les tokens séquentiellement en s'attendant (cross-attention) aux features du nuage de points.
Perte d'entraînement : Une unique perte de cross-entropy unifiée est utilisée pour tous les tokens, remplaçant les multiples fonctions de perte spécifiques (centres, tailles, orientations) utilisées dans les méthodes de régression.

3. Contributions Clés

Faisabilité de la détection autorégressive 3D : AutoReg3D atteint des performances compétitives avec les meilleurs détecteurs basés sur des propositions (anchor-based) et des requêtes (query-based) sur le benchmark nuScenes, sans utiliser d'ancres ni de NMS.
Simplification du pipeline : Élimination des composants complexes (assignation d'ancres, seuils de confiance, NMS) au profit d'un seul décodeur autorégressif.
Nouvelles capacités via la formulation séquentielle :
- Affinement par Renforcement (RL) : La formulation séquentielle permet d'appliquer des techniques d'apprentissage par renforcement (comme GRPO) pour optimiser directement les métriques de détection (IoU) au niveau de la séquence, améliorant la cohérence globale.
- Décodage Promptable (Cascading Refinement) : Le modèle peut intégrer des indices externes (ex: boîtes générées par un autre modèle) comme tokens d'entrée pour affiner les prédictions et récupérer des objets manqués.
Étude d'ablation complète : Analyse détaillée de l'impact de l'ordre des objets, de l'ordre des tokens et des stratégies de décodage.

4. Résultats Expérimentaux

Les expériences ont été menées sur le dataset nuScenes.

Performance : AutoReg3D atteint des scores F1 comparables aux meilleurs modèles de l'état de l'art (ex: CenterPoint, DSVT, LION) sur différents types d'encodeurs (Pillar, Voxel, Transformer, Mamba).
- Exemple : Avec un encodeur Voxel, AutoReg3D atteint un F1 de 65.8, égal à CenterPoint, mais avec une précision supérieure (74.9 vs 72.8), grâce à la réduction des faux positifs par la modélisation des dépendances entre objets.
Impact du RL : L'affinement par GRPO améliore encore le score F1 (passant de 65.8 à 66.7), principalement en augmentant le rappel (recall) grâce à une récompense alignée sur la tâche.
Robustesse à l'occlusion : Le modèle surpasse les baselines dans les cas de forte occlusion (visibilité 0-40%), confirmant que la modélisation des dépendances inter-objets aide à détecter les objets partiellement visibles.
Ablation sur l'ordre : L'ordre du proche au loin est nettement supérieur à un ordre aléatoire ou basé sur le nombre de points, prouvant l'importance de la structure causale du LiDAR.

5. Signification et Perspectives

Ce travail marque un tournant conceptuel en 3D perception :

Unification : Il connecte la détection 3D à l'écosystème des modèles de séquence modernes (LLM), ouvrant la voie à l'importation d'outils avancés comme le test-time scaling, le prompting et le reasoning spatial-linguistique.
Flexibilité : En supprimant les contraintes d'ancres et de NMS, le modèle devient plus adaptable et potentiellement plus facile à intégrer dans des systèmes multimodaux complexes.
Limites et Avenir : La principale limitation actuelle est la latence d'inférence due au décodage séquentiel (actuellement ~1-2 Hz pour une scène). Cependant, les auteurs notent que les progrès matériels et algorithmiques dans le domaine des modèles de langage devraient rapidement atténuer ce problème.

En conclusion, AutoReg3D démontre que la détection 3D peut être reformulée avec succès comme une tâche de génération de séquence, offrant une alternative flexible et performante aux pipelines traditionnels, tout en ouvrant de nouvelles portes pour l'intégration de l'IA générative dans la perception autonome.