FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

Each language version is independently generated for its own context, not a direct translation.

🚗 FreeOcc : Le "Super-Héros" de la Vision 3D sans École

Imaginez que vous conduisez une voiture autonome. Pour ne pas percuter un piéton ou un mur, la voiture doit comprendre son environnement en 3D : où sont les objets, à quelle distance, et quel est leur type (voiture, arbre, trottoir).

Habituellement, pour apprendre à une voiture à faire cela, on doit lui montrer des milliers d'heures de vidéos annotées manuellement (comme un prof qui corrige des devoirs). C'est cher, long et cela ne marche bien que sur les routes où la voiture a déjà été entraînée.

FreeOcc, c'est une nouvelle méthode qui change la donne. C'est comme si on donnait à la voiture un livre de recettes universel (les "modèles de fondation") qu'elle peut utiliser immédiatement, sans jamais avoir besoin de réviser ses leçons.

🧠 L'Analogie du Chef Cuisinier et du Dessinateur

Pour comprendre comment FreeOcc fonctionne, imaginons une équipe de deux experts qui travaillent ensemble dans la cuisine de la voiture :

Le Chef Cuisinier (Le Modèle de Segmentation - SAM3) :
- Son rôle : Il regarde les photos prises par les caméras et dit : "C'est une voiture ! C'est de l'herbe ! C'est un bâtiment !"
- Sa particularité : Il est très intelligent et a lu tous les livres du monde. Si vous lui demandez de trouver un "vélo", il le trouvera même si vous ne lui avez jamais montré de vélo dans votre ville. Il utilise des mots-clés (des "prompts") pour comprendre ce qu'il doit chercher.
Le Dessinateur de Cartes (Le Modèle de Reconstruction - MapAnything) :
- Son rôle : Il prend ces mêmes photos et dessine une carte en 3D précise. Il dit : "Cette voiture est à 10 mètres, ce mur est à 5 mètres."
- Il transforme les images plates en un nuage de points 3D.

🛠️ Comment ils travaillent ensemble (Le Pipeline FreeOcc)

Au lieu d'entraîner un nouvel élève (un modèle d'IA spécifique) pour chaque nouvelle ville, FreeOcc fait simplement travailler ces deux experts ensemble en temps réel :

La Récolte (2D) : Les caméras prennent des photos. Le "Chef" identifie les objets et le "Dessinateur" calcule la profondeur.
Le Tri (Filtrage) : Parfois, le Dessinateur se trompe un peu (il voit un fantôme ou un point trop loin). FreeOcc utilise un système de "confiance" pour jeter les points douteux et ne garder que les informations solides.
L'Assemblage (Fusion) : On assemble toutes les pièces de puzzle venant de différentes caméras et de différents moments pour créer un seul gros nuage de points 3D.
La Nettoyage (Affinement) : Imaginez que vous remplissez un bac à sable (une grille 3D) avec ces points. FreeOcc passe un petit râteau pour combler les petits trous, effacer les erreurs et s'assurer que les objets sont bien groupés (par exemple, s'assurer que les 4 roues d'une voiture appartiennent bien à la même voiture).

🌟 Pourquoi c'est révolutionnaire ?

Zéro Entraînement (Training-Free) : C'est la grande force. Vous pouvez envoyer cette voiture dans une ville inconnue, en Chine ou au Brésil, et elle comprendra tout de suite. Pas besoin de passer des mois à lui apprendre les rues locales.
Panoptique (Tout voir) : Elle ne se contente pas de dire "il y a un objet". Elle dit "c'est cette voiture rouge" (instance) et "c'est ce trottoir" (sémantique). C'est comme si elle connaissait chaque individu dans la foule.
Résultats Étonnants : Même sans avoir "révisé", FreeOcc obtient des résultats aussi bons, voire meilleurs, que les méthodes qui ont passé des mois à apprendre sur des données spécifiques.

🎁 L'Effet "Boule de Neige" (Générateur d'étiquettes)

Il y a un deuxième usage génial de FreeOcc. Comme il est si bon pour comprendre la 3D sans apprendre, on peut l'utiliser comme un professeur privé.
On lui demande de créer des "devoirs corrigés" (des étiquettes automatiques) pour entraîner d'autres voitures plus rapides et plus légères. Grâce à cette méthode, les voitures entraînées deviennent encore plus performantes que les meilleures actuelles !

En résumé

FreeOcc, c'est comme donner à une voiture autonome un GPS universel et un dictionnaire infini. Elle n'a plus besoin de mémoriser chaque rue du monde. Elle utilise son intelligence générale pour "voir" et "comprendre" la route instantanément, partout, tout de suite. C'est un pas de géant vers des voitures autonomes qui peuvent rouler n'importe où, sans préparation.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La prédiction d'occupation 3D (Semantic and Panoptic Occupancy Prediction) est essentielle pour la conduite autonome, car elle fournit une représentation dense de l'environnement du véhicule. Cependant, les approches actuelles basées uniquement sur des caméras souffrent de deux limitations majeures :

Dépendance aux données supervisées : Les méthodes performantes nécessitent généralement une supervision 3D dense (généralement issue du LiDAR), coûteuse à acquérir et difficile à transférer vers de nouveaux domaines ou configurations de capteurs.
Limites des méthodes faiblement supervisées : Les alternatives existantes réduisent le besoin d'annotations manuelles mais nécessitent encore l'entraînement d'un réseau spécifique sur le domaine cible et se concentrent principalement sur l'occupation sémantique, négligeant souvent la prédiction panoptique (identification des instances).

L'objectif est de développer une méthode capable de prédire l'occupation 3D (sémantique et panoptique) sans entraînement (training-free), en exploitant directement les capacités des modèles de fondation (Foundation Models) pré-entraînés.

2. Méthodologie : FreeOcc

FreeOcc est un pipeline d'inférence qui ne nécessite aucun ajustement de paramètres sur les données cibles. Il combine deux branches principales issues de modèles de fondation pour reconstruire un nuage de points 3D étiqueté, qui est ensuite transformé en grille d'occupation.

A. Branche Sémantique (Priors 2D)

Modèle : Utilisation de SAM3 (Segment Anything Model 3), un modèle de segmentation pré-entraîné.
Prompting : Au lieu d'utiliser les noms de classes bruts, le système utilise un ensemble de "prompts" (synonymes, termes plus courants) pour chaque classe de la taxonomie cible (ex: "herbe" et "terre" pour la classe "terrain").
Fusion et Règles : Les masques générés par SAM3 sont fusionnés par vue. Un système de règles remap les labels des prompts vers la taxonomie cible (ex: "bâtiment" $\to$ "artificiel"). Ce système gère également les conflits de classes (ex: relations "au-dessus/en-dessous" entre la route et les marquages au sol).

B. Branche Géométrique (Reconstruction 3D)

Modèle : Utilisation de MapAnything, un modèle de reconstruction 3D pré-entraîné.
Sortie : Il génère des points 3D denses par pixel, accompagnés de cartes de profondeur et de confiance.
Filtrage : Un filtrage basé sur la confiance et la distance (seuils $d_{min}$ , $d_{max}$ , $\tau_C$ ) élimine les points peu fiables, produisant un nuage de points 3D étiqueté sémantiquement.

C. Identification d'Instances (Panoptique)

Pour passer de la sémantique à la panoptique (attribution d'IDs d'instances aux objets "things") :

Fitting de Boîtes 3D : Les candidats d'instances (dérivés des masques SAM3) sont ajustés à des boîtes 3D orientées (yaw) en utilisant l'analyse en composantes principales (PCA) sur le plan horizontal.
Filtrage et Fusion : Les boîtes sont filtrées selon des tailles plausibles par classe et fusionnées si elles se chevauchent significativement.
Réaffectation : Les points 3D sont réassignés aux instances validées. Les points non couverts sont marqués comme "ignore" ou réaffectés à l'instance la plus proche si la distance est faible.

D. Voxelisation et Raffinement

Voxelisation : Le nuage de points fusionné est converti en grille d'occupation par vote majoritaire.
Stack de Raffinement Déterministe : Une série de quatre étapes améliore la cohérence locale sans sur-lissage :
1. Remplissage des micro-trous et cavités.
2. Complétion "chaude" de la zone aveugle proche du véhicule (surface de conduite).
3. Cohérence de voisinage conservatrice (mise à jour des labels ambigus uniquement si l'accord du voisinage est fort).
4. Nettoyage du fond et dilation des instances pour combler les lacunes.

3. Contributions Clés

Prédiction sans entraînement (Training-Free) : FreeOcc est la première méthode à réaliser une prédiction d'occupation sémantique et panoptique directement à l'inférence, sans entraîner de modèle sur les données cibles.
Générateur d'étiquettes pseudo (Pseudo-labeling) : Le pipeline peut servir à générer des étiquettes de haute qualité pour entraîner des modèles d'occupation en temps réel, surpassant les méthodes faiblement supervisées actuelles.
Baselines Panoptiques : Établissement des premières références (baselines) pour la prédiction d'occupation panoptique en mode "sans entraînement" et "faiblement supervisé".
Flexibilité Open-Vocabulary : Grâce à l'utilisation de prompts, le système peut s'adapter à de nouvelles taxonomies de classes sans réentraînement du modèle 3D.

4. Résultats Expérimentaux

Les évaluations ont été réalisées sur le jeu de données Occ3D-nuScenes (split validation).

Occupation Sémantique (Train-free) :
- FreeOcc atteint 16.9 mIoU et 16.5 RayIoU.
- Cela représente une amélioration significative par rapport à la méthode train-free précédente (ShelfOcc : 9.6 mIoU) et se situe au niveau des méthodes faiblement supervisées entraînées (GaussianFlowOcc : 17.1 mIoU).
Occupation Sémantique (Pseudo-labeling) :
- En utilisant FreeOcc pour entraîner un modèle STCOcc, le système atteint 21.1 RayIoU, surpassant l'état de l'art faiblement supervisé (20.0 RayIoU pour ShelfOcc+STCOcc).
- Note importante : FreeOcc atteint ces résultats sans utiliser de masques de visibilité durant l'entraînement, ce qui le rend potentiellement plus robuste pour les parties cachées.
Occupation Panoptique :
- Train-free : 3.1 RayPQ.
- Faiblement supervisé : 3.9 RayPQ.
- Bien que inférieur aux méthodes entièrement supervisées (ex: SparseOcc à 14.1 RayPQ), ces résultats établissent une base de départ concrète pour l'occupation panoptique sans étiquettes 3D.
Études d'ablation :
- L'utilisation de prompts soignés et de règles de remappage apporte le gain le plus important (+2.7 mIoU).
- La précision des extrinsèques de la caméra (pose) est cruciale : sans elles, les performances chutent drastiquement (-53% mIoU).

5. Signification et Conclusion

FreeOcc démontre que les modèles de fondation peuvent être utilisés directement pour la perception 3D complexe, rendant possible le déploiement dans des environnements non vus sans phase d'acquisition de données ou d'entraînement.

Avantage principal : Élimination du coût et de la complexité liés à l'annotation 3D et à l'entraînement de modèles spécifiques.
Limites actuelles : La qualité géométrique et l'alignement volumétrique précis restent les goulots d'étranglement, notamment pour la prédiction panoptique où la cohérence des instances est difficile sans supervision dense.
Perspectives : Ce travail ouvre la voie à des méthodes de perception 3D plus généralisables, basées uniquement sur des caméras et des modèles pré-entraînés, tout en suggérant que l'amélioration de la géométrie 3D (notamment sans pose précise) est la prochaine étape clé.