Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

Each language version is independently generated for its own context, not a direct translation.

🚗 Le Problème : Le Conducteur qui ne connaît que ses amis

Imaginez un conducteur autonome (une voiture qui se conduit toute seule) comme un étudiant très studieux qui a passé des mois à réviser pour un examen.

La situation actuelle (Le "Monde Fermé") : Cet étudiant a appris par cœur une liste précise d'objets : "Voiture", "Camion", "Piéton", "Vélo". Si l'examen (la route) présente un de ces objets, il le reconnaît immédiatement.
Le danger : Mais que se passe-t-il si, sur la route, il rencontre quelque chose qu'il n'a jamais vu ? Un château de sable géant, un poney ou un panneau publicitaire déformé ?
- Dans les systèmes actuels, l'étudiant panique. Soit il ignore l'objet (ce qui est dangereux), soit il essaie de le classer dans une catégorie connue (par exemple, il pense que le poney est un "chien géant"), ce qui est une erreur grave.

C'est ce que les chercheurs appellent le problème du "Monde Ouvert" : le monde réel est plein de surprises, mais les voitures actuelles sont enfermées dans un manuel de révision trop rigide.

💡 La Solution : OS-Det3D (Le Système de Deux Étapes)

Les auteurs proposent une nouvelle méthode appelée OS-Det3D. Pour résoudre ce problème, ils ne se contentent pas d'apprendre à la voiture à reconnaître des objets, ils lui apprennent d'abord à repérer ce qui ressemble à un objet, peu importe ce que c'est.

Imaginez que vous construisez un détecteur de métaux pour une plage. Au lieu de chercher spécifiquement des pièces de monnaie (connues), vous cherchez d'abord n'importe quel objet métallique (inconnu ou connu), puis vous décidez plus tard si c'est un trésor ou un déchet.

Le système fonctionne en deux étapes clés :

Étape 1 : Le Détective Géométrique (ODN3D)

C'est ici que la voiture utilise ses "yeux" laser (le LiDAR, qui voit en 3D comme un scanner) pour dessiner des boîtes autour de tout ce qui a une forme d'objet.

L'analogie : Imaginez un architecte qui regarde une maison en construction. Il ne se soucie pas encore de savoir si c'est une cuisine ou une chambre. Il dit simplement : "Tiens, il y a un volume ici qui ressemble à une pièce. Mettons une boîte autour."
La magie : Ce détective utilise une nouvelle astuce appelée "GeoHungarian". Au lieu de dire "C'est une voiture" ou "Ce n'est pas une voiture", il dit : "Cela a la taille et la position d'un objet solide."
Le résultat : Il génère une liste de "candidats potentiels". Il a trouvé le poney, le camion et la voiture. Mais il y a un problème : comme il ne regarde que la forme, il peut aussi mettre une boîte autour d'un nuage bizarre ou d'un tas de feuilles (du bruit).

Étape 2 : Le Filtre Intelligent (Joint Selection Module)

Maintenant, la voiture a une liste de candidats, mais elle ne sait pas encore lesquels sont vraiment importants. C'est ici qu'intervient la deuxième étape, qui utilise les caméras (les yeux humains).

L'analogie : Reprenons notre architecte. Il a mis des boîtes partout. Maintenant, il appelle un expert en décoration (la caméra) pour vérifier.
- L'expert regarde la boîte autour du "poney". Il dit : "Attends, je ne connais pas ce type de texture. Ce n'est pas un chien, ni un chat. C'est probablement quelque chose de nouveau."
- L'expert regarde la boîte autour d'un "tas de feuilles". Il dit : "Ah, ça ressemble à de la poussière ou à un fond d'écran. Ce n'est pas un objet solide."
Le mécanisme : Le système combine deux informations :
1. La forme (LiDAR) : "Est-ce que ça a l'air d'un objet ?" (Score d'objectivité).
2. L'apparence (Caméra) : "Est-ce que ça ressemble à quelque chose que je connais déjà ?" (Réponse des caractéristiques BEV).
La décision : Si la forme est bonne (c'est un objet) mais que l'apparence est étrange (ce n'est pas dans le manuel), alors : "C'est un objet inconnu ! Mettons-le de côté pour apprendre."

🏆 Pourquoi c'est génial ?

Grâce à cette méthode en deux temps, la voiture apprend à faire deux choses en même temps :

Elle continue de reconnaître parfaitement les objets connus (les voitures, les piétons).
Elle devient capable de dire : "Hé, il y a un truc bizarre là-bas !" et de le localiser avec précision, même si elle ne sait pas exactement ce que c'est.

L'analogie finale :
C'est comme passer d'un dictionnaire (qui ne connaît que les mots listés) à un détective (qui sait repérer n'importe quel comportement suspect, même s'il ne connaît pas le nom du suspect).

En résumé

L'article présente OS-Det3D, un système qui permet aux voitures autonomes de ne plus être aveugles face à l'inconnu. En utilisant d'abord la géométrie 3D pour trouver tout ce qui ressemble à un objet, puis la vision par caméra pour filtrer ce qui est nouveau, ils rendent la route beaucoup plus sûre, même quand des objets surprenants apparaissent.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les détecteurs d'objets 3D basés sur la caméra utilisés dans la conduite autonome fonctionnent généralement dans un cadre fermé (closed-set). Ils sont entraînés uniquement pour reconnaître un ensemble prédéfini de catégories d'objets.

Limitation majeure : Dans le monde réel, les environnements de conduite sont dynamiques et imprévisibles. Ces systèmes échouent à détecter ou à répondre correctement aux objets nouveaux ou inconnus (non vus lors de l'entraînement), ce qui représente un risque de sécurité critique.
Défi spécifique au 3D : Étendre la détection "open-set" (où le modèle doit identifier à la fois les objets connus et inconnus) du domaine 2D au 3D est particulièrement difficile. Les modèles basés uniquement sur l'image (RGB) manquent d'informations de profondeur fiables par rapport au LiDAR et ont tendance à surapprendre des indices visuels (textures) spécifiques aux classes connues, ce qui nuit à leur capacité à généraliser vers des objets inconnus. De plus, l'utilisation de fausses étiquettes (pseudo-labels) bruyantes pour les objets inconnus peut dégrader les performances globales.

2. Méthodologie : OS-Det3D

Les auteurs proposent OS-Det3D, un cadre d'entraînement en deux étapes conçu pour permettre aux détecteurs 3D basés sur la caméra de découvrir et d'identifier des objets inconnus, en exploitant des données LiDAR uniquement pendant la phase d'entraînement (l'inférence reste basée sur la caméra).

Étape 1 : Découverte d'objets 3D (ODN3D)

L'objectif est de générer des propositions d'objets 3D "agnostiques" (indépendantes de la classe) en utilisant les données géométriques du LiDAR.

Réseau de découverte d'objets 3D (ODN3D) : Ce réseau utilise des indices géométriques issus des nuages de points LiDAR pour générer des propositions d'objets sans se soucier de leur catégorie.
Algorithme GeoHungarian : Pour éviter que le modèle ne surapprenne aux classes étiquetées (en traitant les objets non étiquetés comme arrière-plan), les auteurs remplacent l'appariement standard de Hungarian (qui inclut un coût de classification) par un appariement GeoHungarian. Celui-ci se base uniquement sur la géométrie (localisation et échelle) pour associer les prédictions aux vérités terrain.
Score d'objectité 3D (3D Objectness Score) : Pour évaluer la qualité de localisation des propositions, un score spécifique est calculé. Il combine :
- Une mesure de centricité (distance entre le centre prédit et le centre réel).
- Une mesure d'échelle (comparaison des dimensions et de l'orientation, en traitant l'angle de lacet comme une matrice de rotation pour aligner les vecteurs de dimensions).
- Ce score guide le réseau à apprendre des caractéristiques géométriques généralisables.

Étape 2 : Sélection conjointe (Joint Selection - JS)

Cette étape vise à filtrer les propositions générées à l'étape 1 pour sélectionner les meilleures "vérités terrain pseudo" pour les objets inconnus, en évitant le bruit.

Fusion Multimodale : Le module JS combine deux sources d'information :
1. Le score d'objectité 3D ( $s'_{obj}$ ) provenant de l'ODN3D (indique la probabilité qu'il y ait un objet et la qualité de sa localisation).
2. La réponse des caractéristiques BEV (Bird's Eye View) issues du détecteur caméra (indique la similarité d'apparence avec les classes connues).
Logique de sélection : Un objet inconnu idéal doit avoir un score d'objectité élevé (bonne localisation) mais une réponse BEV faible (peu similaire aux classes connues).
Score de sélection conjointe ( $s_{jos}$ ) : Calculé comme $s_{jos} = s'_{obj} \times (1 - s_{fea})$ , où $s_{fea}$ est la réponse moyenne des caractéristiques BEV. Les propositions avec le score $s_{jos}$ le plus élevé sont sélectionnées comme pseudo-vérités terrain pour les objets inconnus.

Entraînement

Phase 1 : Entraînement indépendant de BEVFormer (caméra) et ODN3D (LiDAR) sur les classes connues.
Phase 2 : Réentraînement de BEVFormer en utilisant les vérités terrain originales (classes connues) combinées aux pseudo-vérités terrain sélectionnées (objets inconnus). Une pondération basée sur le score d'objectité est appliquée à la perte de classification des objets inconnus pour réduire l'impact du bruit.

3. Contributions Clés

ODN3D : Introduction d'un nouveau réseau de propositions d'objets 3D utilisant l'appariement GeoHungarian et un score d'objectité 3D géométrique pour découvrir des objets sans surapprentissage aux classes connues.
Module de Sélection Conjointe (JS) : Proposition d'une méthode innovante exploitant l'information croisée (LiDAR pour la géométrie, Caméra pour l'apparence) pour filtrer efficacement le bruit et sélectionner des pseudo-étiquettes de haute qualité pour les objets inconnus.
Cadre OS-Det3D : Un système complet en deux étapes permettant aux détecteurs 3D basés sur la caméra d'opérer en mode ouvert, améliorant à la fois la détection des objets inconnus et la robustesse sur les objets connus.

4. Résultats Expérimentaux

Les méthodes ont été évaluées sur les ensembles de données nuScenes et KITTI.

Performance sur nuScenes :
- OS-Det3D améliore significativement la détection d'objets inconnus par rapport aux méthodes de base (BEVFormer fermé) et aux approches existantes (OW-DETR, CA-3D).
- Sur le split nuScenes 2, le taux de rappel pour les objets inconnus ( $AR_{unk}$ ) passe de 25,9 % (méthode de base CA-3D) à 31,8 % avec OS-Det3D.
- La performance sur les objets connus ( $mAP_{known}$ ) est maintenue ou légèrement améliorée (passant de 42,5 % à 43,4 %), prouvant que l'apprentissage sur les objets inconnus ne dégrade pas la détection des objets connus.
Performance sur KITTI :
- La composante ODN3D seule surpasse les méthodes de l'état de l'art (comme MLUC et OSIS) pour la découverte d'objets inconnus, avec un rappel ( $Recall_{unk}$ ) de 74,4 % et une amélioration de l'AP pour les inconnus de 23,5 % par rapport à MLUC.
Études d'ablation :
- L'ajout du module JS et de la pondération douce (Soft Weighting) améliore systématiquement les performances.
- L'utilisation du score d'objectité 3D personnalisé (intégrant l'angle de rotation) donne de meilleurs résultats que les scores basés sur l'IoU standard.

5. Signification et Impact

Ce travail constitue une avancée significative pour la perception des véhicules autonomes :

Sécurité accrue : En permettant aux systèmes de détecter des objets non prévus (ex: débris, véhicules atypiques, animaux), il réduit les risques d'accidents liés à l'incapacité du système à réagir face à l'inconnu.
Efficacité des capteurs : Il démontre qu'il est possible d'entraîner des détecteurs 3D performants en mode ouvert en utilisant des données LiDAR uniquement pour l'apprentissage de la géométrie, tout en conservant une inférence caméra uniquement (plus économique et pratique pour le déploiement).
Nouvelle direction : Il propose une solution robuste au problème du bruit dans les pseudo-étiquettes, un défi majeur dans l'apprentissage en mode ouvert, en introduisant une sélection basée sur la complémentarité des modalités.

En résumé, OS-Det3D comble le fossé entre la détection 3D fermée et les exigences du monde réel ouvert, offrant un cadre robuste pour la découverte d'objets inconnus sans sacrifier la précision sur les classes connues.