Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Each language version is independently generated for its own context, not a direct translation.

🚗 La Voiture Autonome et ses "Lunettes Sales"

Imaginez que vous conduisez une voiture autonome. Pour voir la route, elle ne s'appuie pas sur des yeux humains, mais sur un LiDAR. C'est un peu comme un scanner laser qui tire des millions de petits points dans toutes les directions pour dessiner une carte 3D du monde autour de la voiture (les voitures, les piétons, les arbres, la route).

Le problème ? Pour apprendre à cette voiture à reconnaître ces points, on doit lui donner des étiquettes (des "post-it" virtuels) disant : "Ce point est un piéton", "Ce point est un arbre".

Mais dans la vraie vie, ces étiquettes sont souvent imparfaites.

Parfois, un humain qui les a dessinées a fait une erreur.
Parfois, un arbre cache un piéton, et l'étiquette est floue.
Parfois, le capteur est sale ou la météo est mauvaise.

C'est comme essayer d'apprendre à un enfant à reconnaître des animaux avec un livre où certaines pages sont tachées d'encre ou où les noms sont écrits au mauvais endroit. Si vous apprenez avec ce livre sale, l'enfant va se tromper.

🌍 Le Défi : Apprendre sans se tromper, partout

Les chercheurs ont deux gros problèmes à résoudre en même temps :

Les étiquettes sont sales (Bruit) : L'information d'entraînement est corrompue.
Le monde change (Domaine) : La voiture s'entraîne à Karlsruhe (Allemagne) avec des routes et des voitures allemandes, mais elle doit conduire à Londres ou à Pékin, où tout est différent (météo, architecture, types de véhicules).

Si la voiture est entraînée avec des étiquettes sales sur des routes allemandes, elle risque de paniquer dès qu'elle arrive à Londres. C'est ce qu'on appelle la généralisation de domaine.

🧪 L'Expérience : Créer un "Laboratoire de Sale"

Pour tester comment les voitures peuvent survivre à ces conditions, les auteurs ont créé un nouveau benchmark (un test standard).

Ils ont pris un jeu de données propre (SemanticKITTI).
Ils ont volontairement "salé" les étiquettes : ils ont pris 10%, 20% ou même 50% des étiquettes et ont changé le nom de l'objet au hasard (dire "camion" au lieu de "voiture").
Ils ont ensuite demandé aux algorithmes de s'entraîner sur ce livre sale et de conduire sur de nouvelles routes (nuScenes, SemanticPOSS) sans aucune aide supplémentaire.

🛠️ La Solution : "DuNe", le Détective à Double Vue

Les chercheurs ont essayé d'adapter des méthodes qui marchent bien sur les photos 2D (comme les images de chat), mais ça n'a pas fonctionné. Les nuages de points 3D sont trop différents : ils sont vides, désordonnés et irréguliers.

Alors, ils ont inventé DuNe (Dual-view framework for learning with Noisy labels). Voici comment ça marche, avec une analogie simple :

Imaginez que vous essayez de deviner ce qu'il y a dans une boîte fermée, mais vous avez deux lunettes différentes :

La Lunette "Faible" (Weak View) : C'est la vue normale, telle que vous voyez la scène. Elle est fidèle, mais elle peut être trompée par les étiquettes sales.
La Lunette "Forte" (Strong View) : C'est une vue transformée. On mélange des parties de la scène, on tourne des objets, on enlève des points (comme si on regardait la scène à travers un filtre ou un miroir déformant). Cela force le cerveau de la voiture à comprendre la forme de l'objet, pas juste à mémoriser l'étiquette.

Le secret de DuNe :
Au lieu de choisir une seule vue, le système utilise les deux en même temps et leur demande de s'accorder.

Si la "Lunette Forte" dit "C'est un camion" et la "Lunette Faible" dit "C'est un camion", alors c'est probablement vrai, même si l'étiquette d'origine était fausse.
Si elles sont en désaccord, le système se méfie et apprend à ignorer l'étiquette sale.

C'est comme si vous aviez deux détectives qui regardent la même scène. Si l'un dit "C'est un voleur" et l'autre dit "C'est un policier", vous savez qu'il y a un problème. Mais si tous les deux s'accordent sur "C'est un camion", vous pouvez faire confiance à leur jugement, même si le rapport initial était erroné.

🏆 Les Résultats : Une Résistance Incroyable

Les résultats sont impressionnants :

Quand les étiquettes sont très sales (50% d'erreurs), les anciennes méthodes s'effondrent complètement (la voiture ne voit plus rien).
DuNe, lui, continue de fonctionner. Il arrive à reconnaître les objets correctement même avec un livre d'apprentissage presque illisible.
De plus, quand il arrive dans un nouveau pays (nouveau domaine), il s'adapte beaucoup mieux que les autres.

💡 En Résumé

Ce papier nous dit que pour rendre les voitures autonomes vraiment sûres, on ne peut pas se contenter de données parfaites (qui n'existent pas). Il faut apprendre aux IA à détecter les erreurs et à comprendre la structure du monde plutôt que de simplement mémoriser des étiquettes.

Grâce à DuNe, qui utilise une astuce de "double vision" pour vérifier les faits, nous avons un pas de géant vers des voitures capables de conduire en toute sécurité, même quand les données sont imparfaites et que le monde change autour d'elles.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels » (Exploration de la généralisation de domaine unique pour la segmentation sémantique basée sur LiDAR sous des labels imparfaits).

1. Problématique

La perception précise est cruciale pour la sécurité des véhicules autonomes, le LiDAR étant un capteur clé fournissant une géométrie 3D précise. Cependant, deux défis majeurs entravent la fiabilité de ces systèmes :

Généralisation de domaine (Domain Generalization - DG) : Les modèles entraînés sur un domaine source (ex: SemanticKITTI) voient souvent leurs performances chuter drastiquement lorsqu'ils sont déployés dans des environnements non vus (ex: nuScenes, SemanticPOSS) en raison de changements de capteurs, de conditions météorologiques ou de distributions de scènes.
Labels imparfaits (Noisy Labels) : L'annotation manuelle des nuages de points 3D est coûteuse, difficile et sujette à des erreurs (occlusions, erreurs humaines, imperfections des capteurs). La plupart des méthodes de DG supposent des annotations parfaites. Or, le bruit dans les labels dégrade la segmentation et amplifie les effets du décalage de domaine, menaçant la fiabilité du système.

Le vide de recherche : Bien que l'apprentissage avec des labels bruyants soit bien étudié en vision 2D (images), son extension à la segmentation sémantique 3D LiDAR dans un contexte de généralisation de domaine reste largement inexploré, principalement en raison de la structure éparses, irrégulière et sans ordre des nuages de points qui rend les méthodes 2D inapplicables directement.

2. Méthodologie : Le Framework DuNe

Les auteurs proposent DuNe (Dual-view framework for learning with Noisy labels), une nouvelle architecture conçue spécifiquement pour la généralisation de domaine sous bruit de labels.

A. Benchmark DGLSS-NL

Pour combler le manque de données de référence, les auteurs ont établi le premier benchmark DGLSS-NL (Domain Generalization for LiDAR Semantic Segmentation under Noisy Labels).

Ils injectent du bruit de labels symétrique (remplacement aléatoire d'une classe par une autre) à des taux de 10 %, 20 % et 50 % sur le domaine source.
Ils adaptent trois stratégies représentatives d'apprentissage avec labels bruyants de la vision 2D (TCL, DISC, NPN) à la segmentation 3D pour servir de bases de comparaison.

B. Architecture DuNe

Le framework repose sur une approche dual-view (double vue) qui combine robustesse aux labels et cohérence structurelle :

Génération de vues (PolarMix) : Chaque scan LiDAR est augmenté pour créer deux vues complémentaires :
- Vue forte (Strong View) : Utilise l'augmentation PolarMix (échange de scènes et collage d'instances) pour enrichir la géométrie et la diversité, générant un nombre de points potentiellement plus élevé ( $N' \ge N$ ).
- Vue faible (Weak View) : Préserve la fidélité structurelle de l'original avec le même nombre de points ( $N$ ).
- Les deux vues subissent ensuite une augmentation de sparsité (suppression de rangs aléatoires) pour simuler des artefacts de capteurs.
Branches d'encodage et de décodage :
- Les deux vues sont encodées via un réseau de convolution sparse (MinkowskiEngine).
- La branche forte génère des prédictions utilisées pour construire des ensembles de labels candidats et complémentaires.
- La branche faible est utilisée pour forcer la cohérence sémantique.
Fonctions de Perte (Loss Functions) :
- Perte DGLSS (Consistance) : Comprend une perte de cohérence des caractéristiques invariantes à la sparsité (SIFC) et une perte de corrélation sémantique (SCC) pour stabiliser les relations inter-classes.
- Perte NPN (Robustesse au bruit) : Adaptée de la méthode NPN (Noisy Partial Negative). Elle décompose l'espace des labels en un ensemble de labels candidats (incluant les prédictions fortes et faibles) et un ensemble de labels négatifs. Elle applique un apprentissage de labels partiels (PLL) et un apprentissage négatif (NL) pour pénaliser les classes non candidates, filtrant ainsi le bruit basé sur la confiance.
- Perte de cohérence de vue (Feature Consistency) : Une perte supplémentaire aligne les caractéristiques de la branche forte et de la branche faible.
Stratégie d'inférence : Lors de l'inférence, seule la branche forte est utilisée pour des raisons d'efficacité, tandis que la branche faible et les pertes de consistance sont désactivées.

3. Contributions Clés

Benchmark DGLSS-NL : Première étude systématique de la généralisation de domaine LiDAR sous bruit de labels contrôlé, avec une évaluation rigoureuse intra-domaine et inter-domaines.
Analyse diagnostique : Adaptation et évaluation de trois méthodes 2D (TCL, DISC, NPN) sur des nuages de points, révélant leurs limites (coût computationnel, difficulté de sélection d'échantillons propres) et fournissant des insights pour les futures méthodes 3D.
Framework DuNe : Introduction d'une architecture dual-view qui fusionne une vue géométrique forte avec une vue faible, intégrant une supervision robuste au bruit (partielle/négative) et une consistance de caractéristiques. Cela permet de résister à la corruption des labels tout en maintenant une forte généralisation.

4. Résultats Expérimentaux

Les expériences ont été menées sur SemanticKITTI (source), nuScenes et SemanticPOSS (cibles non vues).

Performance globale : DuNe surpasse systématiquement les méthodes de base et les stratégies transférées de l'image.
- Sous 10 % de bruit, DuNe atteint 56,86 % mIoU sur SemanticKITTI, 42,28 % sur nuScenes et 52,58 % sur SemanticPOSS.
- Les moyennes globales sont de 49,57 % (AM) et 48,50 % (HM), surpassant la meilleure base (NPN) de +4,6 points en moyenne.
Robustesse au bruit élevé : Même sous 50 % de bruit, DuNe maintient des performances significatives (44,78 % AM), là où les autres méthodes s'effondrent (ex: TCL tombe à ~10 %).
Analyse qualitative : Les visualisations montrent que DuNe produit des segmentations plus cohérentes et des distributions de classes plus équilibrées que le baseline DGLSS, même avec un bruit sévère.
Étude d'ablation :
- L'ajout de PolarMix améliore la diversité des données.
- L'ajout de NPN améliore considérablement la robustesse.
- La combinaison des deux avec la consistance de vue (DuNe complet) offre les meilleurs résultats, prouvant que la modélisation du bruit et l'augmentation géométrique sont complémentaires.

5. Signification et Impact

Ce travail est fondamental pour le domaine de la perception autonome car il :

Reconnaît la réalité du bruit : Il déplace le paradigme de la recherche en supposant des labels propres vers des labels réalistes et imparfaits.
Comble le fossé 2D-3D : Il démontre que les méthodes 2D ne peuvent pas être simplement transférées aux nuages de points et propose des adaptations spécifiques à la géométrie 3D.
Améliore la sécurité : En garantissant une segmentation robuste même avec des données d'entraînement bruitées et dans des environnements non vus, DuNe contribue directement à la fiabilité des systèmes de conduite autonome.

Le code et le benchmark sont rendus publics pour favoriser la recherche future sur la perception LiDAR robuste au bruit.