Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Deze paper introduceert het nieuwe taakgebied DGLSS-NL voor LiDAR-segmentatie met onvolmaakte labels, presenteert een eerste benchmark en stelt DuNe voor, een dubbelzicht-architectuur die de prestaties aanzienlijk verbetert door consistentie tussen sterke en zwakke weergaven te forceren en vertrouwen-gebaseerde filtering toe te passen.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zelfrijdende auto bouwt. De ogen van deze auto zijn LiDAR-sensoren. In plaats van foto's te maken, schieten deze sensoren miljoenen kleine laserstraaltjes uit om een 3D-kaart van de wereld te maken. Het is alsof de auto de wereld ziet als een wolk van duizenden stipjes.

Het probleem? De auto moet niet alleen in zijn eigen stad rijden, maar ook in andere steden, bij regen, sneeuw of met andere sensoren. Dat heet Domain Generalization (gebiedsgeneralisatie). De auto moet leren om te "generaliseren" zonder dat we hem voor elke nieuwe situatie opnieuw moeten programmeren.

Maar er is een groot struikelblok: de instructies die we de auto geven zijn vaak fout.

Het probleem: De "Verkeerde Vlaggen"

Om de auto te leren wat een "voetganger" is en wat een "vrachtwagen", moeten mensen de stipjes in de 3D-wolk handmatig labelen. Dat is enorm veel werk en vaak onnauwkeurig.

  • Soms is een stipje te ver weg om te zien wat het is.
  • Soms maakt de mens een foutje.
  • Soms is de sensor beschadigd.

In de wereld van de auto noemen we dit ruis of verkeerde labels. Het is alsof je een kind leert te lezen, maar je geeft hem een boek waar in 10% van de gevallen de woorden verkeerd zijn geschreven. Als je dat boek gebruikt om te leren, gaat het kind de verkeerde woorden onthouden.

De meeste bestaande methodes voor zelfrijdende auto's gaan er vanuit dat de instructies perfect zijn. Maar in de echte wereld is dat niet zo. Als de instructies fout zijn, en de auto komt in een nieuwe stad (een nieuw "domein"), dan faalt hij volledig.

De Oplossing: DuNe (De Twee-Ogen Methode)

De onderzoekers uit dit paper hebben een nieuwe manier bedacht om dit op te lossen, genaamd DuNe. Ze gebruiken een slimme analogie: leren met twee verschillende blikken.

Stel je voor dat je een schilderij moet kopiëren, maar je hebt een slechte fotokopie van het origineel (de ruis).

  1. De Zwakke Blik (Weak View): Dit is de originele, wat vervormde kopie. Je kijkt er rustig naar, zonder veel aan te passen.
  2. De Sterke Blik (Strong View): Dit is een versie waar je heel veel aan hebt gesleuteld. Je hebt stukken van andere schilderijen eroverheen geplakt, gedraaid en gemanipuleerd. Het ziet er chaotisch uit, maar het dwingt je brein om echt te begrijpen wat er te zien is, in plaats van alleen de details te onthouden.

Hoe werkt DuNe?
Het systeem kijkt naar beide versies tegelijk:

  • Het vergelijkt wat het ziet in de "Sterke" versie met wat het ziet in de "Zwakke" versie. Als ze het erover eens zijn, is het waarschijnlijk een goed antwoord.
  • Het gebruikt een slimme truc om te zien welke labels waarschijnlijk fout zijn. Als het systeem twijfelt, negeert het die instructie tijdelijk of corrigeert het die.
  • Het leert zo dat het niet blindelings moet luisteren naar de menselijke instructies, maar dat het de structuur van de wereld (de stipjes) moet begrijpen.

Waarom is dit zo belangrijk?

Vroeger probeerden wetenschappers methodes over te nemen uit de 2D-wereld (zoals foto's van camera's). Maar dat werkt niet goed voor LiDAR, omdat stipjes in de lucht anders werken dan pixels op een scherm. Het is alsof je probeert te zwemmen met de techniek van een landloper.

De onderzoekers hebben bewezen dat hun nieuwe methode (DuNe) veel beter werkt:

  • Zelfs als 50% van de instructies fout zijn (alsof de helft van het boek verkeerd is), kan de auto nog steeds goed rijden.
  • De auto blijft stabiel, zelfs als hij van de Duitse snelweg naar een Nederlandse stad of een Chinees dorp rijdt.

De Conclusie in één zin

Deze paper introduceert een slimme "twee-oog" methode die het mogelijk maakt om zelfrijdende auto's te trainen, zelfs als de trainingdata vol zit met fouten, zodat ze veilig kunnen rijden in elke wereld, ongeacht hoe imperfect de instructies waren.

Het is als het geven van een kompas aan een reiziger in plaats van een gedetailleerde kaart die vol staat met fouten. De reiziger (de auto) leert zo de weg te vinden, zelfs als de kaart niet klopt.