JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen selbstfahrenden Roboter-Auto-Trainingskurs organisieren. Das Ziel ist, dass das Auto alles auf der Straße erkennt: Fußgänger, andere Autos, aber auch seltene Dinge wie ein Radfahrer mit einem riesigen Fahrradanhänger oder ein Hirsch, der plötzlich auf die Straße springt.

Das Problem? Um das Auto zu trainieren, braucht man Beispielbilder, auf denen diese Dinge mit bunten Kästchen markiert sind (das nennt man "Labeln").

Hier kommt das Papier JiSAM ins Spiel. Es löst zwei riesige Probleme auf eine clevere Art:

1. Das Problem: Der teure und langweilige Job

In der echten Welt (z. B. in Boston oder Singapur) Daten zu sammeln, ist super. Aber diese Daten manuell zu markieren, ist ein Albtraum.

Die Analogie: Stell dir vor, du müsstest jeden einzelnen Baum, jedes Auto und jeden Fußgänger in einer Stunde lang dauernden Videoaufnahme von Hand mit einem Pinsel umranden. Das dauert ewig, kostet viel Geld und ist extrem langweilig. Experten brauchen dafür mindestens 10 Minuten pro Bild!
Das Ergebnis: Wir haben zu wenig markierte echte Daten, besonders für seltene Fälle (die "Eckfälle").

2. Die Lösung: Die perfekte Simulation

In Computerspielen wie CARLA (einem Simulator für autonomes Fahren) kann man diese Daten in Sekundenschnelle generieren. Man kann dort 10.000 Hirsche auf die Straße setzen, ohne dass jemand müde wird.

Das Problem: Aber ein Auto, das nur im Simulator trainiert wurde, ist wie ein Schüler, der nur in der Theorie gelernt hat. Wenn es dann auf die echte, schmutzige, chaotische Straße kommt, versteht es die Welt nicht mehr. Die "Laser-Strahlen" (LiDAR) sehen im Simulator zu sauber aus, in der Realität aber verrauscht.

3. Die Magie von JiSAM: Der clevere Trainer

Die Forscher haben JiSAM entwickelt. Man kann es sich wie einen Super-Trainer vorstellen, der drei spezielle Tricks anwendet, um den Simulator-Studenten fit für die echte Welt zu machen, ohne dass wir 97,5 % der echten Daten markieren müssen.

Hier sind die drei Tricks (die drei Komponenten von JiSAM):

Trick 1: Das "Rauschen" (Jittering Augmentation)

Das Problem: Im Simulator ist alles zu perfekt. Die Laserpunkte liegen genau da, wo sie sein sollen. In der Realität wackeln sie ein bisschen (durch Vibrationen, Wetter, etc.).
Die Lösung: JiSAM nimmt die perfekten Simulator-Daten und streut absichtlich ein bisschen "Staub" oder "Wackeln" hinein.
Die Analogie: Stell dir vor, du übst Schießen auf eine Zielscheibe. Im Simulator ist die Zielscheibe immer genau in der Mitte. JiSAM sagt: "Okay, wir bewegen die Zielscheibe jetzt ein bisschen hin und her." So lernt das Auto, auch dann zu treffen, wenn die Welt nicht perfekt ist. Das macht die wenigen Simulator-Daten viel wertvoller.

Trick 2: Der "Zweisprachige" Rücken (Domain-aware Backbone)

Das Problem: Die echten Daten haben extra Informationen (z. B. wie hell ein Punkt leuchtet), die der Simulator nicht hat. Der Simulator hat dafür andere Daten. Ein normales Gehirn (das neuronale Netz) weiß nicht, wie es beides gleichzeitig verarbeiten soll.
Die Lösung: JiSAM baut einen kleinen "Eingangskanal" für jede Welt.
Die Analogie: Stell dir vor, du lernst zwei Sprachen. Für die echte Welt hast du ein Ohr für das "Helle-Leuchten", für die Simulator-Welt hast du ein Ohr für die "perfekte Geometrie". JiSAM nutzt beide Ohren, aber verarbeitet sie getrennt, bevor sie im Gehirn zusammenkommen. So geht keine Information verloren, und das Gehirn wird kaum größer.

Trick 3: Der "Gedächtnis-Speicher" (Memory-based Sectorized Alignment)

Das Problem: Wie bringt man dem Auto bei, dass ein Simulator-Hund einem echten Hund ähnelt, obwohl sie anders aussehen?
Die Lösung: JiSAM teilt die Welt in Sektoren ein (wie eine Pizza in 8 Stücke) und merkt sich, wie Objekte in bestimmten Richtungen aussehen.
Die Analogie: Stell dir vor, du hast ein Gedächtnisbuch.
- Du schaust dir einen echten Fußgänger an, der links von dir steht und nach vorne schaut. Du schreibst in dein Buch: "Fußgänger, links, nach vorne = sieht so aus".
- Dann schaust du dir einen Simulator-Fußgänger an, der auch links steht und nach vorne schaut. JiSAM sagt: "Hey, schau mal in dein Buch! Der Simulator-Fußgänger muss sich genau so verhalten wie der echte Fußgänger im Buch."
- Das zwingt den Simulator, sich der Realität anzupassen. Es ist wie ein Spiegel, der den Simulator korrigiert.

Das Ergebnis: Ein Wunder mit wenig Aufwand

Das Paper zeigt, dass JiSAM mit nur 2,5 % der echten markierten Daten (also extrem wenig!) genauso gut funktioniert wie Modelle, die mit 100 % der Daten trainiert wurden.

Und das Beste: Es kann sogar Dinge erkennen, die in den echten Trainingsdaten gar nicht vorkommen!

Das Beispiel: Wenn man im echten Trainingsset alle "Motorräder" entfernt (weil man sie nicht markieren wollte), aber im Simulator viele Motorräder hat, lernt das Auto durch JiSAM trotzdem, echte Motorräder zu erkennen. Es nutzt die Simulator-Beispiele, um die Lücke zu füllen.

Zusammenfassung in einem Satz

JiSAM ist wie ein genialer Koch, der mit sehr wenigen echten Zutaten (Daten) und einer großen Menge an virtuellen Ersatzteilen (Simulator-Daten) ein Meistergericht kocht, indem er die virtuellen Zutaten geschickt "verfälscht" und an die echten Gewohnheiten anpasst.

Das bedeutet: Wir müssen nicht mehr Jahre lang Daten sammeln und markieren, um sichere autonome Autos zu bauen. Wir können Simulationen nutzen, um die Lücken zu füllen – und JiSAM sorgt dafür, dass diese Lücken unsichtbar werden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Autonomes Fahren (AD) basiert stark auf der 3D-Objekterkennung mittels LiDAR-Sensoren. Derzeitige Deep-Learning-Ansätze sind jedoch stark von großen Mengen an manuell gelabelten Realwelt-Daten abhängig. Dies führt zu zwei Hauptproblemen:

Hoher Labeling-Aufwand: Das 3D-Labeling von LiDAR-Punktwolken ist extrem zeit- und kostenintensiv (ca. 10 Minuten pro Frame für Experten).
Fehlende Randfälle (Corner Cases): Reale Datensätze decken selten vorkommende Verkehrsteilnehmer (z. B. bestimmte Fahrzeugtypen oder seltene Szenarien) oft nicht ab, was zu Sicherheitslücken bei der Erkennung führt.

Zwar können Simulatoren wie CARLA leicht gelabelte synthetische Daten mit Randfällen generieren, doch die direkte Nutzung dieser Daten für die reale Wahrnehmung scheitert an zwei Herausforderungen:

Ineffizienz der Stichproben: Synthetische Daten sind weniger informativ als reale Daten; eine reine Skalierung der Datenmenge erhöht die Trainingskosten (Speicher und Zeit) überproportional.
Sim-to-Real Gap: Es bestehen signifikante Unterschiede zwischen simulierten und realen Daten (z. B. Intensitätswerte der Punkte, die im Simulator oft nur von der Position abhängen, während sie in der Realität Material und Einfallswinkel widerspiegeln; Unterschiede in den 3D-Formen von Objekten).

2. Methodik: JiSAM

Die Autoren schlagen JiSAM (Jittering augmentation, domain-aware backbone und memory-based Sectorized AlignMent) vor. Dies ist ein „Plug-and-Play"-Modul, das in bestehende 3D-LiDAR-Detektoren integriert werden kann, um synthetische und reale Daten gemeinsam zu trainieren.

JiSAM besteht aus drei Kernkomponenten:

A. Jittering Augmentation (Rausch-Augmentierung)

Um die Stichprobeneffizienz synthetischer Daten zu erhöhen, wird Rauschen direkt in die sphärischen Koordinaten ( $r, \theta, \varphi$ ) der simulierten Punktwolken eingefügt.

Prinzip: Basierend auf statistischen Modellen wird angenommen, dass LiDAR-Rauschverteilungen als unabhängige, identische Gauß-Verteilungen mit Mittelwert Null modelliert werden können.
Umsetzung: Während des Trainings wird für jeden Trainingsdurchlauf zufälliges Rauschen zu den sphärischen Koordinaten der simulierten Daten addiert, bevor sie zurück in kartesische Koordinaten transformiert werden.
Effekt: Dies erhöht die Vielfalt der lokalen Punktwolkenverteilung ohne zusätzliche Datenerfassung oder Speicherkosten.

B. Domain-Aware Backbone (Domänenbewusstes Rückgrat)

Da reale und simulierte Daten unterschiedliche Anzahl an Eingabe-Features haben (z. B. NuScenes hat Intensität und Zeitstempel, CARLA-Simulationen oft nur Position), wird ein gemeinsames Backbone-Netzwerk mit spezialisierten Eingabeschichten verwendet.

Architektur: Es gibt separate Eingabe-Blöcke ( $f^{3D,in}_{real}$ und $f^{3D,in}_{sim}$ ) für die beiden Domänen, die an die jeweiligen Feature-Kanäle angepasst sind.
Gemeinsamkeit: Alle nachfolgenden Blöcke des 3D-Backbones und der BEV (Bird-Eye-View)-Backbone sind geteilt (Shared Weights).
Vorteil: Dies nutzt alle verfügbaren Informationen beider Domänen optimal aus und erhöht die Parameterzahl im Training um weniger als 0,025 %.

C. Memory-based Sectorized AlignMent Loss (Speicherbasierte sektorierte Ausrichtungsverlustfunktion)

Um die Domänenlücke (Sim-to-Real Gap) zu schließen, wird ein Verlustmechanismus vorgeschlagen, der auf der Beobachtung basiert, dass Objekte derselben Klasse mit ähnlicher Ausrichtung (Heading) in derselben Umgebungssphäre (Sektor) ähnliche Punktwolkenverteilungen aufweisen.

Memory Bank: Der Raum um das Fahrzeug wird in Sektoren ( $N_{sc}$ ) unterteilt, und die Ausrichtungen in Bins ( $N_{heading}$ ) diskretisiert. Für jede Kombination aus Sektor, Ausrichtung und Objektklasse wird ein Feature-Memory angelegt.
Update-Mechanismus: Während des Trainings werden Features aus realen Daten extrahiert (mittels RoI-Grid-Pooling) und die entsprechenden Einträge in der Memory Bank mittels Momentum-Update aktualisiert.
Alignment Loss: Die Features der simulierten Daten werden mit den entsprechenden Einträgen in der Memory Bank (die durch reale Daten geprägt sind) verglichen. Ein Mean-Squared-Error-Loss ( $L^{SMA}$ ) zwingt die simulierten Features, sich an die Verteilung der realen Features anzupassen.
Bidirektionalität: Der Ansatz kann bidirektional erweitert werden, um auch reale Features an synthetische Memories anzupassen, falls diese Klassen in der Simulation vorhanden sind, aber in den realen Trainingsdaten fehlen.

3. Wichtige Beiträge

Reduktion des Labeling-Aufwands: JiSAM ermöglicht das Training von State-of-the-Art (SOTA) 3D-Detektoren mit nur 2,5 % der realen gelabelten Daten (ca. 7.000 Frames) in Kombination mit synthetischen Daten, bei gleichbleibender Leistung im Vergleich zu Modellen, die auf 100 % der realen Daten trainiert wurden.
Lösung von Corner Cases: Das System kann Objekte erkennen, die im realen Trainingsset gar nicht gelabelt sind (z. B. Motorräder), indem es diese ausschließlich aus den synthetischen Daten lernt.
Effiziente Nutzung synthetischer Daten: Durch Jittering und den spezialisierten Loss wird die Effizienz der synthetischen Daten massiv gesteigert, sodass weniger Speicherplatz und Rechenzeit für große Datensätze benötigt werden.
Plug-and-Play-Design: Die Methode ist unabhängig vom spezifischen Detektor-Architektur und kann leicht in bestehende SOTA-Modelle (wie TransFusion) integriert werden.

4. Ergebnisse

Die Experimente wurden auf dem NuScenes-Datensatz mit dem SOTA-Detektor TransFusion durchgeführt.

Leistung bei reduzierten Labels: JiSAM erreichte mit nur 2,5 % realen Daten und synthetischen Daten eine mAP von 63,95 und einen NDS von 69,36. Zum Vergleich: Ein auf 2,5 % realen Daten ohne JiSAM trainiertes Modell erzielte nur 60,18 mAP. Ein auf 100 % realen Daten trainiertes Modell erreichte 64,51 mAP. JiSAM schließt somit die Lücke fast vollständig.
Verbesserung bei Randfällen: In einem Szenario, in dem alle Labels für Motorräder aus den realen Trainingsdaten entfernt wurden, erreichte JiSAM dennoch eine mAP von ca. 16 % für Motorräder auf dem Validierungssatz. Ein Standard-Modell ohne synthetische Daten konnte diese Klasse gar nicht erkennen.
Ablationsstudie: Die Studie zeigte, dass das bloße Hinzufügen synthetischer Daten die Leistung verschlechtert. Erst die Kombination aus Domain-Aware Backbone, Jittering und dem Alignment-Loss führt zu signifikanten Verbesserungen.
Robustheit: Die Varianz der Ergebnisse über 10 verschiedene Random Seeds war bei JiSAM geringer als bei Modellen, die nur auf wenigen realen Daten trainiert wurden.

5. Bedeutung und Ausblick

JiSAM stellt einen Paradigmenwechsel in der Entwicklung autonomer Fahrsysteme dar. Es adressiert direkt die größte Hürde für den realen Einsatz von KI im autonomen Fahren: den Mangel an vielfältigen, gelabelten Daten für seltene Szenarien.

Praktische Relevanz: Die Methode macht die Entwicklung sicherer AD-Systeme kosteneffizienter, da weniger teure manuelle Annotationen benötigt werden.
Sicherheit: Durch die Fähigkeit, Randfälle aus Simulationen zu lernen, ohne diese in der Realität gesehen zu haben, wird die Sicherheit in unvorhergesehenen Situationen erhöht.
Zukunft: Die Arbeit zeigt, dass die Lücke zwischen Simulationsforschung und realer Anwendung überbrückt werden kann. Zudem ist JiSAM orthogonal zu generativen KI-Modellen und könnte zukünftig auch zur Qualitätsbewertung von generierten LiDAR-Daten dienen.

Zusammenfassend beweist JiSAM, dass synthetische Daten, wenn sie durch intelligente Augmentierung und Domänenanpassungstechniken genutzt werden, eine effektive und skalierbare Alternative zu massiven realen Datensätzen darstellen können.