TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie lernt ein Auto, die Welt zu sehen?

Stellen Sie sich vor, Sie möchten einem Kind beibringen, Autos und Fußgänger zu erkennen. Der normale Weg wäre, ihm tausende Fotos zu zeigen und jedes Mal zu sagen: „Das ist ein Auto", „Das ist ein Fußgänger". Das ist aber extrem mühsam, teuer und zeitaufwendig. In der Welt der autonomen Fahrzeuge ist es noch schlimmer: Die Sensoren (LiDAR) sehen die Welt nicht als Bilder, sondern als Millionen von winzigen Punkten im Raum. Diese Punkte manuell zu beschriften, würde Jahre dauern.

Bisherige Methoden versuchten, das Kind zu trainieren, indem sie Teile der Bilder verdeckten und es fragten: „Was war hier?" (wie ein Puzzle) oder indem sie zwei fast gleiche Bilder verglichen. Aber das ignoriert eine wichtige Sache: Die Welt bewegt sich.

Die Lösung: TREND – Der „Zukunfts-Wetterbericht" für Autos

Die Forscher haben eine neue Methode namens TREND entwickelt. Der Name steht für Temporal Rendering with Neural fielD (Zeitliches Rendern mit einem neuronalen Feld), aber man kann es sich einfacher vorstellen: TREND ist wie ein Lehrer, der dem Auto beibringt, die Zukunft vorherzusagen.

Statt nur zu raten, was hinter einer verdeckten Mauer ist, sagt TREND dem Auto: „Schau dir an, wie sich die Dinge jetzt bewegen, und versuche vorherzusagen, wie sie in einer Sekunde aussehen werden."

Hier ist, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Der Tanz des Autos (Recurrent Embedding)

Stellen Sie sich vor, Sie tanzen in einem Raum voller Menschen. Wenn Sie sich selbst drehen oder vorwärts laufen, verändern sich die Positionen der anderen Menschen in Ihrem Sichtfeld.

Das Problem: Bisherige Methoden vergaßen oft, dass das Auto selbst sich bewegt.
Die TREND-Lösung: TREND nimmt die Bewegung des Autos (wie schnell es fährt, ob es bremst oder lenkt) und nutzt diese Information, um zu verstehen, wie sich die Welt um das Auto herum verändern wird. Es ist, als würde der Lehrer dem Schüler sagen: „Weil du dich nach links drehst, werden die Bäume auf der rechten Seite näher kommen."

2. Der unsichtbare Gipsabdruck (Temporal LiDAR Neural Field)

Normalerweise sehen wir nur die Punkte, die der Sensor direkt trifft. Aber TREND baut sich ein unsichtbares, dreidimensionales Modell der gesamten Szene – wie einen Gipsabdruck eines Raumes, der auch die leeren Stellen zwischen den Möbeln kennt.

Der Trick: Dieses Modell ist nicht statisch. Es ist wie ein Film, der sich abspielt. TREND nutzt dieses Modell, um nicht nur die aktuelle Szene zu „malen", sondern auch zu simulieren, wie sie in der nächsten Sekunde aussieht.

3. Der Test: „Was kommt als Nächstes?"

Das Auto trainiert, indem es versucht, die nächste Szene vorherzusagen.

Der Vergleich: Stellen Sie sich vor, Sie schauen einem Fußballspiel zu. Ein guter Zuschauer kann sagen: „Der Spieler läuft jetzt auf das Tor zu, also wird er in zwei Sekunden den Ball schießen."
Bei TREND: Das Auto schaut sich die aktuellen Punkte an, denkt über die Bewegung nach und sagt: „In einer Sekunde werden diese Punkte hier sein." Dann vergleicht es seine Vorhersage mit der Realität. Wenn es falsch lag, lernt es daraus. Wenn es richtig lag, hat es die Welt verstanden.

Warum ist das so genial?

Es nutzt die Zeit als Lehrer: Frühere Methoden waren wie ein Standbild-Foto. TREND ist wie ein Film. Durch das Beobachten von Bewegung lernt das Auto automatisch, was ein „Fußgänger" ist (weil er sich anders bewegt als ein Baum) und was ein „Auto" ist, ohne dass jemand ihm das jemals gesagt hat.
Es ist effizient: Da das Auto aus der Bewegung lernt, braucht es viel weniger manuell beschriftete Daten. Die Forscher haben gezeigt, dass TREND mit nur 5 % der üblichen Daten fast genauso gut oder sogar besser abschneidet als andere Methoden, die 100 % der Daten brauchen.
Es versteht Zusammenhänge: Wenn das Auto bremst, wissen Fußgänger vielleicht, dass sie über die Straße gehen können. TREND lernt diese Interaktion, indem es die Zukunft vorhersagt.

Das Ergebnis

In Tests auf verschiedenen Datenbanken (wie Waymo oder NuScenes) war TREND deutlich besser als alle vorherigen Methoden. Es konnte Objekte wie Fahrzeuge, Fahrräder und Fußgänger besser erkennen, selbst wenn es nur wenig Trainingsmaterial gab.

Zusammenfassend:
Statt einem autonomen Auto tausende Fotos mit Beschriftungen zu zeigen, hat TREND ihm beigebracht, die Welt wie ein erfahrener Fahrer zu beobachten: Es schaut nicht nur, wo die Dinge sind, sondern wohin sie sich bewegen. Indem es die Zukunft simuliert, lernt es die Gegenwart viel besser zu verstehen. Das macht autonome Fahrzeuge sicherer, schneller in der Entwicklung und weniger abhängig von teurer manueller Arbeit.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Annotation von LiDAR-Punktwolken für das autonome Fahren ist extrem zeit- und ressourcenintensiv. Experten benötigen mindestens 10 Minuten pro Frame für grobe Annotationen, was bei hohen Sensorfrequenzen (z. B. 20 Hz) zu enormen Kosten für die Datenerstellung führt.
Bestehende Methoden für das unüberwachte 3D-Representation-Learning (z. B. Masked Autoencoder oder kontrastives Lernen) haben zwei Hauptmängel:

Sie ignorieren oft die temporale Sequenz von LiDAR-Daten, die natürliche Informationen über Objektbewegungen und Semantik enthält.
Sie definieren „Störvariablen" (Nuisance Variability) oft manuell durch Augmentations-Strategien, anstatt diese aus den Daten selbst zu lernen.
Bisherige Vorhersage-Ansätze (Forecasting) berücksichtigen oft nicht die Ego-Bewegung (die Aktion des autonomen Fahrzeugs), die jedoch entscheidend für die Interaktion mit anderen Verkehrsteilnehmern ist.

2. Methodik: TREND

Das vorgeschlagene Framework TREND (Temporal REndering with Neural fielD) lernt 3D-Repräsentationen unüberwacht, indem es zukünftige LiDAR-Beobachtungen vorhersagt. Der Ansatz besteht aus drei Hauptkomponenten:

A. Rekurrente Einbettung (Recurrent Embedding Scheme)

Um zeitliche Informationen und die Ego-Bewegung zu integrieren, wird ein rekurrentes Schema verwendet:

Eingabe: Die aktuelle 3D-Repräsentation ( $\hat{P}_{t_0}$ ) und die Aktionen des Fahrzeugs ( $A_{t_n \to t_{n+1}}$ , bestehend aus Translation und Rotation).
Verarbeitung: Die Aktionen werden mittels sinusförmiger Kodierung (Sinusoidal Encoding) und eines flachen MLPs eingebettet. Diese Action-Embeddings werden mit den vorherigen 3D-Features verkettet.
Ausgabe: Ein flacher 3D-Dense-Convolution-Block generiert die 3D-Einbettungen für zukünftige Zeitstempel ( $\hat{P}_{t_{n+1}}$ ). Dies ermöglicht es dem Modell, die Evolution der Szenenfeatures basierend auf der Fahrzeugbewegung zu modellieren.

B. Temporale LiDAR-Neuronale Felder (Temporal LiDAR Neural Field)

Anstatt nur Punktwolken zu rekonstruieren, nutzt TREND ein neuronales Feld, um die 3D-Szene kontinuierlich darzustellen:

Das Feld nimmt einen 3D-Punkt $p$ , einen Zeitstempel $t$ und die abgefragten Features als Eingabe.
Es sagt zwei Werte vorher:
1. Geometrie-Features ( $f_{geo}$ ): Erfassen die Oberflächenstruktur.
2. Signed Distance Value (SDF): Beschreibt den Abstand zur Oberfläche.
Besonderheit: Im Gegensatz zu neuronalen Feldern für Kamera-Bilder (wie NeRF) berücksichtigt dieses Feld spezifische LiDAR-Eigenschaften wie die Intensität (Reflexionsstärke) und die Geometrie der Punktwolke.

C. Differentiable Rendering und Verlustfunktion

Das Training erfolgt durch das Rendern der vorhergesagten Szene:

Ray Sampling: Es werden Strahlen vom Sensor aus gesampelt (unter Ausschluss von Bodenpunkten zur Effizienzsteigerung).
Rendering: Basierend auf den vorhergesagten SDF-Werten wird eine Besetzungs-Wahrscheinlichkeit (Occupancy) berechnet und die Reichweite ( $\tilde{r}$ ) der Strahlen integriert.
Intensitätsvorhersage: Ein separates Netzwerk sagt die Intensität des LiDAR-Punkts basierend auf Einfallsrichtung und Oberflächennormalen vorher.
Verlust: Der Gesamtverlust ( $L$ ) setzt sich aus dem $L_1$ -Fehler für die vorhergesagte Reichweite, die Intensität und eine Regularisierung für die SDF-Werte (erwarteter Wert 0 an der Oberfläche) zusammen.

D. Curriculum Learning

Da das direkte Vorhersagen mehrerer Frames schwierig ist, wird eine Curriculum-Learning-Strategie angewendet: Das Modell beginnt mit der Vorhersage kurzer Zeiträume und erhöht die Vorhersagelänge schrittweise während des Trainings.

3. Schlüsselbeiträge

Neuer Paradigmenwechsel: Statt Maskierung oder Kontrastivität nutzt TREND temporale Vorhersage als primäres Selbstüberwachungsziel, um semantische und Bewegungsstrukturen implizit zu lernen.
Integration der Ego-Bewegung: Das Modell berücksichtigt explizit die Aktionen des autonomen Fahrzeugs, was für das Verständnis von Interaktionen im Verkehr entscheidend ist.
LiDAR-spezifisches Neuronales Feld: Entwicklung eines neuronalen Feldes, das nicht nur Geometrie, sondern auch LiDAR-spezifische Intensitätsdaten und Zeitstempel verarbeitet.
Skalierbarkeit: Die Methode ist rein unüberwacht und benötigt keine manuellen Labels für das Pre-Training.

4. Ergebnisse

TREND wurde auf vier großen Datensätzen evaluiert: Once, Waymo, NuScenes und SemanticKITTI. Die Leistung wurde durch Fine-Tuning auf Downstream-Aufgaben (3D-Objektdetektion und semantische Segmentierung) gemessen.

Leistungssteigerung:
- Auf dem Once-Datensatz erzielte TREND eine Verbesserung von 1,77 % mAP gegenüber Modellen, die von Grund auf neu trainiert wurden (From-Scratch). Dies ist bis zu 400 % mehr als der Zuwachs durch vorherige State-of-the-Art (SOTA) unüberwachte Methoden.
- Auf NuScenes wurde eine Steigerung von 2,11 % mAP und 1,46 % NDS (NuScenes Detection Score) erreicht.
- Bei der semantischen Segmentierung (SemanticKITTI) verbesserte sich der mIoU um 2,89 %.
Robustheit: TREND zeigt eine höhere Stabilität bei wiederholten Evaluierungen (geringere Varianz) und beschleunigt die Konvergenz beim Training mit wenigen Daten (Few-Shot Learning).
Transferfähigkeit: Ein auf Once vortrainiertes Modell konnte erfolgreich auf Waymo übertragen werden und dort signifikante Verbesserungen erzielen.
Ablationsstudien: Die Studie bestätigt, dass sowohl die rekurrente Einbettung als auch das temporale neuronale Feld essenziell für den Erfolg sind. Das Weglassen der Ego-Bewegung oder der Intensitätsvorhersage führt zu Leistungseinbußen.

5. Bedeutung und Fazit

TREND demonstriert, dass temporale Vorhersage eine überlegene Methode für das unüberwachte Pre-Training von LiDAR-Modellen ist. Indem das Modell lernt, zukünftige Beobachtungen basierend auf aktuellen Daten und Fahrzeugaktionen zu antizipieren, erfasst es tieferliegende semantische und dynamische Strukturen der Umgebung, die bei reinen Rekonstruktions- oder Kontrastivmethoden oft verloren gehen.

Dieser Ansatz reduziert die Abhängigkeit von manuell annotierten Daten erheblich und verbessert die Generalisierungsfähigkeit autonomer Fahrzeuge in komplexen Szenarien. Die Arbeit legt nahe, dass die Kombination aus temporaler Dynamik und spezifischen Sensor-Eigenschaften (wie Intensität) der Schlüssel zu besseren 3D-Grundmodellen für das autonome Fahren ist.