Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een jonge, ambitieuze bestuurder wilt leren rijden. Normaal gesproken geef je die leerling een dure rijles met een instructeur die constant zegt: "Draai links," "Rem nu," en "Kijk naar dat bordje." In de wereld van zelfrijdende auto's zijn die instructies de labels (annotaties) en de instructeur de menselijke expert. Het probleem is: dit kost ontzettend veel tijd en geld. Er zijn maar weinig auto's die perfect gelabelde rijdata hebben.

Maar wat als je die leerling in plaats daarvan miljoenen gewone YouTube-video's van andere mensen zou laten kijken? Video's zonder instructeur, zonder rijles, gewoon mensen die door de stad rijden. Dat is precies wat dit nieuwe onderzoek, LFG (Learning to drive is a Free Gift), doet.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Gratis Cadeautje" Filosofie

De titel zegt het al: "Rijden leren is een gratis cadeau."
De onderzoekers zeggen: "Waarom zouden we dure labels nodig hebben als we de hele wereld vol met gratis video's hebben?" Ze nemen ongelabelde video's van YouTube (waar mensen gewoon rondrijden) en laten een computermodel hieruit leren. Het is alsof je een kind laat kijken naar duizenden uur aan verkeersbeelden en het laat raden hoe de wereld eruitziet, zonder dat iemand het hoeft uit te leggen.

2. De Leermeester en de Leerling (Teacher-Student)

Omdat de video's geen antwoorden hebben (we weten niet precies hoe ver de auto van een boom af staat), gebruiken ze slimme "leermeesters".

De Leerling (LFG): Dit is het model dat we trainen. Het kijkt alleen naar de eerste paar seconden van een video en moet de rest voorspellen.
De Leermeesters: Dit zijn andere, zeer sterke AI-modellen die al veel weten.
- Eén leermeester is een architect (voor de 3D-ruimte): Hij zegt: "Kijk, dat is een muur, dat is een weg."
- Een ander is een dynamisch danser (voor beweging): Hij zegt: "Die auto beweegt, die boom staat stil."
- Een derde is een schilder (voor semantiek): Hij zegt: "Dat is een weg, dat is een voetganger."

De leerling (LFG) probeert te doen wat deze leermeesters zeggen, maar dan alleen op basis van de beelden die hij ziet. Hij leert zo een "gevoel" voor de wereld te krijgen zonder dat iemand hem de antwoorden heeft gegeven.

3. Het "Crystal Ball" Effect (Toekomstvoorspelling)

Dit is het meest coole deel. De meeste auto's kijken alleen naar wat er nu gebeurt. LFG is echter een kristallen bol.
Stel je voor dat je door een drukke straat rijdt. Je kijkt niet alleen naar de auto voor je, maar je voorspelt ook: "Als ik zo doorrijdt, komt die auto links over 2 seconden in mijn pad."
LFG doet dit door een autoregressief proces. Het kijkt naar de eerste beelden en zegt: "Oké, op basis van hoe de wereld er nu uitziet, hoe ziet de wereld eruit over 1 seconde? En over 2 seconden?"
Het leert niet alleen wat er is, maar ook hoe het zich gaat bewegen. Het voorspelt de toekomst van de weg, de auto's en de voetgangers.

4. Waarom is dit zo belangrijk? (De "Eén Camera" Superkracht)

De meeste geavanceerde zelfrijdende auto's (zoals die van Tesla of Waymo) hebben een zware uitrusting nodig: meerdere camera's, LiDAR (laser-scanners), en radars. Het is alsof je een auto rijdt met een pak vol dure apparatuur.

LFG bewijst dat je met één enkele camera (zoals een dashcam) net zo goed kunt presteren als die zware systemen.

Het resultaat: Op de NAVSIM-test (een soort examen voor zelfrijdende auto's) deed LFG het beter dan systemen met meerdere camera's en LiDAR, terwijl het alleen maar naar één camera keek.
De reden: Omdat het model de wereld zo goed begrijpt (diep, breed en dynamisch), hoeft het geen extra sensoren te gebruiken. Het "ziet" de diepte en beweging gewoon in het beeld.

5. De "Lekke Band" Test (Data-efficiëntie)

Stel je voor dat je een auto wilt leren rijden, maar je hebt maar 10% van de rijlesmateriaal.

Normale systemen struikelen dan; ze worden onzeker en maken fouten.
LFG, dankzij zijn training op die miljoenen YouTube-video's, is al zo goed opgeleid dat het zelfs met 10% van de data nog steeds uitstekend rijdt. Het heeft de "muscle memory" al opgebouwd door het kijken naar de wereld.

Samenvatting in één zin

LFG is een slimme AI die door te kijken naar miljoenen gewone rijvideo's op YouTube, heeft geleerd om de 3D-wereld te begrijpen, beweging te voorspellen en veilig te rijden, alles met slechts één camera en zonder dat iemand hem ooit heeft verteld wat hij moest doen.

Het is alsof je een auto een boek geeft vol met verhalen over rijden, in plaats van een handleiding, en hij leert eruit om zelf te rijden. Dat is de kracht van dit "gratis cadeau".

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Autonome rijden vereist modellen die zowel semantische structuren (wat is er op de weg?) als 3D-geometrie (waar bevindt het zich?) en dynamiek (hoe bewegen objecten?) kunnen begrijpen. Huidige benaderingen zijn vaak afhankelijk van zwaar gelabelde data (zoals LiDAR-scans, expert-acties en semantische annotaties), wat schaars en duur is om te produceren.

Aan de andere kant zijn er enorme hoeveelheden "in-the-wild" rijvideo's (bijv. van YouTube) beschikbaar die geen labels of camera-posities (poses) bevatten. Het uitdaging is om representaties te leren die zowel statische geometrie als dynamische beweging van agenten kunnen vastleggen, puur uit deze ongeanoteerde, enkelvoudige video's, zonder de beperkingen van bestaande zelf-supervisie-methoden die vaak alleen op frame-tot-frame consistentie focussen en statische scènes aannemen.

2. Methodologie: LFG (Learning to Free Gift)

De auteurs introduceren LFG, een label-vrij, leraar-gestuurd raamwerk dat een geünificeerde "pseudo-4D" representatie leert (geometrie, semantiek, beweging en korte-termijn toekomst) direct uit ongeposeerde video's.

Architectuur

Het model is opgebouwd rond een feedforward encoder (gebaseerd op $\pi3$ ) en een lichtgewicht autoregressieve transformer:

Encoder: Verwerkt een reeks waargenomen frames ( $N$ ) en genereert latente scene-tokens.
Autoregressieve Module: Een causale transformer voegt tokens toe voor toekomstige frames ( $M$ ). Dit stelt het model in staat om de toekomstige geometrie en beweging te voorspellen op basis van het verleden, zonder toegang te hebben tot de toekomstige frames tijdens de inferentie.
Decoder: Een gedeelde decoder vertaalt de tokens (voor zowel huidige als toekomstige frames) naar meerdere modaliteiten:
- 3D-puntenkaarten (Point Maps).
- Camera-posities (Poses).
- Semantische segmentatie (7 klassen).
- Confidentiekaarten (betrouwbaarheid van de 3D-punten).
- Bewegingsmaskers (Motion Masks) om dynamische objecten van statische omgeving te onderscheiden.

Leringsstrategie (Teacher-Student Distillation)

Omdat er geen ground-truth labels zijn, gebruikt LFG meerdere gespecialiseerde "leraars" (teachers) die zijn getraind op grote datasets om pseudo-supervisie te genereren:

Geometrie & Pose: Een vooraf getraind $\pi3$ -model (leraar) dat toegang heeft tot de volledige sequentie ( $N+M$ frames) levert supervisie voor puntenkaarten, camera-posities en confidentie. De student (LFG) ziet alleen de eerste $N$ frames en moet de toekomst voorspellen.
Semantiek: Een SegFormer-model (getraind op Cityscapes) fungeert als leraar voor semantische segmentatie.
Beweging: Een pipeline gebruikt Grounded SAM2 (voor objectdetectie) en CoTracker3 (voor 2D-tracking) in combinatie met de 3D-puntenkaarten van de leraar om dynamische objecten te identificeren. Objecten met een beweging boven een bepaalde drempel krijgen een "bewegingsmasker" als pseudo-ground-truth.

Verliesfuncties

Het totale verlies is een combinatie van verlies voor huidige en toekomstige frames, waarbij toekomstige frames zwaarder wegen ( $\omega > 1$ ) om extrapolatie te stimuleren:

Segmentatieverlies (gewogen BCE).
Pose-verlies (relatieve rotatie en translatie consistentie).
Puntenkaart-verlies (geschaalde L1-loss).
Bewegingsverlies (BCE tussen voorspelling en pseudo-GT).

3. Belangrijkste Bijdragen

Label-vrij Pretraining: Een nieuw raamwerk dat direct leert van ongeanoteerde, enkelvoudige rijvideo's zonder LiDAR of poses.
Unificatie van Modaliteiten: Een enkele architectuur die geometrie, semantiek, beweging en korte-termijn toekomstvoorspelling (pseudo-4D) simultaan leert.
Efficiëntie en Schaalbaarheid: Het bewijst dat een enkelvoudige monoculaire camera (voorkant) prestaties kan leveren die concurreren met systemen die meerdere camera's en LiDAR gebruiken, dankzij de kracht van large-scale video pretraining.
Nieuwe Paradigma: In plaats van alleen frame-tot-frame consistentie, focust het op het begrijpen van dynamische scènes en het voorspellen van de toekomstige evolutie van de omgeving.

4. Resultaten

Het model werd geëvalueerd op diverse downstream taken, met name op het NAVSIM planning-benchmarks:

Planning (NAVSIM): LFG bereikte state-of-the-art prestaties met slechts één voorkant-camera, terwijl concurrenten (zoals UniAD, Hydra-MDP) afhankelijk zijn van meerdere camera's en LiDAR.
- LFG behaalde een PDMS-score van 85.2 (1Cam), wat beter is dan UniAD (83.4) en TransFuser (84.0) die 3 camera's + LiDAR gebruiken.
- Data-efficiëntie: Met slechts 10% gelabelde data voor fine-tuning behaalde LFG een score van 81.4, wat overeenkomt met de prestaties van DINOv3 met 100% data. Dit onderstreept de waarde van de pretraining.
Semantische Segmentatie: LFG overtrof zelfs de sterke SegFormer-leraar op toekomstige frames, ondanks dat de leraar toegang had tot de RGB-beelden van die toekomstige frames terwijl LFG dit niet had.
Geometrie & Posities: De diepte- en trajectvoorspelling is vergelijkbaar met de leraar ( $\pi3$ ), zelfs voor toekomstige frames die niet als input werden gebruikt.
Beweging: Het model kan dynamische objecten succesvol van de statische omgeving scheiden, wat essentieel is voor veilige planning.

5. Betekenis en Impact

Dit paper markeert een verschuiving in de ontwikkeling van autonome rijmodellen:

Van "Data-Hungry" naar "Data-Efficient": Het toont aan dat grote hoeveelheden ongeanoteerde video's een krachtige bron zijn voor het leren van fundamentele rijvaardigheden, waardoor de afhankelijkheid van dure LiDAR-annotaties wordt verminderd.
Video-Centric Foundation Model: LFG positioneert zich als een fundamenteel model voor autonoom rijden dat gebaseerd is op visuele input, wat de weg vrijmaakt voor systemen die beter kunnen generaliseren naar nieuwe omgevingen zonder extra sensoren.
Toekomstvisie: Hoewel het model momenteel korte-termijn toekomst voorspelt (3-6 frames), biedt de autoregressieve architectuur een pad naar langere termijn redenering en complexere dynamische situaties.

Kortom, "Learning to Drive is a Free Gift" demonstreert dat de overvloed aan internetvideo's een gratis en krachtige bron is om robuuste, geometrisch en dynamisch bewust rijmodellen te trainen, zelfs zonder de traditionele zware sensoren en labels.