Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

Dit paper introduceert LFG, een labelvrij, leraar-gestuurd kader dat autonome rijrepresentaties leert uit ongeposeerde online video's door een voorspellende architectuur te gebruiken die 3D-geometrie, semantiek en beweging combineert, wat resulteert in superieure prestaties bij rijplanning en motion prediction zonder LiDAR of annotaties.

Matthew Strong, Wei-Jer Chang, Quentin Herau, Jiezhi Yang, Yihan Hu, Chensheng Peng, Wei Zhan

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een jonge, ambitieuze bestuurder wilt leren rijden. Normaal gesproken geef je die leerling een dure rijles met een instructeur die constant zegt: "Draai links," "Rem nu," en "Kijk naar dat bordje." In de wereld van zelfrijdende auto's zijn die instructies de labels (annotaties) en de instructeur de menselijke expert. Het probleem is: dit kost ontzettend veel tijd en geld. Er zijn maar weinig auto's die perfect gelabelde rijdata hebben.

Maar wat als je die leerling in plaats daarvan miljoenen gewone YouTube-video's van andere mensen zou laten kijken? Video's zonder instructeur, zonder rijles, gewoon mensen die door de stad rijden. Dat is precies wat dit nieuwe onderzoek, LFG (Learning to drive is a Free Gift), doet.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Gratis Cadeautje" Filosofie

De titel zegt het al: "Rijden leren is een gratis cadeau."
De onderzoekers zeggen: "Waarom zouden we dure labels nodig hebben als we de hele wereld vol met gratis video's hebben?" Ze nemen ongelabelde video's van YouTube (waar mensen gewoon rondrijden) en laten een computermodel hieruit leren. Het is alsof je een kind laat kijken naar duizenden uur aan verkeersbeelden en het laat raden hoe de wereld eruitziet, zonder dat iemand het hoeft uit te leggen.

2. De Leermeester en de Leerling (Teacher-Student)

Omdat de video's geen antwoorden hebben (we weten niet precies hoe ver de auto van een boom af staat), gebruiken ze slimme "leermeesters".

  • De Leerling (LFG): Dit is het model dat we trainen. Het kijkt alleen naar de eerste paar seconden van een video en moet de rest voorspellen.
  • De Leermeesters: Dit zijn andere, zeer sterke AI-modellen die al veel weten.
    • Eén leermeester is een architect (voor de 3D-ruimte): Hij zegt: "Kijk, dat is een muur, dat is een weg."
    • Een ander is een dynamisch danser (voor beweging): Hij zegt: "Die auto beweegt, die boom staat stil."
    • Een derde is een schilder (voor semantiek): Hij zegt: "Dat is een weg, dat is een voetganger."

De leerling (LFG) probeert te doen wat deze leermeesters zeggen, maar dan alleen op basis van de beelden die hij ziet. Hij leert zo een "gevoel" voor de wereld te krijgen zonder dat iemand hem de antwoorden heeft gegeven.

3. Het "Crystal Ball" Effect (Toekomstvoorspelling)

Dit is het meest coole deel. De meeste auto's kijken alleen naar wat er nu gebeurt. LFG is echter een kristallen bol.
Stel je voor dat je door een drukke straat rijdt. Je kijkt niet alleen naar de auto voor je, maar je voorspelt ook: "Als ik zo doorrijdt, komt die auto links over 2 seconden in mijn pad."
LFG doet dit door een autoregressief proces. Het kijkt naar de eerste beelden en zegt: "Oké, op basis van hoe de wereld er nu uitziet, hoe ziet de wereld eruit over 1 seconde? En over 2 seconden?"
Het leert niet alleen wat er is, maar ook hoe het zich gaat bewegen. Het voorspelt de toekomst van de weg, de auto's en de voetgangers.

4. Waarom is dit zo belangrijk? (De "Eén Camera" Superkracht)

De meeste geavanceerde zelfrijdende auto's (zoals die van Tesla of Waymo) hebben een zware uitrusting nodig: meerdere camera's, LiDAR (laser-scanners), en radars. Het is alsof je een auto rijdt met een pak vol dure apparatuur.

LFG bewijst dat je met één enkele camera (zoals een dashcam) net zo goed kunt presteren als die zware systemen.

  • Het resultaat: Op de NAVSIM-test (een soort examen voor zelfrijdende auto's) deed LFG het beter dan systemen met meerdere camera's en LiDAR, terwijl het alleen maar naar één camera keek.
  • De reden: Omdat het model de wereld zo goed begrijpt (diep, breed en dynamisch), hoeft het geen extra sensoren te gebruiken. Het "ziet" de diepte en beweging gewoon in het beeld.

5. De "Lekke Band" Test (Data-efficiëntie)

Stel je voor dat je een auto wilt leren rijden, maar je hebt maar 10% van de rijlesmateriaal.

  • Normale systemen struikelen dan; ze worden onzeker en maken fouten.
  • LFG, dankzij zijn training op die miljoenen YouTube-video's, is al zo goed opgeleid dat het zelfs met 10% van de data nog steeds uitstekend rijdt. Het heeft de "muscle memory" al opgebouwd door het kijken naar de wereld.

Samenvatting in één zin

LFG is een slimme AI die door te kijken naar miljoenen gewone rijvideo's op YouTube, heeft geleerd om de 3D-wereld te begrijpen, beweging te voorspellen en veilig te rijden, alles met slechts één camera en zonder dat iemand hem ooit heeft verteld wat hij moest doen.

Het is alsof je een auto een boek geeft vol met verhalen over rijden, in plaats van een handleiding, en hij leert eruit om zelf te rijden. Dat is de kracht van dit "gratis cadeau".