Open-World Motion Forecasting

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zelfrijdende auto bent. Je moet niet alleen kijken waar je nu bent, maar ook voorspellen wat er gaat gebeuren. Zie je die fietser die net een bocht maakt? Die auto die plotseling remt? Die hond die over de weg rent?

Tot nu toe waren de "hersenen" van deze auto's (de software) een beetje stijf. Ze leerden alleen over dingen waar ze al van wisten: auto's, fietsers, voetgangers. Als er een nieuw ding op de weg verscheen, zoals een elektrisch stepje of een rolstoel, wisten ze niet wat ze ermee moesten doen. Ze moesten dan volledig opnieuw leren, wat veel tijd kost en vaak betekende dat ze de oude kennis (over auto's en fietsers) weer vergeten. Dit noemen experts "catastrophic forgetting" – een soort hersenverlies bij het leren van iets nieuws.

Deze paper introduceert een nieuwe manier van denken, genaamd OMEN. Het is als een slimme, onuitputtelijke leerling die in een open wereld kan leren.

Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. Het Probleem: De Stijve Leerling

Stel je voor dat je een chef-kok bent die alleen Italiaanse gerechten kan koken. Als er plotseling iemand een sushi-restaurant opent, moet je de hele keuken slopen en opnieuw beginnen. En als je dat doet, vergeet je misschien hoe je een perfecte pizza maakt.
Vroeger moesten zelfrijdende auto's precies zo doen: als er een nieuwe voertuigsoort bij kwam, moesten ze alles opnieuw leren en hun oude kennis verliezen.

2. De Oplossing: OMEN (De Slimme Leerling)

OMEN is een systeem dat stap voor stap leert, zonder zijn oude kennis te verliezen. Het kan nieuwe dingen leren terwijl het de oude dingen nog steeds perfect beheerst.

Het doet dit met twee magische trucs:

Truc A: De "Toekomst-Kijker" met een "Taal-Check" (Pseudo-labeling & VLM)

Wanneer de auto een nieuwe soort voertuig ziet (bijvoorbeeld een stepje), heeft hij nog geen perfecte instructies over hoe die stepjes zich gedragen.

De Toekomst-Kijker: De auto kijkt naar de beelden van later in de tijd. Hij zegt: "Oh, die stepje was hier, en nu is hij daar." Hij maakt zelf een schatting (een 'pseudo-label') van waar die stepjes naartoe gaan.
De Taal-Check (VLM): Soms maakt de auto fouten. Hij denkt misschien dat een schaduw een auto is. Om dit te voorkomen, gebruikt OMEN een AI die zowel kan zien als lezen (een Vision-Language Model). Deze AI kijkt naar de foto en zegt: "Wacht even, dit is een stepje, geen auto." Hij filtert de fouten eruit.
Het resultaat: De auto leert over het nieuwe stepje zonder dat mensen duizenden nieuwe foto's hoeven te labelen. Hij gebruikt zijn eigen "gokjes" en laat een slimme AI die controleren.

Truc B: De "Slimme Herinneringsbox" (Experience Replay)

Wanneer je iets nieuws leert, neigt je hersen om oude herinneringen te laten vervagen. OMEN heeft een speciale "herinneringsbox".

Niet zomaar herinneringen: Veel systemen slaan willekeurige oude beelden op. OMEN is slimmer. Het kijkt naar de beweging.
De Variatie-Check: Het systeem vraagt zich af: "Welke oude beelden waren het meest interessant?" Heeft die oude auto een rare bocht gemaakt? Bewoog die voetganger onvoorspelbaar?
De Selectie: Het kiest alleen die specifieke, interessante oude momenten uit de box om te herhalen. Het is alsof je niet elke dag hetzelfde oude verhaal hoort, maar juist de spannende momenten uit je verleden herhaalt om te zorgen dat je niet vergeet hoe je die moet reageren.

3. Waarom is dit belangrijk?

Wereldwijd toepasbaar: In Nederland hebben we veel fietsers, in de VS veel pick-ups, en in Azië misschien veel elektrische scooters. Een auto die met OMEN is gebouwd, kan in elk land rijden en nieuwe voertuigsoorten leren zolang ze maar op de weg verschijnen.
Geen dure updates: De auto hoeft niet elke maand naar de garage om zijn software volledig te laten herschrijven. Hij leert gewoon door te rijden.
Veiligheid: Omdat hij niet vergeet hoe hij op een voetganger moet reageren terwijl hij leert over een stepje, blijft hij veilig.

Samenvatting in één zin

OMEN is als een zelfrijdende auto die een onuitputtelijk geheugen heeft: hij kan nieuwe dingen leren (zoals elektrische steps) door slim te gokken en te controleren, en hij houdt zijn oude kennis (zoals auto's en fietsers) scherp door alleen de meest interessante oude momenten te herhalen.

Dit maakt zelfrijdende auto's veel flexibeler, veiliger en klaar voor een wereld die voortdurend verandert.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Open-World Motion Forecasting" in het Nederlands.

Titel: Open-World Motion Forecasting (OMEN)

Auteurs: Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada (Universiteit van Freiburg, Qualcomm, QT Technologies).

1. Het Probleem

Bestaande methoden voor bewegingsvoorspelling (motion forecasting) in autonoom rijden opereren onder een gesloten-wereld-aanname (closed-world regime). Dit betekent dat:

De set van objectklassen (bijv. auto's, voetgangers) vooraf vaststaat en onveranderlijk is.
Volledige en perfecte annotaties voor alle klassen beschikbaar zijn.
Het systeem uitgaat van perfecte waarneming (perception).

In de realiteit zijn deze aannames vaak onjuist:

Perceptie is imperfect: Detecties en tracking kunnen fouten bevatten die doorwerken in de voorspelling.
Dynamische taxonomie: Nieuwe objectklassen (bijv. e-scooters, elektrische fietsen) kunnen op elk moment in het verkeer verschijnen.
Catastrofaal vergeten (Catastrophic Forgetting): Het toevoegen van een nieuwe klasse vereist normaal gesproken het opnieuw labelen van historische data en het volledig hertrainen van het model. Dit is economisch en operationeel onhaalbaar. Naar gewone fine-tuning leidt vaak tot het vergeten van eerder geleerde klassen.
Beperkte opslag: Edge-apparaten in voertuigen kunnen niet de volledige dataset opslaan voor retraining.

Het paper introduceert daarom het concept Open-World Motion Forecasting: een setting waarbij een model continu nieuwe objectklassen moet leren op basis van beperkt gelabelde data, terwijl het de prestaties op eerder geleerde klassen behoudt, zonder toegang tot de originele trainingsdata.

2. Methodologie: OMEN

De auteurs stellen OMEN (Open-World Motion PrEdictioN) voor, het eerste end-to-end framework voor class-incremental motion forecasting dat direct werkt op ruwe camera-beelden. Het framework bestaat uit twee kernmechanismen om catastrofaal vergeten te voorkomen en nieuwe klassen te integreren:

A. VLM-geleide Pseudo-label Generatie

Wanneer een nieuwe klasse $c$ wordt geïntroduceerd, moet het model ook de bewegingen van de oude klassen ($1 $tot$ c-1$) blijven voorspellen, maar er zijn geen ground-truth labels meer voor deze oude klassen in de nieuwe dataset.

Pseudo-labels genereren: Het model van de vorige stap ( $\Phi_{i-1}$ ) wordt gebruikt om 3D-bounding boxes en bewegingsvoorspellingen te genereren voor de oude klassen in de nieuwe data.
Toekomstige detecties: In plaats van alleen op de huidige frame te vertrouwen, worden 3D-posities geschat voor toekomstige frames (tot $T$ seconden) via query-propagatie. Dit levert nauwkeurigere trajecten op voor niet-lineaire bewegingen.
VLM-filtering (Vision-Language Model): Omdat het model over tijd steeds zelfverzekerd kan worden (wat leidt tot valse positieven), wordt een Vision-Language Model (Grounded SAM 2) ingezet.
- Het VLM genereert 2D-instantiemaskers voor de klassen.
- De 3D-detecties worden geprojecteerd op de camera-beelden.
- Als de projectie van een 3D-object niet overeenkomt met een visueel masker van hetzelfde type in het VLM, wordt het pseudo-label als vals positief verworpen.
- Dit zorgt voor kalibratie en reduceert fouten in de trainingsdata.

B. Sequentie-gebaseerde Experience Replay

Om vergeten te voorkomen, wordt een replay-buffer gebruikt, maar in plaats van willekeurige samples, worden sequenties geselecteerd op basis van hun informatieve waarde.

Variance-based Selectie: Het framework analyseert de latent space van de "motion queries" (de interne representaties van objectbewegingen).
Voor elke klasse wordt de gemiddelde query berekend.
Sequenties worden gescoord op basis van de som van de kwadratische afwijkingen van deze gemiddelde query (variatie).
Sequenties met een hoge variatie (d.w.z. complexe, niet-lineaire bewegingen of veel dynamiek) worden geselecteerd voor de replay-buffer. Dit zorgt ervoor dat het model de meest uitdagende en informatieve patronen uit het verleden behoudt, in plaats van statische of simpele scènes.

C. Uitbreiding naar Planning

Het framework kan natuurlijk worden uitgebreid naar class-incremental end-to-end planning. Door een query voor het eigen voertuig (ego-vehicle) toe te voegen aan de set van objectqueries, kan het systeem niet alleen de beweging van anderen voorspellen, maar ook zijn eigen baan plannen, rekening houdend met de nieuw geleerde objectklassen.

3. Belangrijkste Bijdragen

Formalisatie: Definitie van de nieuwe taak "Open-World Motion Forecasting".
OMEN Framework: Het eerste end-to-end systeem dat nieuwe klassen leert zonder vergeten van oude klassen, direct vanuit camera-beelden.
VLM-geleide Pseudo-labeling: Een innovatieve strategie om valse positieven te filteren en kwalitatief hoogwaardige trainingsdata te genereren voor oude klassen in nieuwe contexten.
Variance-based Replay: Een nieuwe selectiemethode voor replay-data die focust op de variatie in bewegingspatronen in de latent space, wat effectiever is dan puur beeld-gebaseerde selectie.
Zero-shot Transfer: Demonstratie dat het model direct inzetbaar is in de echte wereld zonder extra training op die specifieke data.
Open Source: Beschikbaarstelling van de code.

4. Resultaten

Het model is geëvalueerd op de nuScenes en Argoverse 2 datasets in verschillende incrementele settings (per klasse en per groep).

Prestaties: OMEN behaalt de beste resultaten in vergelijking met baselines zoals CL-DETR (aangepast voor 2D detectie) en methoden zonder replay.
- Het behoudt hoge nauwkeurigheid op eerder geleerde klassen (lage "forgetting").
- Het past zich snel aan nieuwe klassen aan.
- Het presteert dicht bij een "Joint Training" (upper bound) waarbij alle data en klassen tegelijkertijd beschikbaar zijn.
Metingen: Op de nuScenes validatieset behaalde OMEN een mAPf (mean Average Precision for forecasting) van 15.60% in de per-klasse setting, wat significant beter is dan baselines en dicht bij de upper bound (19.87%) ligt.
Kwalitatieve resultaten: Visualisaties tonen aan dat OMEN complexe, niet-lineaire bewegingen (bijv. draaiende vrachtwagens) beter voorspelt dan concurrenten, die vaak onrealistische trajecten (zoals het inrijden van tegenliggend verkeer) genereren.
Real-world Validatie: Het model toonde zero-shot capaciteiten op data van een eigen zelfrijdend voertuig, ondanks een grote domein-kloof (verschil in land, camera's, montage).
Planning: Het systeem slaagt erin om de L2-fout en het aantal botsingen te verminderen bij end-to-end planning na het leren van nieuwe klassen.

5. Betekenis en Conclusie

Dit werk is een doorbraak in de richting van echt adaptieve autonome systemen.

Praktische Toepasbaarheid: Het lost het probleem op dat autonome voertuigen in de toekomst nieuwe objecttypen moeten herkennen zonder dat de fabrikant enorme datasets opnieuw moet labelen en modellen volledig moet hertrainen.
Efficiëntie: Door slimme pseudo-labeling en selectieve replay, wordt de opslag- en rekenefficiëntie voor continu leren aanzienlijk verbeterd.
Veiligheid: Het verminderen van catastrofaal vergeten is cruciaal voor de veiligheid; een auto mag niet vergeten hoe voetgangers zich gedragen terwijl het leert hoe e-scooters zich gedragen.

De auteurs concluderen dat OMEN een schaalbare oplossing biedt voor open-world scenario's en de basis legt voor toekomstige systemen die volledig adaptief kunnen opereren in een dynamische, onvoorspelbare wereld.