K-Gen: A Multimodal Language-Conditioned Approach for Interpretable Keypoint-Guided Trajectory Generation

Each language version is independently generated for its own context, not a direct translation.

🚗 K-Gen: De Slimme Navigatie die Eerst "Denkt" voordat hij "Rijdt"

Stel je voor dat je een zelfrijdende auto wilt trainen. De grootste uitdaging is niet alleen dat de auto de weg moet vinden, maar dat hij realistische en veilige routes moet kunnen bedenken in een chaotische stad, net als een menselijke chauffeur.

Tot nu toe hadden computers het lastig. Ze keken vaak alleen naar een strakke, digitale lijntekening van de weg (vectoren). Dat is als proberen een film te begrijpen door alleen naar de scripttekst te kijken, zonder de beelden te zien. Je mist de sfeer, de kleuren en de subtiele details.

K-Gen is een nieuwe oplossing die dit probleem oplost. Het is als het geven van een slimme, meertalige assistent aan de auto die zowel naar de kaart kijkt als naar de tekstuele beschrijving van de situatie, en die eerst nadenkt voordat hij een route tekent.

Hier is hoe het werkt, stap voor stap:

1. De "Denker" (Het MLLM)

In plaats dat de computer direct een complete route tekent (wat vaak rommelig en onnatuurlijk is), laat K-Gen eerst een Groot Meertalig Taalmodel (MLLM) nadenken.

De Analogie: Stel je voor dat je een tekenaar bent die een route moet maken. K-Gen laat de tekenaar eerst een schets maken van de belangrijkste punten (de "keypoints") en een verhaal schrijven over waarom hij die punten kiest.
Wat doet het? De AI kijkt naar een foto van de weg (van bovenaf gezien) en leest een beschrijving: "Auto 1 rijdt snel naar het zuiden, ego-voertuig moet rechtdoor."
Het Resultaat: De AI zegt niet direct "rij hierheen", maar denkt eerst: "Oké, ik zie een kruising. Auto 1 komt eraan. Ik moet eerst rechtdoor, dan een bocht maken om hem te ontwijken." Het schrijft dit op en plakt een paar belangrijke punten op de kaart (bijvoorbeeld: "hier beginnen", "hier draaien", "hier stoppen").

2. De "Tekenaar" (TrajRefiner)

Nu hebben we een ruwe schets met een paar punten en een verhaal. Maar een auto kan niet springen van punt A naar punt B; hij moet soepel rijden.

De Analogie: De ruwe schets is als een schets van een schilder die alleen de contouren heeft getekend. De TrajRefiner is de meester die de lijnen gladstrijkt, de bochten maakt rond en zorgt dat het eruitziet als een echte, vloeiende beweging.
Wat doet het? Deze module pakt de ruwe punten van de "Denker" en maakt er een perfecte, veilige route van die fysiek mogelijk is (geen scherp 90-graden bochten op de snelweg!).

3. De "Trainer" (T-DAPO)

Hoe leer je zo'n systeem om echt goed te worden? Gewoon oefenen is niet genoeg; je moet ook leren van je fouten.

De Analogie: Stel je voor dat je een student rijles geeft. Als hij een simpele rechte weg rijdt, is dat makkelijk. Maar als hij een moeilijke kruising mist, moet je hem daar extra op prikkelen.
Wat doet het? K-Gen gebruikt een slimme trainingsmethode genaamd T-DAPO. Deze methode kijkt naar de moeilijkste situaties (waar de auto bijna een ongeluk had) en geeft daar extra "punten" als de AI het goed doet. Het straft ook als de AI te veel praat (te lange redeneringen) of als de route niet klopt. Het zorgt ervoor dat de AI leert: "Denk kort en krachtig, en zorg dat de route veilig is."

Waarom is dit zo cool?

Het is begrijpelijk: Omdat de AI eerst een verhaal schrijft (redenering), weten we waarom hij een bepaalde route kiest. Het is geen "zwarte doos" meer. Je kunt lezen: "Ik rijd hier langs omdat die andere auto te snel komt."
Het ziet meer details: In plaats van alleen naar lijnen te kijken, kijkt K-Gen naar de echte foto van de weg. Het ziet de verkeersborden, de kleur van de weg en de positie van de auto's, net zoals een mens.
Het is veiliger: Door eerst de "belangrijke punten" te kiezen en die pas later glad te strijken, maken de auto's minder rare, onnatuurlijke bewegingen.

Samenvattend

K-Gen is als het geven van een slimme navigator aan een zelfrijdende auto. Deze navigator kijkt naar de foto's, leest de situatie, schrijft een kort verhaal over wat er gaat gebeuren, plakt een paar steunpunten op de kaart, en laat een tweede module die punten omzetten in een perfecte, veilige rit.

Het resultaat? Zelfrijdende auto's die niet alleen beter rijden, maar ook beter begrijpen waarom ze zo rijden.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het genereren van realistische en diverse trajecten is een cruciale uitdaging voor de simulatie van autonoom rijden. Bestaande methoden hebben vaak te kampen met de volgende beperkingen:

Afhankelijkheid van gestructureerde data: Veel huidige benaderingen vertrouwen op vectorische kaarten of gestructureerde representaties. Deze methoden verliezen vaak de rijke, ongestructureerde visuele context van een scène (zoals complexe rijbaanmarkeringen en lokale omgeving).
Gebrek aan interpretatie en controle: Hoewel Large Language Models (LLMs) belovend zijn voor interpretatie, leiden directe voorspellingen vaak tot grofkorrelige bewegingscontrole, gebrek aan fysieke consistentie en afhankelijkheid van rigide tussenliggende representaties die generalisatie beperken.
Moeilijkheid in complexe interacties: Het modelleren van complexe interacties tussen agents vereist een dieper semantisch begrip dan wat vectorische encodings vaak kunnen bieden.

Methodologie: K-Gen Framework

De auteurs stellen K-Gen voor, een interpreteerbaar, multimodaal framework dat Multimodal Large Language Models (MLLMs) combineert met een keypoint-gestuurde aanpak. Het proces verloopt in twee hoofdfasen:

1. Multimodale Invoer en Redenering

In plaats van volledige trajecten direct te voorspellen, neemt het MLLM twee soorten invoer:

Rasterized BEV-kaarten: Visuele weergaven van de Bird's Eye View-kaart (in plaats van vectorische data) om ruimtelijke details en context te behouden.
Tekstuele scènebeschrijvingen: Gestructureerde tekstuele informatie over agenten (type, positie, snelheid, relatieve afstand).

Het MLLM genereert op basis hiervan:

Chain-of-Thought (CoT) Redenering: Uitleg over de intenties van agents en de scène (bijv. "Voertuig 1 zal waarschijnlijk rechtdoor gaan...").
Sparse Keypoints: Een reeks sleutelpunten die de kern van de beweging definiëren, in plaats van een volledig gedetailleerd traject.

2. Trajecto-Refinement (TrajRefiner)

De gegenereerde keypoints worden niet direct als eindresultaat gebruikt. Ze worden eerst geïnterpoleerd tot een ruw traject en vervolgens verfijnd door een module genaamd TrajRefiner.

Deze module is gebaseerd op een Transformer-architectuur.
Het gebruikt historische trajecten, agentstaten en de keypoints om een residuele correctie ( $\Delta Y$ ) te voorspellen.
Dit zorgt voor een glad, fysiek haalbaar en nauwkeurig eindtraject.

3. Training: T-DAPO Algorithm

Voor het trainen van het model wordt een nieuwe versterkingsleer-algoritme geïntroduceerd: T-DAPO (Trajectory-aware Decoupled Clip and Dynamic Sampling Policy Optimization).

Dynamic Sampling: Het algoritme focust zich op de moeilijkste 30% van de steekproeven (gebaseerd op hoge fouten in de SFT-fase) om het model te dwingen in complexe scenario's te verbeteren.
Beloningssysteem (Reward): De beloning is een gewogen som van drie componenten:
1. Nauwkeurigheid ( $R_{acc}$ ): Gebaseerd op ADE (Average Displacement Error) en FDE (Final Displacement Error).
2. CoT-lengte ( $R_{cot}$ ): Moet de redenering beknopt maar informatief houden (straf voor te lange teksten).
3. Formaatcorrectheid ( $R_{fmt}$ ): Waarborgt dat de output de juiste structuur en tags heeft.

Belangrijkste Bijdragen

K-Gen Framework: Een nieuw multimodaal systeem dat gerasteriseerde kaarten en tekst combineert voor zowel interpreteerbare intentievoorspelling als nauwkeurige trajectvoorspelling.
Keypoint-Gestuurde Strategie: Een tweestapsbenadering (keypoint-generatie gevolgd door refinement) die de nauwkeurigheid en stabiliteit verbetert ten opzichte van directe MLLM-outputs.
T-DAPO Algorithm: Een speciaal ontworpen versterkingsleer-algoritme dat gebruikmaakt van trajectgerichte beloningssignalen en dynamische steekproefselectie om de kwaliteit van gegenereerde keypoints te maximaliseren.

Resultaten

De methode is getest op twee grote datasets: WOMD (Waymo Open Motion Dataset) en nuPlan.

Kwantitatieve Prestaties: K-Gen presteert beter dan bestaande baselines (zoals LCTGen, InteractTraj en verschillende InternVL/Qwen-modellen) op de belangrijkste metrieken:
- mADE (Mean Average Displacement Error): Laagste foutenwaarden (bijv. 0.915 op WOMD vs. 0.926 voor de beste concurrent).
- mFDE (Mean Final Displacement Error): Verbeterde eindnauwkeurigheid.
- SCR (Scenario Collision Rate): Significant lagere botsingspercentages, wat wijst op betere veiligheid.
Ablatie Studies:
- De combinatie van Supervised Fine-Tuning (SFT), T-DAPO en TrajRefiner levert de grootste winst op.
- De TrajRefiner-module is cruciaal: zelfs als de tekstuele redenering correct is, corrigeert deze module fysiek onhaalbare keypoints, wat resulteert in een bijna nul botsingspercentage.
Kwalitatieve Analyse: Visualisatie van de aandachtswarmtekaarten (attention heatmaps) toont aan dat het model zich richt op veiligheidskritieke gebieden (zoals kruispunten en samenvoegende voertuigen) en niet alleen de scène als geheel bekijkt.

Betekenis en Impact

K-Gen introduceert een nieuw paradigma voor taalgestuurd scenario-genereren in autonoom rijden. Door de scheiding tussen strategische intentie (via MLLM-redenering en keypoints) en bewegingsuitvoering (via TrajRefiner), overkomt het de beperkingen van eerdere methoden die te afhankelijk waren van vectorische data.

De studie toont aan dat het combineren van multimodale redenering met gespecialiseerde refinement-modules leidt tot trajecten die niet alleen nauwkeuriger en veiliger zijn, maar ook interpreteerbaar zijn voor menselijke operators. Dit is essentieel voor het vertrouwen in en de validatie van autonome rijsystemen in complexe, onvoorspelbare verkeerssituaties.