K-Gen: A Multimodal Language-Conditioned Approach for Interpretable Keypoint-Guided Trajectory Generation

Each language version is independently generated for its own context, not a direct translation.

🚗 K-Gen: Der „Koch mit Kochbuch" für autonome Autos

Stell dir vor, ein autonomes Auto muss entscheiden, wohin es in den nächsten 5 Sekunden fahren soll. Bisher waren die Computerprogramme dafür wie starre Roboter, die nur eine Liste von Koordinaten (wie ein Excel-Sheet) lesen konnten. Sie wusnten, wo die Straße ist, aber sie „fühlten" die Situation nicht wirklich. Sie sahen keine Farben, keine Gesten anderer Fahrer und verstanden den Kontext oft nicht.

Die Forscher von der Harbin Institute of Technology und Changan Automobile haben jetzt K-Gen erfunden. Das ist wie ein Super-Koch, der nicht nur Rezepte abliest, sondern auch die Zutaten anschaut und versteht, was im Ofen passiert.

Hier ist, wie K-Gen funktioniert, in drei einfachen Schritten:

1. Der Blick durch die Kamera (Multimodale Eingabe)

Früher haben Autos die Karte nur als abstrakte Linien gesehen (Vektor-Karten). Das ist wie wenn man ein Bild nur als Strichzeichnung betrachtet.
K-Gen hingegen schaut sich die echte Karte als Foto an (rasterisierte BEV-Karte) und liest gleichzeitig einen Textbericht über die Szene.

Die Analogie: Stell dir vor, du fährst durch eine Kreuzung. Ein alter Roboter sieht nur: „Linie A trifft Linie B". K-Gen sieht: „Da ist ein rotes Auto, das zögert, und ein Fußgänger, der auf die Ampel zeigt." Es kombiniert das Bild mit dem Verständnis.

2. Der „Gedankenstrich" (Interpretierbare Schlüsselpunkte)

Statt sofort das ganze Fahrtrouten-Video zu zeichnen (was oft zu Fehlern führt), macht K-Gen etwas Cleveres:
Es denkt erst nach und setzt nur ein paar wichtige Markierungen (Keypoints) auf die Straße.

Die Analogie: Wenn du jemandem sagst: „Fahre zur Bank", zeichnest du nicht sofort jede Kurve. Du sagst: „Geh geradeaus, dann links an der Ampel, dann rechts zur Bank."
K-Gen macht genau das. Es generiert erst ein paar Schlüsselpunkte (z. B. „Hier biegen wir ab", „Hier bremsen wir") und schreibt dazu einen Gedankenstrich (Chain-of-Thought): „Ich blicke links, weil das andere Auto langsam wird, also werde ich hier leicht abbremsen."
Das ist genial, weil wir Menschen genau so denken: Erst die Absicht, dann die Details.

3. Der Feinschliff (TrajRefiner)

Die ersten Markierungen sind wie eine grobe Skizze. Sie sind vielleicht nicht perfekt glatt. Deshalb gibt es einen zweiten Schritt, den TrajRefiner.

Die Analogie: Stell dir vor, du hast eine Skizze für ein Haus gezeichnet. Der Architekt (K-Gen) sagt: „Hier ist das Dach, hier die Tür." Der Baumeister (TrajRefiner) kommt dann und sorgt dafür, dass die Wände gerade sind, die Tür passt und das Dach nicht in die Luft fliegt. Er nimmt die groben Punkte und macht daraus eine perfekte, physikalisch mögliche Fahrspur.

🏆 Warum ist das besser als alles andere?

Die Forscher haben K-Gen mit anderen Methoden verglichen (wie LCTGen oder InteractTraj). Das Ergebnis? K-Gen gewinnt.

Sicherer: Es macht weniger Unfälle in der Simulation (niedrigere Kollisionsrate).
Genauer: Es landet näher am Zielort.
Verständlicher: Weil K-Gen erst „denkt" und schreibt, warum es tut, was es tut, können Ingenieure nachvollziehen, warum das Auto eine Entscheidung getroffen hat. Das ist wie ein Koch, der sagt: „Ich habe weniger Salz genommen, weil der Kunde salzempfindlich ist."

🚀 Das Geheimnis: Der „Trainings-Trainer" (T-DAPO)

Damit K-Gen so gut wird, haben die Forscher eine spezielle Trainingsmethode namens T-DAPO benutzt.

Die Analogie: Stell dir vor, du lernst für eine Prüfung. Die meisten Lehrer geben dir nur die richtigen Antworten. T-DAPO ist wie ein strenger, aber fairer Trainer, der dir sagt: „Hey, bei diesen schwierigen Fragen hast du noch Fehler gemacht. Lass uns diese speziellen Szenarien (die schwierigsten 30 %) extra üben."
Er belohnt das Auto nicht nur für das richtige Endergebnis, sondern auch dafür, dass es kurz und präzise denkt (nicht zu viel Geschwafel) und die Formate einhält.

Fazit

K-Gen ist ein Durchbruch, weil es autonome Fahrzeuge nicht mehr wie blinde Rechenmaschinen behandelt, sondern wie intelligente Beobachter, die Bilder sehen, Texte verstehen, erst nachdenken („Warum bremse ich?") und dann erst handeln. Es ist der Schritt von „Ich weiß, wo die Straße ist" zu „Ich verstehe, was auf der Straße passiert".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Generierung realistischer und vielfältiger Trajektorien ist eine zentrale Herausforderung für die Simulation im Bereich des autonomen Fahrens. Bestehende Methoden leiden unter folgenden Einschränkungen:

Mangelnde Interpretierbarkeit: Viele datengetriebene Modelle sind „Blackboxen" und liefern keine nachvollziehbaren Begründungen für das Fahrverhalten.
Eingeschränkte Multimodalität: Viele Ansätze verlassen sich auf vektorisierte Karten oder strukturierte Daten, die den reichen, unstrukturierten visuellen Kontext (z. B. komplexe Spurmarkierungen, lokale Umgebungsdetails) nicht vollständig erfassen.
Kontrollierbarkeit und physikalische Konsistenz: Sprachgesteuerte Ansätze bieten zwar Interpretierbarkeit, leiden aber oft unter grober Bewegungssteuerung und mangelnder physikalischer Konsistenz.

2. Methodik (K-Gen Framework)

Das vorgestellte Framework K-Gen nutzt Multimodal Large Language Models (MLLMs), um Rasterkarten (Bird's-Eye-View-Bilder) mit textuellen Szenenbeschreibungen zu vereinen. Der Ansatz folgt einem zweistufigen Prozess:

A. Schlüsselkonzept: Keypoint-geführte Generierung

Anstatt direkt eine vollständige Trajektorie vorherzusagen, generiert das MLLM zunächst sparse Keypoints (wichtige Stützpunkte) basierend auf einer „Chain-of-Thought" (CoT) Argumentation.

Input: Rasterisierte BEV-Kartenbilder, textuelle Szenenbeschreibungen (Agententyp, Position, Geschwindigkeit) und historische Trajektorien.
Output des MLLM:
1. Reasoning: Natürlichsprachliche Erklärung der Absichten und Risiken (z. B. „Fahrzeug 1 wird wahrscheinlich die Kreuzung überqueren").
2. Keypoints: Eine Folge von Koordinatenpunkten, die die grobe Bahn definieren.
Vorteil: Dies entkoppelt die semantische Planung (Absicht) von der präzisen Bewegungsausführung.

B. TrajRefiner Modul

Die vom MLLM generierten Keypoints werden durch lineare Interpolation zu einer groben Trajektorie gefüllt. Ein separates TrajRefiner-Modul (basierend auf Transformer-Architektur) korrigiert diese dann:

Es berechnet Residual-Korrekturen ( $\Delta Y$ ), um die Trajektorie zu glätten und physikalische Konsistenz (Kinematik) sicherzustellen.
Es nutzt historische Daten und Agentenzustände, um die Endpunkte und die Geschwindigkeit zu verfeinern.

C. Trainingspipeline

Supervised Fine-Tuning (SFT): Das MLLM wird zunächst mit Daten trainiert, die sowohl CoT-Texte als auch Keypoints enthalten.
Reinforcement Fine-Tuning (RFT) mit T-DAPO: Um die Leistung über SFT hinaus zu steigern, wird ein neuer Algorithmus namens T-DAPO (Trajectory-aware Decoupled Clip and Dynamic Sampling Policy Optimization) eingeführt.
- Fokus auf schwierige Fälle: T-DAPO selektiert dynamisch die schwierigsten 30% der Trainingsdaten (basierend auf hohem Fehler in der Vorhersage), um das Modell in kritischen Szenarien zu verbessern.
- Reward-Funktion: Die Belohnung setzt sich aus drei Komponenten zusammen:
  - Accuracy Reward: Basierend auf ADE/FDE (Positionierungsfehler).
  - CoT Length Reward: Bestraft zu lange, unnötige Erklärungen.
  - Format Correctness Reward: Sicherstellt, dass die Ausgabe korrekt strukturiert ist.

3. Hauptbeiträge

K-Gen Framework: Ein multimodales System, das rasterisierte Karten und Text integriert, um sowohl interpretierbare Absichtsvorhersagen als auch präzise Trajektorien zu liefern.
Keypoint-Strategie: Eine Zerlegung der Aufgabe in zwei Schritte (Keypoint-Generierung + Trajektorien-Verfeinerung), die die Genauigkeit und Stabilität im Vergleich zu direkten MLLM-Ausgaben signifikant erhöht.
T-DAPO Algorithmus: Ein neuartiger Reinforcement-Learning-Ansatz, der trajektorienzentrierte Belohnungssignale und dynamisches Sampling nutzt, um die Generierung von Keypoints zu optimieren und physikalisch korrekte Bewegungen zu gewährleisten.

4. Ergebnisse

Die Methode wurde auf den Datensätzen WOMD (Waymo Open Motion Dataset) und nuPlan evaluiert und mit State-of-the-Art-Methoden (wie LCTGen, InteractTraj und verschiedenen InternVL/Qwen-Modellen) verglichen.

Quantitative Ergebnisse: K-Gen übertrifft alle Baselines in den Metriken mADE (mittlerer durchschnittlicher Versatzfehler) und SCR (Szenario-Kollisionsrate).
- Auf WOMD erreichte K-Gen (8B Modell) einen mADE von 0.915 und eine SCR von 0.006.
- Auf nuPlan erreichte es einen mADE von 0.591 und eine SCR von 0.027.
Qualitative Analyse: Visualisierungen der Aufmerksamkeitskarten (Attention Heatmaps) zeigen, dass das Modell sich korrekt auf sicherheitskritische Bereiche (z. B. Kreuzungen, Einfädelungspunkte) konzentriert.
Ablationsstudie: Die Studie bestätigt, dass jede Komponente (SFT, TrajRefiner, T-DAPO) essenziell ist. Insbesondere der TrajRefiner korrigiert physikalisch nicht machbare Keypoints, was zu einer fast null Kollisionsrate führt.

5. Bedeutung und Fazit

K-Gen stellt einen Paradigmenwechsel dar, indem es die Stärken von Multimodal Large Language Models (Interpretierbarkeit, semantisches Verständnis) mit der Präzision spezialisierter Trajektorien-Verfeinerungsmodelle kombiniert.

Interpretierbarkeit: Durch die CoT-Ausgaben können Entwickler und Sicherheitsanalysten nachvollziehen, warum das System eine bestimmte Bahn gewählt hat.
Robustheit: Die Kombination aus visuellen Karten und Text ermöglicht eine bessere Generalisierung in komplexen städtischen Szenarien als rein vektorbasierte Ansätze.
Praxisrelevanz: Die Methode ist effizient genug für den Einsatz (ca. 1,63 Sekunden pro Szene auf einer A100 GPU) und bietet einen neuen Standard für die Erzeugung von Trainingsdaten und Simulationsszenarien im autonomen Fahren.

Zusammenfassend demonstriert K-Gen, dass die Integration von multimodalem Reasoning mit einer getrennten Strategie- und Ausführungsplanung zu sichereren, genaueren und erklärbareren Trajektorien führt.