SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen Film über den Verkehr in Los Angeles drehen. Bisher haben die Entwickler von selbstfahrenden Autos nur alte Aufnahmen (Logbücher) abgespielt. Das Problem dabei? Die anderen Autos auf dem Film reagieren nicht auf das eigene Auto. Wenn dein Auto plötzlich bremst, fahren die anderen im Film einfach weiter und fahren dich an. Das ist wie ein Theaterstück, in dem die Schauspieler ihre Texte auswendig gelernt haben und nicht auf die anderen reagieren können.

Die Forscher der UCLA haben nun SceneStreamer entwickelt. Das ist wie ein geniales, improvisierendes Regieteam, das den Verkehr in Echtzeit erfindet und dabei auf alles reagiert.

Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

1. Der Verkehr als ein riesiges Buch (Token-Sequenz)

Stell dir den gesamten Verkehrsszenario nicht als komplexes 3D-Modell vor, sondern als eine lange Kette von Wörtern in einem Buch.

Die Wörter (Tokens): Jedes Wort steht für etwas Kleines: "Grüne Ampel", "Auto", "Fußgänger", "Bremse", "Beschleunigung".
Die Geschichte: SceneStreamer schreibt diese Geschichte Wort für Wort. Es schaut sich an, was bisher passiert ist (die Ampel war grün, das Auto war da), und schreibt dann das nächste Wort: "Jetzt wird die Ampel rot" oder "Ein neuer Fußgänger betritt die Straße".

2. Das "Addieren" und "Löschen" von Schauspielern

In alten Simulationen war die Anzahl der Schauspieler (Autos, Fußgänger) am Anfang festgelegt. Wenn einer aus dem Bild fuhr, war er weg, und es kam niemand Neues dazu.
SceneStreamer ist wie ein Theaterstück, das nie endet:

Neue Schauspieler: Wenn eine neue Straße im Bild auftaucht, kann SceneStreamer einfach ein neues Wort "Neues Auto" in die Kette einfügen. Das Auto taucht magisch auf der Straße auf und beginnt zu fahren.
Weggehende Schauspieler: Wenn ein Auto abbiegt, schreibt SceneStreamer einfach auf, dass es die Szene verlässt.
Das Ergebnis: Der Verkehr fühlt sich lebendig an, genau wie in der echten Welt, wo Autos ständig kommen und gehen.

3. Die "Landkarte als Anker"

Wie weiß das System, wo ein neues Auto hinkommt? Es nutzt die Straßen als Anker.
Stell dir vor, das System sagt nicht: "Das Auto ist bei Koordinaten X und Y". Es sagt stattdessen: "Das Auto steht auf Spur 546 der Hauptstraße".

Es wählt zuerst eine Spur aus (wie einen Platz im Kino).
Dann beschreibt es das Auto relativ zu dieser Spur: "Es ist 2 Meter vom Rand entfernt, fährt mit 50 km/h und ist ein rotes Auto."
Das macht es sehr flexibel. Egal wie groß die Stadt ist, das System kann immer neue Autos auf die passenden Spuren setzen, ohne den ganzen Plan neu zu berechnen.

4. Warum ist das so wichtig für selbstfahrende Autos?

Bisher haben selbstfahrende Autos nur in "statischen" Umgebungen trainiert, wo die anderen Autos wie Zombies ihren Weg gehen.
Mit SceneStreamer trainieren die Autos in einer lebendigen Welt:

Wenn das selbstfahrende Auto plötzlich die Spur wechselt, reagieren die anderen Autos (die vom System erzeugt werden) darauf. Sie bremsen oder weichen aus.
Das ist wie ein Sparringspartner im Boxen. Wenn du nur gegen einen Sandsack schlägst, lernst du nicht viel. Wenn du gegen einen echten Gegner trainierst, der auf deine Bewegungen reagiert, wirst du viel besser.
Die Ergebnisse zeigen: Autos, die mit SceneStreamer trainiert wurden, sind sicherer, machen weniger Fehler und kommen auch in neuen, unbekannten Situationen besser zurecht.

Zusammenfassung in einem Satz

SceneStreamer ist wie ein unendlicher, intelligenter Verkehrssimulator, der nicht nur alte Aufnahmen abspielt, sondern eine lebendige, reagierende Welt erschafft, in der ständig neue Autos und Fußgänger auftauchen und auf das eigene Auto reagieren – perfekt, um selbstfahrende Autos sicher zu trainieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Entwicklung und Evaluierung autonomer Fahrsysteme erfordert realistische und interaktive Verkehrssimulationen. Bestehende datengetriebene Simulationsmethoden leiden jedoch unter erheblichen Einschränkungen:

Statische Initialisierung oder Replay: Viele Ansätze basieren auf dem Wiedergeben aufgezeichneter Trajektorien (Log-Replay). Diese sind nicht interaktiv, da Hintergrundakteure nicht auf das eigene Fahrzeug (Ego-Vehicle) reagieren.
Fehlende Langzeitdynamik: Herkömmliche Vorhersagemodelle (Motion Prediction) behandeln Szenarien oft als „One-Shot"-Probleme. Sie sagen die Zukunft basierend auf einem festen Startzustand voraus, modellieren aber keine Interaktionen über lange Horizonte hinweg. Kleine Fehler summieren sich auf (Covariate Shift), was zu unrealistischen Zuständen führt.
Starre Agentenmenge: Die meisten Modelle gehen von einer festen Anzahl von Verkehrsteilnehmern aus. In der Realität ist der Verkehr jedoch ein offenes System, in dem ständig neue Teilnehmer (z. B. abbiegende Autos, Fußgänger) hinzukommen und andere verschwinden.
Trennung von Initialisierung und Bewegung: Bisherige Zwei-Phasen-Ansätze (zuerst Szenario initialisieren, dann Bewegung vorhersagen) verhindern den Kontextaustausch zwischen diesen Phasen und sind unflexibel.

2. Methodik: SceneStreamer

SceneStreamer ist ein einheitliches, autoregressives Framework, das die gesamte Verkehrsszene als eine Sequenz diskreter Token modelliert und schrittweise generiert.

A. Tokenisierung der Szene
Die Dynamik einer Fahrszene wird in eine einzige autoregressive Token-Sequenz umgewandelt, die auf statischen Karten-Token () aufbaut. Jeder Zeitschritt $t$ besteht aus einer Gruppe von Token:

Verkehrslicht-Token (): Kodieren den Zustand (Grün, Gelb, Rot, Unbekannt), die ID und die Position am Kartensegment.
Agenten-Zustands-Token (): Für jeden aktiven Agenten (Fahrzeug, Fußgänger, Radfahrer) werden vier Token verwendet:
- <SOA>: Start-of-Agent-Flag.
- <TYPE>: Kategorie des Agenten.
- <MS>: ID des Kartensegments, auf dem sich der Agent befindet.
- <RS>: Relativer Zustand (Position, Heading, Geschwindigkeit, Abmessungen) relativ zum gewählten Kartensegment.
- Innovation: Durch die relative Kodierung gegenüber lokalen Kartensegmenten wird eine kompakte, einheitliche Vokabulargröße erreicht, ohne die gesamte Karte global diskretisieren zu müssen.
Agenten-Bewegungs-Token (): Kodieren die Steuerungseingabe als Paar aus Beschleunigung und Giergeschwindigkeit ( $a, \omega$ ), diskretisiert in ein 2D-Raster.

B. Modellarchitektur

Encoder-Decoder-Struktur: Ein Encoder verarbeitet die statische HD-Karte und erzeugt feste Karten-Token, die als Cross-Attention-Keys/Values für den Decoder dienen.
Autoregressive Generierung: Der Decoder generiert Token schrittweise. In jedem Schritt werden zuerst Verkehrslichter, dann die Agenten-Zustände (einzeln) und schließlich die Bewegungs-Token aller Agenten vorhergesagt.
Token-Group Attention: Ein spezieller Aufmerksamkeitsmechanismus (Causal Group Mask) sorgt für semantische Kausalität:
- Token innerhalb einer Gruppe können sich gegenseitig sehen.
- Spätere Token können auf frühere Token desselben Objekts oder vorheriger Gruppen zugreifen.
- Dies erzwingt eine logische Reihenfolge (z. B. muss der Agententyp vor der Position bestimmt werden).
Relative Attention: Die Aufmerksamkeitsgewichte werden durch relative geometrische und zeitliche Verschiebungen ( $\Delta x, \Delta y, \Delta \psi, \Delta t$ ) moduliert, was das Training erleichtert und Skalierbarkeit ermöglicht.

C. Flexible Betriebsmodi (State-Forcing)
SceneStreamer ist vielseitig einsetzbar, indem verschiedene Token-Gruppen „state-forced" werden (d. h. rekonstruierte Token werden direkt als Input zurückgegeben, anstatt sie zu generieren):

Bewegungsvorhersage: Agenten-Zustände werden gezwungen, nur Bewegungen werden generiert.
Szenario-Generierung: Alle dynamischen Token werden generiert (von Grund auf).
Szenario-Densifizierung: Bestehende Agenten werden gezwungen, neue Agenten werden generiert, um die Szene zu füllen.
Closed-Loop Simulation: Das Modell reagiert auf das Ego-Fahrzeug, da dessen Trajektorie als Input (state-forced) dient.

3. Schlüsselbeiträge

Einheitliche Tokenisierung von Zustand und Trajektorie: SceneStreamer nutzt ein einziges autoregressives Modell, das sowohl den Startzustand als auch die Bewegungssequenz in einer kontinuierlichen Token-Sequenz über lange Horizonte erzeugt. Dies löst das Problem der Inkonsistenz zwischen Initialisierung und Bewegung bei Zwei-Phasen-Modellen.
Autoregressive Generierung von Agenten-Zuständen: Ein neuartiges Schema, bei dem Agenten-Zustände autoregressiv generiert werden (Typ $\to$ Karten-Segment $\to$ Relativer Zustand). Dies ermöglicht das präzise Platzieren von Agenten auf spezifischen Fahrspuren und die Erzeugung realistischer kinematischer Details in einem kompakten Format.
Vielseitige Fähigkeiten: Durch dynamisches State-Forcing kann das Modell für verschiedene Aufgaben adaptiert werden (Vorhersage, Generierung, Bearbeitung). Es unterstützt die dynamische Hinzufügung und Entfernung von Agenten während der Simulation, was für realistische Langzeitsimulationen entscheidend ist.

4. Ergebnisse

Die Evaluation erfolgte auf dem Waymo Open Motion Dataset (WOMD):

Qualität der Initialzustände: Im Vergleich zu State-of-the-Art-Methoden (wie TrafficGen, UniGen) erzielt SceneStreamer wettbewerbsfähige Ergebnisse bei der Verteilung von Position, Heading, Größe und Geschwindigkeit (gemessen am Maximum Mean Discrepancy - MMD). Die autoregressive Decodierung ist entscheidend für die Vermeidung ungültiger Kombinationen (z. B. Fußgänger auf der Autobahn).
Bewegungsvorhersage: Das Modell liefert realistische Trajektorien mit guter Vielfalt (ADD/FDD Metriken).
Reinforcement Learning (RL) Training: RL-Planner, die in Szenarien trainiert wurden, die von SceneStreamer generiert wurden, zeigen eine überlegene Robustheit und Generalisierung im Vergleich zu Trainern, die auf Log-Replay-Daten basieren.
- Metriken wie Erfolgsrate, Routenabschluss und Kollisionsvermeidung verbesserten sich signifikant.
- Adaptive Trainingsansätze (Closed-Loop), bei denen das generierte Szenario auf das Verhalten des RL-Agenten reagiert, führten zu den besten Ergebnissen.
WOSAC Benchmark: SceneStreamer erreichte auf dem Waymo Sim Agents Challenge Testset 2025 wettbewerbsfähige Ergebnisse in Bezug auf Realismus und Verhaltenswahrscheinlichkeit.

5. Bedeutung und Ausblick

SceneStreamer stellt einen Paradigmenwechsel in der Verkehrssimulation dar. Indem es die Szenariengenerierung als „Next-Token-Prediction"-Problem behandelt, überwindet es die starren Grenzen traditioneller Simulatoren.

Offene Systeme: Es ist das erste Framework, das nahtlos die dynamische Hinzufügung und Entfernung von Verkehrsteilnehmern über einen unbegrenzten Horizont unterstützt, was der Realität des Verkehrs entspricht.
Datenverstärkung: Es dient als hochpräziser Simulator zur Datenverstärkung für das Training von autonomen Fahrsystemen, insbesondere für Reinforcement-Learning-Ansätze, die auf vielfältige und reaktive Szenarien angewiesen sind.
Effizienz: Die diskrete Tokenisierung und der Transformer-basierte Ansatz ermöglichen eine effiziente, schrittweise Generierung, die sich gut in Closed-Loop-Systeme integrieren lässt.

Zusammenfassend bietet SceneStreamer eine einheitliche, skalierbare und realistische Lösung für die Simulation komplexer Verkehrsszenarien, die über reine Trajektorienvorhersage hinausgeht und die gesamte Dynamik des Verkehrsumfelds modelliert.

SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

1. Der Verkehr als ein riesiges Buch (Token-Sequenz)

2. Das "Addieren" und "Löschen" von Schauspielern

3. Die "Landkarte als Anker"

4. Warum ist das so wichtig für selbstfahrende Autos?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: SceneStreamer

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization