From GEV to ResLogit: Spatially Correlated Discrete Choice Models for Pedestrian Movement Prediction

Each language version is independently generated for its own context, not a direct translation.

🚶‍♂️ Der unsichtbare Tanz: Wie Fußgänger vor autonomen Autos entscheiden

Stell dir vor, du läufst auf einer belebten Straße und ein selbstfahrendes Auto (ein AV) kommt auf dich zu. Du musst in der nächsten Sekunde entscheiden: Bleibst du stehen? Läufst du schneller? Wendest du dich nach links oder rechts?

Diese Entscheidung trifft nicht nur du, sondern auch das Auto. Das Auto muss vorhersagen, was du tust, um nicht zu bremsen oder einen Unfall zu bauen. Die Forscher Rulla Al-Haideri und Bilal Farooq haben sich genau diese Frage gestellt: Wie können wir diese winzigen Entscheidungen von Fußgängern am besten vorhersagen?

1. Das Problem: Der "Kaffee-Tisch"-Effekt

Stell dir vor, du hast einen 3x3-Kaffeetisch vor dir. Auf jedem der neun Felder steht eine mögliche Bewegung:

Oben links: Langsam werden und nach links schauen.
Mitte: Weiterlaufen.
Unten rechts: Schnell werden und nach rechts schauen.

Die Forscher nennen dies ein diskretes Wahlmodell. Das Problem ist: Diese Felder sind nicht unabhängig. Wenn du dich für "nach links schauen" entscheidest, ist es sehr wahrscheinlich, dass du auch "nach links gehen" würdest. Die Felder sind wie Nachbarn, die sich ähnlich verhalten.

Frühere Modelle (die sogenannten MNL-Modelle) behandelten jedes Feld wie einen völlig fremden Nachbarn. Sie dachten: "Wenn er links geht, hat das nichts damit zu tun, ob er rechts geht." Das ist in der Realität falsch.

2. Die alten Werkzeuge: Der starre Bauplan (GEV-Modelle)

Um dieses "Nachbar-Problem" zu lösen, haben die Forscher zuerst klassische mathematische Werkzeuge ausprobiert, die GEV-Modelle genannt werden.

Die Analogie: Stell dir vor, du bist ein Architekt, der ein Gebäude plant. Du musst im Voraus festlegen, welche Zimmer miteinander verbunden sind. Du sagst: "Zimmer 1 und 2 sind verbunden, Zimmer 3 und 4 sind verbunden."
Das Problem: In der echten Welt sind Fußgänger aber chaotisch. Manchmal sind Zimmer 1 und 3 verbunden, manchmal 2 und 5. Wenn du als Architekt (Analyst) die Verbindungen im Voraus festlegst, passt dein Plan oft nicht zur Realität. Die Forscher haben festgestellt: Diese starren Pläne haben die Vorhersage nur minimal verbessert. Es war, als würde man versuchen, einen fließenden Fluss mit einem starren Zaun einzudämmen – der Fluss findet immer einen Weg.

3. Der neue Held: Der lernende Assistent (ResLogit)

Dann haben die Forscher ein neues Modell getestet, das sie ResLogit nennen.

Die Analogie: Stell dir vor, du hast einen erfahrenen Lehrer (das Basis-Modell), der die Grundregeln der Fußgängerbewegung kennt. Aber dieser Lehrer macht manchmal kleine Fehler. Neben ihm sitzt ein junger, cleverer Assistent (das neuronale Netz), der nur auf die Fehler des Lehrers achtet.
Wie es funktioniert: Der Lehrer sagt: "Er wird wahrscheinlich geradeaus gehen." Der Assistent schaut sich die Situation an und sagt: "Moment, der Lehrer hat recht, aber weil das Auto von links kommt, ist die Wahrscheinlichkeit, dass er leicht nach links ausweicht, höher als gedacht." Der Assistent korrigiert die Vorhersage des Lehrers.
Der Clou: Der Assistent lernt diese Korrekturen direkt aus den Daten, ohne dass ein Mensch ihm im Voraus sagen muss, welche Zimmer verbunden sind.

4. Das Ergebnis: Warum der Assistent gewinnt

Die Forscher haben Tausende von echten Situationen aus Datenbanken (wie nuScenes und Argoverse) analysiert. Das Ergebnis war eindeutig:

Die alten Baupläne (GEV): Sie haben die Vorhersage kaum verbessert. Sie waren zu starr für die vielen kleinen, ähnlichen Entscheidungen.
Der lernende Assistent (ResLogit): Er war deutlich besser. Aber das Beste war nicht nur die Genauigkeit, sondern wie er Fehler machte.
- Wenn ein stures Modell einen Fehler macht, sagt es vielleicht: "Der Fußgänger wird nach rechts rennen", obwohl er eigentlich nach links wollte. Das ist ein riesiger Fehler für das Auto.
- Der ResLogit-Assistent macht Fehler, die lokal sind. Wenn er einen Fehler macht, sagt er vielleicht: "Er geht leicht nach links", obwohl er eigentlich "stark nach links" geht. Das ist ein kleiner Fehler, der für das Auto viel sicherer ist, weil es immer noch weiß, dass der Fußgänger in die Nähe des linken Feldes geht.

5. Was bedeutet das für uns?

Die Studie zeigt uns zwei wichtige Dinge:

Interpretierbarkeit ist wichtig: Der ResLogit ist nicht nur eine "Black Box". Der "Lehrer" im Hintergrund gibt uns immer noch verständliche Regeln (z. B. "Je näher das Auto ist, desto eher bremst der Fußgänger"). Das ist super für Ingenieure, die verstehen wollen, warum das Modell so denkt.
Lernen statt Planen: In komplexen, dichten Situationen (wie einem vollen Gehweg) ist es besser, einem System zu erlauben, die Zusammenhänge selbst zu lernen, als zu versuchen, alle Regeln im Voraus zu schreiben.

Zusammenfassend:
Die Forscher haben herausgefunden, dass man Fußgänger nicht wie starre Schachfiguren behandeln sollte, bei denen man im Voraus festlegt, welche Züge verbunden sind. Stattdessen braucht man einen lernenden Assistenten, der die feinen Nuancen der menschlichen Bewegung versteht und Fehler macht, die im "Nachbarschafts-Verständnis" bleiben. Das macht selbstfahrende Autos sicherer und vorhersehbarer.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Die Vorhersage des Fußgängerverhaltens in der Nähe autonomer Fahrzeuge (AVs) ist entscheidend für sichere Planungs- und Nachgiebigkeitsentscheidungen (Yielding). Herkömmliche Trajektorienvorhersagemodelle basieren oft auf neuronalen Netzen, die kontinuierliche Koordinaten aus vergangenen Pfaden lernen. Diese Modelle haben jedoch zwei wesentliche Nachteile:

Fehlende Verhaltensinterpretierbarkeit: Sie liefern keine expliziten Entscheidungsregeln, die Elastizitäten oder Substitutionsmuster zwischen diskreten Bewegungsoptionen quantifizieren.
Kontextuelle Fehlerbewertung: Nicht alle Vorhersagefehler sind gleich schwerwiegend. Eine Verwechslung zweier benachbarter Zellen in einem Bewegungsgitter (z. B. leichte Geschwindigkeitsänderung) ist weniger kritisch als eine Verwechslung qualitativ unterschiedlicher Aktionen.

Das Paper adressiert diese Lücke, indem es die Fußgängerbewegung als räumliches diskretes Wahlproblem formuliert. Die nächste Bewegung wird als Auswahl aus einem $3 \times 3$ -Gitter definiert, das Geschwindigkeitsanpassungen (Verlangsamen, Beibehalten, Beschleunigen) und Richtungsänderungen (Links, Geradeaus, Rechts) kombiniert. Das Ziel ist es, Modelle zu vergleichen, die die inhärente Korrelation zwischen diesen benachbarten Alternativen (räumliche Korrelation) effektiv abbilden können.

2. Methodik

Datengrundlage

Die Studie nutzt natürliche Fußgänger-AV-Interaktionen aus zwei öffentlichen Datensätzen: nuScenes und Argoverse 2.

Zeitschritt: 1-Sekunden-Entscheidungsintervalle.
Auswahlraum: Ein $3 \times 3$ -Gitter mit 9 Alternativen, basierend auf relativen Änderungen von Geschwindigkeit und Heading (Kurs).
Datenvolumen: Nach Filterung verbleiben 863 Schritte aus Argoverse 2 und 1.830 aus nuScenes (insgesamt ca. 2.693 valide Entscheidungen).

Modellansätze

Die Autoren vergleichen ein Basis-Modell mit vier räumlichen Generalized Extreme Value (GEV)-Spezifikationen und einem hybriden Lernansatz:

Multinomial Logit (MNL): Das Basismodell ohne Korrelation zwischen Alternativen.
Räumliche GEV-Modelle: Diese Modelle relaxieren die Unabhängigkeitsannahme durch analytisch definierte Generierungsfunktionen, die Korrelationen durch „Nesting" (Verschachtelung) abbilden.
- SCL (Spatially Correlated Logit): Nutzt eine Kontiguitätsmatrix für überlappende Paarnester.
- GSCL (Generalized SCL): Ersetzt die binäre Kontiguität durch eine distanzbasierte Zuweisung (Korrelation nimmt mit der Distanz ab).
- SCNL (Spatially Correlated Nested Logit): Erlaubt mehrere Verschachtelungskoeffizienten für vordefinierte Kategorien.
- GSCNL (Generalized SCNL): Schätzt die Zuweisungsmuster (Allocation) direkt aus den Daten anstatt sie vorzugeben.
ResLogit (Residual Neural Network Logit): Ein hybrides Modell, das ein lineares MNL-Backbone mit residualen neuronalen Netzschichten kombiniert.
- Es berechnet zunächst die systematische Nutzenfunktion $V_t$ .
- Anschließend werden nichtlineare Residuen ( $g_t$ ) gelernt, die systematische Kreuz-Effekte und unbeobachtete Strukturen korrigieren: $U_t = V_t + g_t$ .
- Dies ermöglicht das Lernen von Korrelationen direkt aus den Daten, behält aber die Interpretierbarkeit der linearen Nutzenkomponente bei.

Variablen

Die systematische Nutzenfunktion umfasst Variablen für Beschleunigung/Verzögerung, Richtungsänderung, Distanz zum Ziel, sowie Interaktionsvariablen mit dem AV (Front- und Heck-Kollisionsrisiko basierend auf CTTC und Richtung).

3. Wichtige Ergebnisse

Modellgüte und Anpassung

GEV-Modelle: Die räumlichen GEV-Modelle zeigten nur marginale Verbesserungen gegenüber dem einfachen MNL. Der mittlere Log-Likelihood-Wert verbesserte sich nur minimal (von -2.147 auf -2.137). Die AIC-Werte sanken kaum.
ResLogit: Das ResLogit-Modell erzielte eine deutlich bessere Anpassung mit einem mittleren Log-Likelihood von -1.716 und einem signifikant niedrigeren AIC (6.366 vs. ~7.900 bei GEV/MNL).

Vorhersageleistung und Fehlerstruktur

Klassische GEV-Modelle: Die Konfusionsmatrizen zeigten, dass diese Modelle die Vorhersagemuster kaum vom MNL unterschieden. Sie konzentrierten sich stark auf wenige dominante Klassen.
ResLogit: Das Modell zeigte eine verteilte Vorhersage, bei der Fehler überwiegend zwischen benachbarten Gitterzellen auftraten. Dies entspricht dem menschlichen Verhalten, bei dem kleine Abweichungen (z. B. leichtes Beschleunigen statt starkes) wahrscheinlicher sind als qualitative Fehler.
Genauigkeit: Die Top-1-Genauigkeit lag bei ca. 32 % (Testset), was für natürliche Variabilität akzeptabel ist. Die Top-3-Genauigkeit lag jedoch bei 67 %, was bedeutet, dass das Modell die korrekte Bewegung oft innerhalb einer kleinen Gruppe plausibler Nachbarn vorhersagt.

Interpretierbarkeit

Die linearen Koeffizienten im ResLogit-Modell blieben interpretierbar:

Fußgänger bevorzugen zielgerichtete Bewegungen (negative Koeffizienten für Distanz und Winkelabweichung zum Ziel).
Frontale Kollisionsrisiken erhöhen die Wahrscheinlichkeit für Verlangsamung.
Heck-Risiken reduzieren die Tendenz zur Beschleunigung (da die Interaktion oft bereits gelöst ist).

4. Hauptbeiträge und Signifikanz

Überlegenheit datengetriebener Korrekturen: Die Studie zeigt, dass in dichten, hochfrequenten Wahlräumen (wie einem $3 \times 3$ -Gitter) von Analysten vorgegebene räumliche Nest-Strukturen (GEV) oft zu schwach identifizierbar sind und wenig Mehrwert bieten. Stattdessen können lernbasierte Residual-Korrekturen (ResLogit) die durch Nähe induzierte Korrelation effektiver erfassen.
Balance zwischen Leistung und Interpretierbarkeit: ResLogit bietet die Vorhersagekraft komplexer neuronaler Netze, behält aber die strukturelle Interpretierbarkeit diskreter Wahlmodelle bei. Dies ist entscheidend für die Integration in AV-Planungssysteme, die nachvollziehbare Entscheidungsregeln benötigen.
Verhaltenskohärenz: Das Modell produziert Fehlermuster, die verhaltenswissenschaftlich sinnvoll sind (Fehler bleiben lokal im Gitter), was für die Risikobewertung in autonomen Fahrzeugen wichtiger ist als die reine Top-1-Trefferquote.
Methodischer Rahmen: Die Arbeit etabliert einen Benchmark für die Modellierung von Fußgängerbewegungen als diskrete räumliche Wahl, der als Basis für zukünftige Erweiterungen (multistep, Multi-Agenten-Interaktionen) dient.

Fazit

Das Paper schlussfolgert, dass für die Vorhersage von Fußgängerbewegungen in dichten Entscheidungsräumen klassische räumliche GEV-Modelle an ihre Grenzen stoßen. Der hybride ResLogit-Ansatz stellt eine überlegene Alternative dar, da er die Komplexität der Korrelationen aus den Daten lernt, ohne auf die Interpretierbarkeit der zugrundeliegenden Verhaltenslogik zu verzichten. Dies ermöglicht robustere und verhaltensbasierte Vorhersagen für autonome Fahrzeuge.