A Spatio-temporal Graph Network Allowing Incomplete Trajectory Input for Pedestrian Trajectory Prediction

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Roboter, der durch eine belebte Fußgängerzone läuft. Ihr Job ist es, sicher zu navigieren und niemanden anzustoßen. Dafür müssen Sie vorhersagen, wohin die Menschen in den nächsten paar Sekunden gehen werden. Das ist die Aufgabe dieses Forschungsprojekts.

Hier ist die Geschichte der Lösung, die die Forscher von der Politecnico di Milano entwickelt haben, ganz einfach erklärt:

Das Problem: Der "versteckte" Fußgänger

Die meisten aktuellen Roboter-Programme funktionieren wie ein strenger Lehrer: Wenn sie einen Fußgänger auch nur für eine Sekunde nicht sehen können (weil er hinter einem Baum, einem anderen Menschen oder einem Schild verschwindet), geben sie auf. Sie sagen: "Ich habe die Geschichte nicht vollständig gesehen, also kann ich nicht raten, wohin er geht."

Das ist gefährlich! Wenn der Roboter aufhört, den Fußgänger zu verfolgen, könnte er ihn übersehen und ihn umrennen.

In der echten Welt (aus der Sicht des Roboters) passiert das ständig. Menschen werden oft verdeckt. Die alten Algorithmen funktionieren nur, wenn man wie ein Drohne aus der Vogelperspektive schaut, wo niemand verdeckt wird. Aber Roboter haben keine Drohnen-Augen; sie haben Kameras auf Augenhöhe.

Die Lösung: STGN-IT (Der "Gedächtnis-Roboter")

Die Forscher haben ein neues System namens STGN-IT entwickelt. Man kann es sich wie einen sehr aufmerksamen Schachspieler vorstellen, der auch dann weiterdenkt, wenn ein Teil des Spielfelds verdeckt ist.

Hier sind die drei genialen Tricks, die sie benutzt haben:

1. Der "Unsichtbarkeits-Code" (Die Notiz im Tagebuch)
Wenn ein Fußgänger verschwindet, sagen die alten Systeme: "Null, Null" (als wäre er an den Ursprungspunkt zurückgekehrt). Das verwirrt den Roboter.
STGN-IT macht etwas Cleveres: Es schreibt eine Notiz in das System. Es sagt: "Okay, wir sehen ihn gerade nicht, aber wir wissen, dass er vorhin noch da war."

Die Analogie: Stellen Sie sich vor, Sie spielen Verstecken. Wenn Ihr Freund hinter einem Baum steht, sagen Sie nicht "Er ist verschwunden", sondern Sie merken sich: "Er ist hinter dem Baum." Das System kodiert diesen Zustand so, dass der Roboter weiß: "Er ist nicht weg, er ist nur unsichtbar."

2. Die "Karten-Integration" (Die Wand als Freund)
Früher haben Roboter oft nur auf Menschen geschaut. STGN-IT schaut sich auch die Umgebung an. Es nutzt eine digitale Landkarte (eine "Belegungskarte"), die Wände, Bänke und andere Hindernisse zeigt.

Die Analogie: Ein guter Fußgänger weiß, dass er nicht durch eine Wand laufen kann. STGN-IT fügt diese Hindernisse als "Spieler" in sein Gehirn ein. Wenn ein Fußgänger auf eine Wand zuläuft, sagt das System: "Aha, er wird dort abbiegen müssen, weil die Wand da ist." Das macht die Vorhersage viel genauer.

3. Der "Zweischritt-Plan" (Erst schauen, dann planen)
Das System macht die Vorhersage zweimal:

Schritt 1: Es schaut nur auf die Menschen und sagt grob: "Die gehen wahrscheinlich dorthin."
Schritt 2: Es schaut auf diese grobe Vorhersage und fragt: "Hey, auf diesem Weg gibt es eine Wand oder einen anderen Menschen!" Dann fügt es diese Hindernisse hinzu und sagt: "Okay, dann wird er hier abbiegen."
Die Analogie: Es ist wie beim Autofahren. Erst schauen Sie, wo die anderen Autos sind. Dann schauen Sie auf die Straße und sagen: "Oh, da ist eine Baustelle, ich muss die Spur wechseln."

Warum ist das besser als alles andere?

Die Forscher haben das System getestet, indem sie absichtlich Teile der Fußgängerbewegungen "versteckt" haben (wie im echten Leben).

Die alten Systeme: Haben oft aufgegeben oder falsche Vorhersagen gemacht (z. B. durch Wände laufen).
STGN-IT: Hat auch dann noch gute Vorhersagen gemacht. Es war wie ein erfahrener Taktiker, der auch mit unvollständigen Informationen den besten Zug findet.

Das Fazit

Dieses neue System ist wie ein Roboter, der nicht aufgibt, wenn er jemanden kurz nicht sieht. Es nutzt sein Gedächtnis, die Umgebungskarte und einen klugen Plan, um sicher durch eine Menschenmenge zu navigieren. Das ist ein riesiger Schritt für Roboter, die in Zukunft sicher mit uns Menschen zusammenleben sollen – sei es in Fabriken, Krankenhäusern oder auf belebten Straßen.

Kurz gesagt: Es ist der Unterschied zwischen einem Roboter, der bei Unsicherheit stehenzubleibt, und einem, der klug weiterdenkt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Vorhersage von Fußgängerbewegungen ist entscheidend für die Navigation mobiler Roboter in Umgebungen mit Menschen. Die meisten bestehenden Algorithmen gehen davon aus, dass historische Trajektorien vollständig sind. In der Praxis, insbesondere bei egozentrischen Ansichten (z. B. von Robotern oder autonomen Fahrzeugen), werden Fußgänger jedoch häufig durch andere Objekte oder Personen verdeckt. Dies führt zu unvollständigen Trajektorien (Lücken in den Beobachtungsdaten).

Herausforderung: Herkömmliche Modelle scheitern oft, wenn Daten fehlen. Sie nutzen entweder einen „Filtrationsmodus" (nur vollständige Trajektorien werden vorhergesagt, was zu Kollisionsrisiken führt) oder einen „Pad-Modus" (fehlende Positionen werden mit (0,0) gefüllt), was jedoch zu Missinterpretationen führt (der Algorithmus denkt, der Fußgänger sei zum Ursprung gelaufen).
Ziel: Entwicklung eines Systems, das unvollständige historische Trajektorien verarbeiten kann, ohne die Vorhersagequalität signifikant zu verlieren, und das statische Hindernisse in der Umgebung berücksichtigt.

2. Methodik: STGN-IT

Die Autoren stellen STGN-IT (Spatio-Temporal Graph Network for Incomplete Trajectory) vor, ein Zwei-Phasen-Vorhersagesystem, das auf einem Spatio-Temporalen Graphen basiert.

A. Datengrundlage und Eingabe

Eingabe: Historische Trajektorien (teilweise unvollständig) und eine Belegungsgitterkarte (Occupancy Grid Map), die automatisch aus Punktwolken (LIDAR) generiert wird. Dies ermöglicht die Nutzung statischer Hindernisse als Knoten im Graphen.
Beobachtungsstatus: Ein Fußgänger $i$ zum Zeitpunkt $t$ wird als beobachtbar ( $X_t = [x, y]$ ) oder nicht beobachtbar ( $X_t = [NaN, NaN]$ ) markiert.

B. Schlüsselkomponenten des Netzwerks

Das System besteht aus vier Hauptmodulen und führt zwei Vorhersagedurchläufe durch:

Spatio-Temporaler Graph-Aufbau (mit Clustering):
- Knoten repräsentieren Fußgänger und Hindernisse, Kanten repräsentieren Korrelationen (basierend auf relativer Position und Geschwindigkeit).
- DBSCAN-Clustering: Wird verwendet, um die Reihenfolge der Knoten in den Matrizen anzupassen. Interagierende Entitäten (z. B. ein Fußgänger und ein nahes Hindernis) werden benachbart angeordnet, um die Merkmalsextraktion durch Graph-Convolutional Networks (GCN) zu erleichtern.
Codierung des Beobachtungsstatus (Observation State Encoding):
- Um zu verhindern, dass der Algorithmus fehlende Daten ($NaN$) fälschlicherweise als Position $(0,0)$ interpretiert, werden zwei zusätzliche Vektoren eingeführt: $No^i_t$ (Knoten-Verfügbarkeit) und $Eo^i_t$ (Kanten-Verfügbarkeit).
- Diese Vektoren kodieren, ob ein Knoten oder eine Kante sichtbar ist, und werden über Fully-Connected-Layers mit den Positionsdaten kombiniert.
Trajektorien-Vorhersagemodul:
- Kompensation: Zwei GRU-Netzwerke kompensieren fehlende Positionsdaten, indem sie Merkmale aus vorherigen Frames nutzen.
- Feature-Extraktion: Ein STGCN (Spatio-Temporal Graph Convolution Network) und ein TECN (Time-Extrapolator Convolution Network) extrahieren räumlich-zeitliche Merkmale.
- Ausgabe: Ein Bi-GRU und ein MLP (Multi-Layer Perceptron) generieren die finale Vorhersage der Geschwindigkeit und Position.
Hindernis-Hinzufügungs-Modul (Zwei-Phasen-Prozess):
- Erste Vorhersage: Das Netzwerk sagt Trajektorien nur basierend auf Fußgängerdaten voraus.
- Hindernis-Integration: Basierend auf der ersten Vorhersage und der Occupancy Grid Map werden Hindernisse, die sich in der Nähe der vorhergesagten Pfade befinden, als zusätzliche Knoten in den Graphen eingefügt.
- Zweite Vorhersage: Das Netzwerk führt eine erneute Vorhersage durch, die nun die Umgebung (statische Hindernisse) explizit berücksichtigt, was die Genauigkeit erhöht.

3. Wichtige Beiträge

STGN-IT Architektur: Ein neuartiges Netzwerk, das Graph-Convolutional Networks, GRUs und eine spezielle Codierung für unvollständige Daten kombiniert. Es ist in der Lage, Trajektorien auch bei Lücken in den Eingabedaten vorherzusagen.
Robustheit gegenüber unvollständigen Daten: Nachweis, dass herkömmliche Algorithmen bei unvollständigen Daten stark an Leistung verlieren. STGN-IT nutzt die Encoding-Methode, um diesen Leistungsabfall zu minimieren.
Integration von Umgebungsdaten: Die Nutzung von automatisch generierten Occupancy Grid Maps (anstatt manuell gelabelter semantischer Karten) und die Einbindung von Hindernissen als Graph-Knoten.
Bewertungsmodus „Pad Mode": Die Autoren argumentieren, dass der „Pad Mode" (Vorhersage auch bei verdeckten Fußgängern) für die Roboternavigation sicherer und realistischer ist als der „Filtration Mode" (nur vollständige Daten).

4. Ergebnisse und Evaluation

Die Evaluation erfolgte auf dem STCrowd (STC) Datensatz (egozentrische Sicht) sowie einem modifizierten Datensatz STC-c, bei dem 10% der Eingabedaten künstlich entfernt wurden, um Unvollständigkeit zu simulieren.

Metriken: Average Displacement Error (ADE) und Final Displacement Error (FDE).
Vergleich: STGN-IT wurde mit State-of-the-Art-Algorithmen (z. B. Social-STGCNN, SGCN, GraphTERN, STIGCN) verglichen.
Ergebnisse:
- STGN-IT erzielte in allen drei Testbedingungen (vollständig, unvollständig, mit Lücken) die besten ADE- und FDE-Werte.
- Robustheit: Während andere Algorithmen bei unvollständigen Daten (STC-c, Pad-Modus) signifikant schlechter wurden (z. B. Verdopplung der Fehler bei SSAGCN oder Social-Implicit), zeigte STGN-IT nur einen Leistungsabfall von ca. 15%.
- Qualitative Analyse: In Szenarien mit Verdeckungen oder statischen Hindernissen lieferten andere Modelle entweder keine Vorhersage (Filtration) oder kollidierende Pfade. STGN-IT lieferte glatte, realistische Trajektorien, die Hindernissen ausweichen.
- Reaktionszeit: STGN-IT kann eine Vorhersage bereits 1,2 Sekunden nach der ersten Beobachtung treffen (da es nur >2 von 8 Frames benötigt), während andere Systeme oft 3,2 Sekunden (komplette Historie) benötigen.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke in der Forschung zur Fußgängervorhersage: Die Realität mobiler Robotik, in der Sensordaten oft lückenhaft sind.

Praktische Relevanz: STGN-IT ist speziell für die Navigation in menschlichen Umgebungen geeignet, da es Kollisionsrisiken reduziert, indem es auch verdeckte Fußgänger vorhersagt und statische Hindernisse berücksichtigt.
Innovation: Die Kombination aus Graph-Neural-Networks, spezieller Encoding-Strategie für fehlende Daten und einem Zwei-Schritt-Prozess mit Hindernis-Feedback stellt einen signifikanten Fortschritt gegenüber bestehenden Methoden dar.
Zukunft: Die Autoren planen, die Genauigkeit bei unvollständigen historischen Trajektorien weiter zu verbessern, basierend auf den Ergebnissen von STGN-IT.

Zusammenfassend bietet STGN-IT einen robusten, dateneffizienten Ansatz, der die Sicherheit und Zuverlässigkeit von autonomen Systemen in dynamischen, unvorhersehbaren Umgebungen erhöht.

A Spatio-temporal Graph Network Allowing Incomplete Trajectory Input for Pedestrian Trajectory Prediction

Das Problem: Der "versteckte" Fußgänger

Die Lösung: STGN-IT (Der "Gedächtnis-Roboter")

Warum ist das besser als alles andere?

Das Fazit

1. Problemstellung

2. Methodik: STGN-IT

A. Datengrundlage und Eingabe

B. Schlüsselkomponenten des Netzwerks

3. Wichtige Beiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Fazit

Mehr davon

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas