A Spatio-temporal Graph Network Allowing Incomplete Trajectory Input for Pedestrian Trajectory Prediction

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un robot che cammina in mezzo a una folla di persone. Il tuo compito è prevedere dove andranno le persone nei prossimi secondi per non scontrarti con loro. È come guidare un'auto in una piazza affollata: devi sapere se quel pedone che sta attraversando la strada continuerà dritto o si fermerà.

Finora, i "cervelli" (gli algoritmi) che guidavano questi robot avevano un grosso difetto: erano come studenti molto rigidi. Se anche solo per un secondo non vedevano una persona (perché era nascosta dietro un palo, un altro pedone o un'auto), lo studente diceva: "Non ho visto il passato di questa persona, quindi non posso prevedere il suo futuro. Ignoriamola!".

Questo è pericoloso. Se il robot ignora una persona che è stata nascosta per un attimo, potrebbe scontrarsi con lei proprio quando riappare.

Gli autori di questo paper, un gruppo di ricercatori del Politecnico di Milano, hanno creato un nuovo "cervello" chiamato STGN-IT che è molto più intelligente e flessibile. Ecco come funziona, spiegato con delle metafore semplici:

1. Il problema della "Fotografia Sgranata"

Immagina di guardare un video di una folla. A volte, una persona viene coperta da un ombrello o da un cartellone. Nei vecchi sistemi, se il video aveva un "buco" (un momento in cui la persona non era visibile), il sistema smetteva di calcolare la sua traiettoria.
Gli autori dicono: "No, non possiamo permettercelo! Dobbiamo prevedere dove andrà anche se la abbiamo vista solo per metà del tempo".

2. La soluzione: La "Mappa dei Ricordi" (Grafo Spazio-Temporale)

Il nuovo sistema STGN-IT non guarda solo le persone, ma costruisce una mappa mentale dinamica (un grafo spazio-temporale).

Le persone sono nodi: Ogni persona è un punto sulla mappa.
Le relazioni sono linee: Se due persone sono vicine, il sistema traccia una linea tra loro per capire come si influenzano a vicenda (es. se uno si sposta a destra, l'altro potrebbe spostarsi a sinistra per non urtarlo).
Gli ostacoli sono amici: Il sistema include anche muri, pali e sedie come "punti" sulla mappa. Questo è fondamentale perché aiuta il robot a capire che le persone non cammineranno attraverso i muri.

3. Il trucco del "Codice Segreto" (Encoding)

Qui sta la vera magia. Quando una persona scompare dalla vista (diventa "invisibile"), i vecchi sistemi mettevano il punto a zero (0,0), come se la persona fosse sparita nel nulla o fosse tornata al punto di partenza. Questo confondeva il robot.

STGN-IT usa un codice segreto. Invece di dire "non c'è", dice: "C'è una persona qui, ma in questo momento non la vedo".

È come se avessi un amico in una stanza piena di nebbia. Se non lo vedi, non pensi che sia sparito; pensi semplicemente che è nascosto dalla nebbia. Il sistema mantiene la traccia della sua posizione e della sua velocità, anche se non la vede fisicamente in quel frame.

4. Il "Doppio Controllo" (Due previsioni)

Il sistema fa due passi di pensiero, come un detective che indaga due volte:

Prima previsione: Guarda le persone e cerca di indovinare dove andranno.
Aggiunta degli ostacoli: Guarda dove il sistema pensa che le persone andranno e controlla se ci sono muri o ostacoli su quel percorso. Se sì, aggiunge questi ostacoli alla mappa mentale.
Seconda previsione: Ricalcola il percorso tenendo conto che, ad esempio, "la persona non può attraversare quel muro".

Perché è importante?

Immagina di guidare un'auto a guida autonoma in una città.

I vecchi sistemi (Modalità "Filtraggio"): Se un pedone viene nascosto da un'auto parcheggiata, il sistema smette di seguirlo. Quando il pedone riappare, l'auto potrebbe non essere pronta a frenare.
Il nuovo sistema STGN-IT (Modalità "Riempimento"): Anche se il pedone è nascosto, il sistema continua a dire: "È ancora lì, sta andando verso destra, e c'è un muro lì davanti, quindi probabilmente rallenterà".

In sintesi

Gli autori hanno dimostrato che il loro sistema è molto più preciso e sicuro, specialmente quando le persone vengono nascoste (cosa che succede spesso nella visione dal punto di vista di un robot o di un'auto, ma meno nelle telecamere aeree).

Hanno anche scoperto che i vecchi metodi di valutazione (che ignoravano le persone nascoste) non erano giusti per la sicurezza reale. Il loro nuovo metodo permette ai robot di navigare in modo più fluido, evitando collisioni e capendo che anche se non vedi qualcuno per un secondo, lui c'è ancora e ha un piano.

È come passare da un guidatore che si blocca se perde di vista il semaforo, a un guidatore esperto che sa che il semaforo è ancora lì, anche se coperto da un camion, e sa come reagire.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La previsione delle traiettorie dei pedoni è fondamentale per la navigazione sicura dei robot mobili in ambienti condivisi con esseri umani. Tuttavia, la maggior parte degli algoritmi esistenti presenta due limitazioni critiche:

Requisito di traiettorie complete: Gli algoritmi attuali richiedono che le traiettorie storiche siano complete. Se un pedone diventa non osservabile (ad esempio, a causa di occlusioni in una visione egocentrica o di un robot), la sua traiettoria storica viene considerata "incompleta" e l'algoritmo smette di prevedere il suo futuro.
Disallineamento con la realtà robotica: Molti modelli sono addestrati su dataset con vista dall'alto (es. ETH, UCY), dove le occlusioni sono rare. Nei dataset con visione egocentrica (tipica dei robot mobili, come STCrowd), le occlusioni sono frequenti.
- Attualmente, i sistemi operano spesso in "Modalità Filtraggio": ignorano i pedoni con traiettorie incomplete. Questo è pericoloso perché il robot potrebbe non rilevare un pedone che riemerge da un ostacolo, portando a collisioni.
- L'alternativa, la "Modalità Padding", sostituisce le posizioni non osservabili con coordinate nulle (0,0). Sebbene più sicura, molti algoritmi interpretano erroneamente questo come un movimento fisico verso l'origine, degradando le prestazioni.

L'obiettivo del paper è sviluppare un sistema capace di prevedere traiettorie future anche quando le traiettorie storiche sono parzialmente mancanti, mantenendo alta l'accuratezza e la sicurezza per la navigazione robotica.

2. Metodologia: STGN-IT

Gli autori propongono STGN-IT (Spatio-Temporal Graph Network for Incomplete Trajectory), una rete basata su grafi spaziotemporali progettata per gestire input incompleti. L'architettura si articola in quattro moduli principali e prevede due fasi di previsione:

A. Costruzione del Grafo Spaziotemporale

Nodi ed Archi: Ogni nodo rappresenta un pedone o un ostacolo a un tempo $t$ , contenente posizione e velocità. Gli archi rappresentano le correlazioni tra entità.
Clustering (DBSCAN): Viene utilizzato un algoritmo di clustering per riordinare i nodi nella matrice di input. Questo raggruppa entità che interagiscono (pedoni vicini o pedoni vicini a ostacoli) in posizioni adiacenti della matrice, facilitando l'estrazione delle caratteristiche da parte della rete neurale.

B. Codifica dello Stato di Osservazione

Per distinguere tra una posizione reale (0,0) e una posizione non osservabile (mancante), viene introdotta una codifica specifica:

Vengono aggiunti vettori di stato ( $N^o_t$ ed $E^o_t$ ) che indicano se un nodo è osservabile o meno in un dato frame.
Questi vettori vengono combinati con le feature spaziali tramite strati fully-connected e prodotto di Hadamard, permettendo alla rete di "sapere" che un dato è mancante senza confonderlo con una posizione fisica.

C. Predizione a Due Fasi con Aggiunta di Ostacoli

L'algoritmo esegue due previsioni sequenziali:

Prima Predizione: La rete prevede le traiettorie future basandosi solo sulle informazioni dei pedoni (senza considerare esplicitamente gli ostacoli statici).
Modulo di Aggiunta Ostacoli: Basandosi sulla mappa di occupazione (generata automaticamente da dati LIDAR) e sulla traiettoria prevista nella prima fase, il sistema identifica gli ostacoli statici vicini al percorso previsto. Questi ostacoli vengono aggiunti al grafo come nuovi nodi.
Seconda Predizione: La rete esegue una nuova previsione utilizzando il grafo arricchito con i nodi degli ostacoli. Questo permette al modello di adattare la traiettoria prevista per evitare collisioni con l'ambiente.

D. Modulo di Predizione della Traiettoria

Utilizza due reti GRU (Gated Recurrent Unit) per compensare le informazioni mancanti nelle posizioni, sfruttando le feature dei frame precedenti.
Applica una STGCN (Spatio-Temporal Graph Convolutional Network) e una TECN (Time-Extrapolator Convolution Network) per estrarre feature spaziali e temporali.
Infine, una Bi-GRU e un MLP (Multi-Layer Perceptron) decodificano le feature per restituire la velocità e la posizione finale prevista.

3. Contributi Chiave

STGN-IT: Un'architettura innovativa che combina grafi spaziotemporali, codifica dello stato di osservazione e mappe di occupazione per gestire traiettorie storiche incomplete.
Gestione delle Occlusioni: Dimostrazione sperimentale che le traiettorie incomplete degradano pesantemente le prestazioni degli algoritmi esistenti e proposta di un metodo di codifica per mitigare tale problema.
Valutazione in "Modalità Padding": Spostamento del focus dalla "Modalità Filtraggio" (che ignora i dati mancanti) alla "Modalità Padding" (che li include), identificata come più sicura e realistica per la navigazione robotica.
Integrazione Mappe di Occupazione: Utilizzo di mappe di occupazione generate automaticamente da nuvole di punti LIDAR, rendendo il sistema più flessibile rispetto a quelli che richiedono mappe semantiche manualmente annotate.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti sul dataset pubblico STCrowd (STC) e su una versione modificata STC-c (con il 10% dei campioni rimossi per simulare traiettorie incomplete).

Metriche: Valutazione tramite ADE (Average Displacement Error) e FDE (Final Displacement Error).
Confronto: STGN-IT è stato confrontato con algoritmi state-of-the-art (es. Social-STGCNN, SGCN, GraphTERN, STIGCN).
Performance:
- STGN-IT ottiene i migliori risultati (ADE e FDE più bassi) in tutte e tre le condizioni testate:
  1. f-f (Filtraggio su dati completi).
  2. p-p (Padding su dati completi).
  3. p-p su STC-c (Padding su dati incompleti).
- Robustezza: Mentre gli altri algoritmi mostrano un degrado delle prestazioni superiore al 25% quando si passa da dati completi a incompleti, STGN-IT mostra un degrado minimo di circa il 15%.
- Ablation Study: La rimozione di qualsiasi modulo (codifica, clustering, aggiunta ostacoli) peggiora significativamente le prestazioni (diminuzione di almeno il 20%), confermando l'importanza di ogni componente.
Analisi Qualitativa: Le visualizzazioni mostrano che STGN-IT evita con successo ostacoli statici e gestisce le interazioni sociali (es. pedoni che si incrociano o bypassano gruppi), mentre altri algoritmi producono traiettorie che collidono con ostacoli o falliscono completamente quando i dati sono incompleti.

5. Significato e Impatto

Questo lavoro è significativo per la ricerca sulla robotica mobile e l'interazione uomo-robot per diversi motivi:

Sicurezza Operativa: Abilita i robot a prevedere il comportamento di pedoni anche quando questi sono temporaneamente nascosti, riducendo drasticamente il rischio di collisioni rispetto ai sistemi che "filtrano" i dati mancanti.
Adattabilità Reale: L'uso di mappe di occupazione da LIDAR rende il sistema direttamente applicabile a robot reali senza dipendere da annotazioni semantiche costose.
Nuovo Standard di Valutazione: Il paper suggerisce che la valutazione degli algoritmi di previsione dovrebbe avvenire in "Modalità Padding" su scenari con occlusioni, piuttosto che solo su dati puliti, per garantire una reale affidabilità in ambienti dinamici.

In sintesi, STGN-IT rappresenta un passo avanti verso sistemi di navigazione robotica più robusti, capaci di operare in ambienti complessi e parzialmente osservabili, mantenendo un'alta accuratezza predittiva.