SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

Each language version is independently generated for its own context, not a direct translation.

Immagina di guidare un'auto a guida autonoma. Il problema principale è: "Cosa c'è intorno a me e cosa sta succedendo?".

Fino a oggi, per insegnare alle auto a capire questo, gli ingegneri dovevano fare un lavoro enorme: etichettare manualmente ogni singolo oggetto in migliaia di video (dicendo "questa è una macchina, sta andando a 50 km/h", "questo è un pedone, sta correndo"). È come se dovessimo scrivere un libro di istruzioni per ogni singolo istante della vita di un'auto. Costoso, lento e noioso.

SelfOccFlow è un nuovo metodo che insegna all'auto a imparare da sola, guardando il mondo che cambia, senza bisogno di un insegnante umano che le dica cosa fare.

Ecco come funziona, usando tre metafore semplici:

1. Il "Trucco del Separatore di Mondi" (Disentanglement)

Immagina di guardare una scena affollata in una piazza. Ci sono cose ferme (edifici, alberi, marciapiedi) e cose che si muovono (auto, persone, cani).
Se provi a descrivere la piazza come un unico blocco, diventi confuso: "Quella parte di strada è occupata? Sì, c'è un'auto che passa. Ma l'auto è lì da sempre o è appena arrivata?"

SelfOccFlow usa un separatore magico. Divide la scena in due "strati" mentali:

Lo strato Statico: Tutto ciò che non si muove (case, strade).
Lo strato Dinamico: Tutto ciò che si muove (auto, pedoni).

Invece di mischiare tutto, l'auto impara a costruire due mappe separate. Questo le permette di capire meglio le cose: se un'auto passa davanti a un palazzo, il sistema sa che il palazzo è lì anche se l'auto lo nasconde per un secondo, perché il "palazzo" vive nel suo strato statico.

2. La "Macchina del Tempo" (Aggregazione Temporale)

Per capire se qualcosa si muove, devi guardare il "prima" e il "dopo".
Immagina di guardare un video a scatti. Se guardi solo un fotogramma, non sai se l'auto sta andando avanti o indietro.

SelfOccFlow fa una cosa intelligente: guarda il passato e il futuro.

Prende l'immagine di adesso ( $t$ ).
Prende quella di un secondo fa ( $t-1$ ) e di un secondo dopo ( $t+1$ ).
Allinea tutto come se l'auto fosse ferma (usando il movimento dell'auto stessa come riferimento).

Poi, invece di dire "guarda qui", dice: "Se il mondo è statico, quello che vedo ora dovrebbe essere identico a quello che ho visto prima, solo spostato". Se le cose combaciano perfettamente, l'auto impara la geometria (la forma degli oggetti). Se le cose non combaciano, l'auto capisce: "Ah! C'è movimento qui!".

3. Il "Detective delle Somiglianze" (Similarity Flow)

Questa è la parte più geniale. Normalmente, per insegnare a un'auto a calcolare la velocità (il flusso), le dai un'etichetta con scritto "velocità: 30 km/h".
SelfOccFlow non usa etichette. Usa un indizio nascosto.

Immagina di avere due foto consecutive. Prendi un "pezzo" di immagine (un pixel o un gruppo di pixel) che rappresenta un'auto.

Nella foto di prima, l'auto era qui.
Nella foto di adesso, l'auto è là.

Il sistema chiede: "Quale pezzo della foto di prima assomiglia di più a questo pezzo di adesso?".
È come un gioco di "trova l'intruso" o un puzzle. Se il pezzo A della foto di prima è molto simile al pezzo B della foto di adesso, allora il sistema deduce: "L'oggetto si è spostato da A a B".
Misurando quanto si è spostato quel "pezzo simile", l'auto calcola automaticamente la velocità e la direzione, senza che nessuno glielo abbia mai detto.

Perché è importante?

Risparmia soldi e tempo: Non serve più un esercito di persone a disegnare frecce di movimento su migliaia di video.
È più intelligente: Impara a distinguere tra un'auto parcheggiata (statica) e una che passa (dinamica) in modo molto più naturale.
Funziona ovunque: È stato testato su strade tedesche, americane e in città reali, dimostrando che può guidare in scenari complessi.

In sintesi

SelfOccFlow è come un bambino che impara a guidare guardando il mondo: non gli serve un manuale scritto che dice "l'auto rossa va a 50", ma guarda come le cose cambiano posizione da un secondo all'altro, separa mentalmente ciò che è fermo da ciò che si muove, e deduce da solo la velocità e la direzione. È un passo gigante verso un'auto che impara da sola a vedere e capire il mondo 3D.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La stima della occupazione 3D e del flusso di scena (motion) nell'ambiente circostante un veicolo è fondamentale per la guida autonoma, poiché permette una consapevolezza situazionale in ambienti dinamici.
Le sfide principali affrontate dagli approcci esistenti sono:

Dipendenza da annotazioni costose: I metodi attuali per l'occupazione 3D e il flusso richiedono spesso annotazioni 3D manuali (estremamente onerose) o etichette di velocità derivate da bounding box.
Dipendenza da modelli esterni: Molti metodi di flusso 3D si basano su modelli di flusso ottico 2D pre-addestrati o su pseudo-etichette generate da tali modelli, introducendo complessità e limitazioni di scalabilità.
Incoerenza temporale: La presenza di oggetti dinamici (pedoni, veicoli) complica la consistenza geometrica tra i frame, rendendo difficile l'apprendimento non supervisionato.

L'obiettivo del lavoro è sviluppare un metodo self-supervised (auto-supervisionato) in grado di apprendere congiuntamente geometria e movimento senza utilizzare annotazioni umane, etichette di flusso o modelli di flusso ottico pre-addestrati.

2. Metodologia

Il metodo proposto, SelfOccFlow, si basa su una pipeline end-to-end che disaccoppia la scena in componenti statiche e dinamiche e utilizza la coerenza spaziotemporale per l'apprendimento.

A. Disaccoppiamento Statico-Dinamico (Static-Dynamic Disentanglement)

Invece di separare la scena basandosi sul movimento istantaneo (che può essere ambiguo), il modello separa la scena in base alle classi semantiche:

Vengono predetti due campi di distanza firmata (SDF - Signed Distance Field) separati: uno statico ( $\phi_s$ ) e uno dinamico ( $\phi_d$ ).
L'SDF totale è la combinazione minima dei due campi.
Questa separazione è guidata da un modello fondazionale (Grounded-SAM) che genera maschere dinamiche (es. auto, pedoni) dalle immagini 2D. I raggi LiDAR vengono classificati come statici o dinamici in base a queste maschere per l'addestramento.

B. Aggregazione Temporale e Warping del Flusso

Per migliorare la consistenza temporale, il modello aggrega le previsioni dei campi SDF dai frame adiacenti ( $t-1, t, t+1$ ):

Campo Statico: I campi statici vengono allineati direttamente tramite il movimento del veicolo (ego-motion) e aggregati, sfruttando la natura stazionaria degli oggetti.
Campo Dinamico: I campi dinamici vengono campionati in posizioni "warped" (traslate) utilizzando le previsioni del flusso ( $f_{t-}, f_{t+}$ ). Questo meccanismo permette di apprendere implicitamente il flusso: per minimizzare l'errore geometrico tra i frame, il modello deve predire un flusso accurato che allinei correttamente le strutture dinamiche.

C. Loss di Flusso Auto-Supervisionato (Similarity Flow Loss)

Poiché non ci sono etichette di flusso, il paper introduce un nuovo segnale di supervisione basato sulla similarità delle caratteristiche (features):

Vengono calcolate le similarità coseno tra le feature BEV (Bird's-Eye-View) dinamiche del frame corrente e quelle dei frame adiacenti in una finestra di ricerca $N \times N$ .
Lo spostamento del neighbor più simile viene utilizzato come pseudo-etichetta di flusso.
Una loss $L_{sim}$ (basata su L1) allena la testa del flusso a prevedere movimenti coerenti con questi spostamenti di feature, pesata per garantire la coerenza avanti-indietro.

D. Supervisione basata sui Raggi (Ray-based Supervision)

Il modello utilizza raggi di camera e LiDAR per la supervisione geometrica:

Perdita Fotometrica ( $L_{photo}$ ): Utilizza la ricolorazione e la profondità per i raggi di camera, gestendo le occlusioni e gli oggetti in movimento.
Perdita LiDAR ( $L_{lidar}$ ): Supervisiona la profondità predetta con le misurazioni LiDAR. I raggi statici possono provenire da frame vicini (per coprire aree occluse), mentre i raggi dinamici sono limitati al frame corrente per evitare incoerenze.

3. Contributi Chiave

Primo metodo end-to-end self-supervised: È la prima soluzione per l'occupazione e il flusso 3D che apprende geometria e movimento senza etichette di occupazione, annotazioni di flusso o modelli di flusso ottico pre-addestrati.
Disaccoppiamento SDF: Introduce una separazione esplicita tra SDF statici e dinamici, permettendo l'apprendimento della geometria nelle regioni occluse utilizzando raggi statici dai frame vicini.
Meccanismi di Aggregazione Temporale: Implementa un'aggregazione temporale con warping del flusso sul campo dinamico, migliorando la consistenza inter-frame e abilitando l'apprendimento implicito del flusso.
Similarity Flow Loss: Introduce una nuova loss auto-supervisionata derivata dalle similarità delle feature, che fornisce un segnale di flusso robusto senza dipendere da dati esterni.

4. Risultati Sperimentali

Il metodo è stato valutato su tre dataset principali: SemanticKITTI, KITTI-MOT e nuScenes.

SemanticKITTI (Occupazione 3D): Il modello supera i metodi precedenti (incluso LetOccFlow e SelfOcc), migliorando il metrico RayIoU del +3.14% rispetto a LetOccFlow e del +4.39% rispetto alla versione senza aggregazione temporale. Mostra una migliore capacità di prevedere l'occupazione per oggetti dinamici piccoli e in regioni occluse.
KITTI-MOT (Flusso di Scena): Nonostante non utilizzi supervisione diretta sul flusso ottico 2D, il modello ottiene prestazioni competitive e superiori in termini di errore di profondità (DE) e flusso ottico (EPE) rispetto a metodi che usano pseudo-etichette di flusso pre-addestrate. Dimostra anche una forte capacità di generalizzazione, funzionando bene su KITTI-MOT quando addestrato solo su SemanticKITTI.
nuScenes: Stabilisce un nuovo stato dell'arte (SOTA) per l'occupazione e il flusso 3D, riducendo l'errore medio di velocità (mAVE) del 7.7% rispetto a LetOccFlow e migliorando il RayIoU.
Efficienza: Il modello è significativamente più leggero di LetOccFlow: ha 32.4M parametri contro 253.3M, richiede meno FLOPs (405G vs 3202G) e raggiunge una velocità di inferenza di 3.78 FPS su GPU V100, contro 1.04 FPS del competitor.

5. Significato e Impatto

Questo lavoro rappresenta un passo fondamentale verso la guida autonoma scalabile. Rimuovendo la dipendenza da annotazioni 3D costose e da modelli di flusso ottico esterni, SelfOccFlow rende possibile l'addestramento di sistemi di percezione 3D su grandi quantità di dati grezzi non etichettati. La capacità di apprendere congiuntamente geometria e movimento in modo auto-supervisionato apre la strada a sistemi di percezione più robusti, efficienti e adattabili a nuovi scenari di guida senza necessità di ri-addestramento manuale massiccio.