ALERT Open Dataset and Input-Size-Agnostic Vision Transformer for Driver Activity Recognition using IR-UWB

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un'auto a capire se il suo guidatore è distratto (magari sta fumando, bevendo o guardando il telefono) senza usare telecamere che potrebbero invadere la privacy o microfoni che potrebbero registrare conversazioni private.

Gli scienziati hanno trovato una soluzione geniale usando un "super-orecchio" invisibile: il radar a onde ultra-larghe (IR-UWB). È come se l'auto avesse un superpotere per "vedere" i movimenti attraverso le pareti e nel buio, senza mai mostrare un'immagine reale della persona.

Tuttavia, c'erano due grossi ostacoli da superare, come due muri alti da abbattere:

1. Il Muro dei Dati (Il "Libro di Ricette" Mancante)

Per insegnare a un'intelligenza artificiale a riconoscere le distrazioni, servono milioni di esempi reali. Prima di questo studio, mancava un "libro di ricette" completo fatto con dati reali. I dati esistenti erano o troppo pochi o presi in simulazioni (come un videogioco), che non rispecchiano le vere vibrazioni della strada, le buche o il rumore del traffico.

La soluzione: Gli autori hanno creato ALERT, un nuovo "libro di ricette" gigante. Hanno raccolto oltre 10.000 campioni reali di guidatori che facevano cose diverse: guidare normalmente, rilassarsi, annuire (sonnolenza), fumare, bere, toccare il cruscotto o usare il telefono. È come se avessero filmato (senza telecamere!) 9 persone diverse in diverse situazioni di guida reale per creare la base di conoscenza perfetta.

2. Il Muro della Traduzione (Il "Cambio di Lingua")

Qui entra in gioco la parte più tecnica, ma spieghiamola con un'analogia.
Immagina che i radar UWB parlino una lingua strana e irregolare (i dati arrivano in forme e dimensioni diverse, come un puzzle con pezzi di forme diverse). D'altra parte, i modelli di intelligenza artificiale più potenti, chiamati Vision Transformer (ViT), sono come chef esperti abituati a lavorare solo con ingredienti tagliati in quadrati perfetti e uguali (come le immagini delle foto).

Se provi a forzare i dati del radar (il puzzle irregolare) dentro lo chef (il modello ViT) semplicemente tagliandoli o stirandoli per farli entrare, rovinerai l'ingrediente. Perderesti informazioni preziose, come la velocità o la direzione del movimento, proprio come se schiacciassi un uovo per farlo entrare in un buco troppo piccolo.

La soluzione: Hanno inventato un nuovo metodo chiamato ISA-ViT.
Immagina ISA-ViT come un magico adattatore di dimensioni. Invece di tagliare o schiacciare i dati del radar, questo adattatore:

Riempi i vuoti in modo intelligente (senza perdere informazioni).
Ricalibra la "mappa mentale" del modello (che sapeva già come funzionavano le immagini) per adattarla alla forma strana del radar.
Unisce due tipi di informazioni: la distanza (quanto è lontano il movimento) e la frequenza (quanto velocemente si muove). È come se un detective guardasse sia la foto del sospetto che la sua velocità di fuga per capire chi è.

I Risultati: Un Successo Straordinario

Grazie a questo nuovo metodo e al nuovo "libro di ricette" (ALERT), il sistema ha ottenuto risultati incredibili:

È stato molto più preciso (circa il 22% in più) rispetto ai metodi precedenti.
Riesce a distinguere con certezza se il guidatore è distratto con un'accuratezza del 97,35%.
Funziona bene anche se i dati arrivano in forme diverse, rendendolo robusto per l'uso reale.

In Sintesi

Questo studio è come se avessimo dato all'auto:

Un libro di istruzioni reale (ALERT) basato su esperienze vere, non simulate.
Un traduttore magico (ISA-ViT) che permette all'auto di capire i segnali radar senza distorcerli, anche se arrivano in forme strane.

L'obiettivo finale? Creare auto più sicure che possono avvisarti se stai per distrarti, proteggendo la tua privacy e funzionando anche di notte o con il maltempo, salvando potenzialmente vite umane. E la parte migliore? Hanno reso tutto pubblico, così altri ricercatori possono usare questi dati per costruire sistemi ancora più sicuri.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il distacco dal volante e le attività di guida distratte sono una delle principali cause di incidenti stradali fatali a livello globale. Sebbene esistano metodi per il riconoscimento delle attività del conducente (DAR) basati su telecamere, segnali acustici e WiFi, questi presentano limitazioni significative:

Privacy e condizioni ambientali: Le telecamere sollevano preoccupazioni sulla privacy e falliscono in condizioni di scarsa illuminazione.
Interferenze: I segnali RF basati sul WiFi operano nella banda ISM affollata (2.4 GHz), rischiando interferenze con altri dispositivi veicolari.
Mancanza di dati reali: Esiste una carenza di dataset su larga scala raccolti in condizioni di guida reali che coprano una vasta gamma di comportamenti distratti complessi. La maggior parte dei dataset esistenti proviene da ambienti simulati, che non catturano vibrazioni, condizioni stradali e dinamiche reali, limitando la generalizzabilità dei modelli.
Incompatibilità dei modelli: L'adattamento dei modelli avanzati come i Vision Transformer (ViT) ai dati radar IR-UWB è problematico. I dati UWB hanno dimensioni di input non standard e variabili rispetto alle immagini fisse (es. 224x224). Le tecniche di ridimensionamento naive (interpolazione) distorcono le informazioni specifiche del radar (spostamento Doppler, fase, attenuazione), mentre l'uso diretto di vettori di embedding posizionale (PEV) pre-addestrati su immagini può fallire a causa della geometria diversa dei dati radar.

2. Metodologia Proposta

Gli autori affrontano le sfide sopra menzionate attraverso due pilastri principali: la creazione di un nuovo dataset e lo sviluppo di un nuovo modello architetturale.

A. Il Dataset ALERT

È stato creato il dataset ALERT (Open Dataset), il primo dataset UWB raccolto in condizioni di guida reali.

Raccolta: I dati sono stati acquisiti utilizzando un radar IR-UWB (Xethru X4M06) montato sulla presa d'aria dell'auto, una posizione che non ostacola la visuale e si allinea con l'altezza del corpo del conducente.
Ambiente: La raccolta è avvenuta su due percorsi reali (urbano e campus) con diverse condizioni stradali (asfalto, sanpietrini, dossi, pendenze) per includere vibrazioni e interferenze realistiche.
Attività: Copre 7 attività: guida normale, rilassamento (autopilot), annuire (sonnolenza), fumare, bere, controllo del pannello centrale e uso dello smartphone.
Dati: Include 10.220 campioni (di 5 secondi ciascuno) da 9 volontari. Fornisce sia rappresentazioni Range-Time (dominio spaziale) che Frequency-Time (dominio Doppler/frequenza), permettendo analisi flessibili.

B. Il Modello ISA-ViT (Input-Size-Agnostic Vision Transformer)

Per superare la discrepanza tra le dimensioni dei dati UWB e i ViT pre-addestrati, gli autori propongono ISA-ViT.

Ridimensionamento senza perdita di informazioni: Invece di un semplice ridimensionamento (up/down-sampling) che distrugge i dettagli, ISA-ViT estende il lato più corto dell'input per renderlo quadrato e calcola dinamicamente la dimensione delle patch (patch size) in modo che il numero totale di patch rimanga 14x14. Questo preserva la sequenza originale dei vettori di embedding posizionale (PEV) pre-addestrati, evitando di doverli interpolare o tagliare in modo distruttivo.
Adattamento dei Kernel: I pesi del kernel CNN pre-addestrato (originariamente 16x16 per immagini RGB) vengono adattati alla nuova dimensione delle patch calcolata, utilizzando pooling medio o interpolazione a seconda dei casi, e i canali RGB vengono mediati in un singolo canale per i dati UWB.
Fusione di Dominio (Domain Fusion): Il modello utilizza una strategia di fusione che combina le caratteristiche estratte dal dominio del Range (spaziale) e della Frequenza (Doppler). Poiché il dominio del Range è più informativo per la comprensione del comportamento, mentre la frequenza fornisce caratteristiche complementari di movimento, viene introdotto un fattore di ponderazione apprendibile ( $\beta$ ) per bilanciare i due domini prima della concatenazione.

3. Contributi Chiave

ALERT Dataset: Il primo dataset UWB open-source raccolto in scenari di guida reali, con 10.220 campioni su 7 attività, fornendo dati sia nel dominio del tempo-distanza che tempo-frequenza.
ISA-ViT: Un nuovo framework Transformer che risolve il problema dell'input-size-agnosticism. Permette l'uso di ViT pre-addestrati su dati UWB di dimensioni variabili senza distorcere le informazioni spaziali o temporali critiche.
Strategia di Fusione: Una metodologia efficace per fondere le rappresentazioni Range e Frequency, migliorando la discriminazione tra attività visivamente simili (es. fumare vs bere).
Benchmarking Completo: Valutazione estesa di 8 algoritmi di apprendimento (CNN, RNN, Transformer) su diverse configurazioni (finestre temporali, dimensioni dei dati, fusione di dominio), fornendo linee guida per la ricerca futura.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti utilizzando il dataset ALERT e confrontati con il dataset RaDA (simulato).

Prestazioni Generali: ISA-ViT ha raggiunto un'accuratezza di classificazione complessiva del 76,28%, superando di 22,68% i metodi ViT esistenti che utilizzano ridimensionamento naive.
Rilevamento della Distrazione: La precisione nel rilevare specificamente le attività di guida distratta (escludendo la guida normale) è del 97,35%.
Confronto con altri modelli: ISA-ViT ha superato tutte le architetture CNN (GoogLeNet, ResNet, DenseNet, MobileNet) e RNN (LSTM) testate.
Impatto della Fusione: L'uso della fusione di dominio ha migliorato significativamente l'F1-score per tutte le attività (es. +13,69% per il controllo del pannello, +10,50% per bere), dimostrando che la combinazione di domini complementari è cruciale.
Robustezza: Il modello ha mostrato una varianza inferiore tra i diversi partecipanti rispetto ad altri modelli, indicando una maggiore consistenza.

5. Significato e Impatto

Questo lavoro rappresenta un passo fondamentale verso sistemi di rilevamento della distrazione alla guida più robusti e scalabili:

Privacy e Sicurezza: L'uso dell'IR-UWB garantisce la privacy (nessuna immagine o audio) e la resistenza alle interferenze, rendendolo ideale per l'uso in auto.
Standardizzazione: La pubblicazione del dataset ALERT e del codice di elaborazione stabilisce un nuovo benchmark per la ricerca DAR, permettendo confronti equi e riproducibili.
Innovazione Architetturale: La metodologia ISA-ViT offre una soluzione generale per l'adattamento di modelli Transformer pre-addestrati a dati non visivi con dimensioni variabili, un problema rilevante anche in altri campi oltre al radar.
Applicabilità Reale: Dimostrando l'efficacia in condizioni di guida reali (con vibrazioni e ostacoli), il lavoro sposta la ricerca DAR dagli ambienti simulati a scenari pratici, avvicinandosi alla commercializzazione di sistemi di sicurezza veicolare avanzati.

In sintesi, il paper combina un dataset realistico di alta qualità con un'architettura di deep learning innovativa per risolvere efficacemente il problema della distrazione alla guida, superando le limitazioni tecniche dei metodi precedenti.