PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un guardiano della sicurezza dentro l'auto che non dorme mai. Il suo compito è guardare il conducente e dire: "Stai guidando bene" oppure "Ehi, stai guardando il telefono o mangiando il panino?".

Il problema è che i "guardiani" più intelligenti (chiamati Transformer, modelli di intelligenza artificiale avanzati) sono come elefanti in una cristalleria: sono bravissimi a vedere tutto, ma sono così pesanti e lenti che non riescono a stare dentro l'elettronica di un'auto normale. Consumano troppa energia e si scaldano troppo.

Ecco come PO-GUISE+ risolve il problema, trasformando l'elefante in un falco agile.

1. Il Problema: Troppa "Rumore"

Quando un'auto registra un video dell'interno, ci sono migliaia di "pezzi" di immagine (chiamati token). La maggior parte di questi pezzi è inutile: è il sedile vuoto, il finestrino, il cielo che cambia.
I vecchi metodi provavano a guardare tutto per non perdere nulla, ma questo li rendeva lenti. Altri metodi provavano a buttare via pezzi a caso per velocizzare, ma rischiavano di buttare via proprio il pezzo importante (es. la mano che tiene il telefono).

2. La Soluzione: PO-GUISE+ (Il Guardiano con la Mappa)

PO-GUISE+ è un nuovo tipo di guardiano che ha due superpoteri:

Sa dove guardare la postura: Sa che il corpo del guidatore è importante.
Sa dove guardare gli oggetti: Sa che se il guidatore sta bevendo, deve guardare la bottiglia, non il sedile.

L'analogia della "Caccia al Tesoro":
Immagina di dover trovare un tesoro in una stanza piena di mobili.

Il metodo vecchio: Guarda ogni singolo centimetro della stanza. Lento e faticoso.
Il metodo intermedio: Guarda solo dove si muove la persona. Veloce, ma se la persona tiene il tesoro in mano, potrebbe non vederlo bene.
PO-GUISE+: Guarda la persona E guarda anche l'oggetto che sta toccando. È come se avesse una mappa che gli dice: "Non guardare il soffitto, guarda la mano che stringe la bottiglia!".

3. Come Funziona in Pratica?

Il sistema fa due cose intelligenti mentre guarda il video:

Taglia l'irrilevante: Se vede che un pezzo di video (un "token") non riguarda né il corpo del guidatore né l'oggetto con cui interagisce, lo butta via immediatamente. È come se un editor di video cancellasse tutti i fotogrammi noiosi prima di mostrare il film.
Unisce i simili: Se ci sono due pezzi di video molto simili (es. due fotogrammi consecutivi dove il guidatore è fermo), li unisce in uno solo per risparmiare spazio.

Grazie a questo, il modello deve elaborare molto meno informazioni (fino al 57% in meno!), ma rimane più preciso perché si concentra solo su ciò che conta davvero: il guidatore e ciò che sta facendo.

4. I Risultati: Un Supereroe per le Auto

I ricercatori hanno provato questo sistema su computer piccoli e potenti (come quelli che si usano nei droni o nelle auto moderne, chiamati Jetson).

Velocità: Riesce a guardare 33-57 video al secondo. È velocissimo, quasi in tempo reale.
Precisione: Sbaglia meno dei migliori sistemi attuali, anche quando è molto veloce.
Versatilità: Funziona bene su diversi tipi di auto e con diverse telecamere.

In Sintesi

PO-GUISE+ è come dare a un'auto un "cervello" che non solo vede, ma capisce cosa è importante. Invece di sprecare energia guardando tutto, sa esattamente dove puntare lo sguardo (sulla postura e sugli oggetti) per capire se il guidatore è distratto.

Questo significa che in futuro potremo avere auto più sicure, che ci avvertono se stiamo per distrarci, senza bisogno di computer enormi e costosi, ma usando piccoli chip efficienti già pronti per la strada.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La distrazione alla guida è una delle principali cause di incidenti stradali e morti in Europa. Sebbene i modelli basati su Transformer (in particolare i Video Transformer) abbiano raggiunto prestazioni eccezionali nel riconoscimento delle azioni umane, la loro applicazione pratica nei sistemi di monitoraggio del conducente (DMS) a bordo veicolo è limitata dall'alto costo computazionale.
La complessità quadratica dei Transformer rispetto al numero di token spaziali e temporali rende difficile l'implementazione su hardware embedded con risorse limitate (come le schede Jetson), dove è necessario bilanciare accuratezza, latenza e consumo energetico. Le tecniche esistenti di selezione dei token (token selection) spesso ignorano le interazioni specifiche con gli oggetti, cruciali per distinguere le azioni di distrazione (es. usare il telefono vs. bere una bottiglia).

2. Metodologia: PO-GUISE+

Gli autori propongono PO-GUISE+, un'estensione del loro lavoro precedente (PO-GUISE), che introduce un metodo di selezione dei token guidato semanticamente per i video Transformer, adattato specificamente al dominio della guida.

Architettura e Approccio Multi-Task

Il modello è basato su encoder Video Transformer pre-addestrati (come VideoMAEv2 e InternVideo2) e adotta un approccio multi-task che non richiede rilevatori esterni durante l'inferenza. I compiti principali sono:

Classificazione dell'azione di distrazione: Identificare se il conducente è distratto e in che modo.
Stima della posa del conducente: Localizzare i punti chiave del corpo (body landmarks).
Localizzazione dell'oggetto interattivo: Identificare la posizione e il movimento dell'oggetto con cui il conducente interagisce (es. telefono, volante, bottiglia).

Gestione dei Token e Heatmap

Input: Il video viene convertito in token visivi spaziotemporali.
Token Heatmap: Il modello introduce token apprendibili ( $X_{hm}$ ) che generano heatmap temporali. A differenza delle heatmap statiche, queste rappresentano il movimento cumulativo di giunti corporei e oggetti su tutto il clip video.
Selezione dei Token (Token Selection): Il cuore di PO-GUISE+ è un modulo a due fasi integrato nel Transformer:
1. Potatura (Pruning): Vengono scartati i token visivi che non prestano sufficiente attenzione ai token di classe, alla posa e, novità fondamentale, all'oggetto interattivo.
2. Fusione (Merging): I token scartati vengono fusi con quelli simili per preservare le informazioni critiche, minimizzando la perdita di dati.
Guida Semantica: La selezione è guidata dalle heatmap di posa e oggetto. Questo permette al modello di mantenere i token rilevanti per l'interazione conducente-oggetto anche a tassi di mantenimento dei token (token keep rate) molto bassi.

Addestramento

Il modello viene addestrato minimizzando una funzione di perdita congiunta che combina:

Cross-Entropy Loss ( $L_{CE}$ ): Per la classificazione dell'azione.
Mean Squared Error ( $L_{MSE}$ ): Per la previsione delle heatmap (posa e oggetto), scalata logaritmicamente per bilanciare i gradienti con l'uso di Nash-MTL (una tecnica di bilanciamento dinamico dei gradienti).

3. Contributi Chiave

Integrazione Multi-Task Senza Rilevatori Esterni: È il primo approccio che integra riconoscimento della distrazione, stima della posa e localizzazione degli oggetti in un unico Transformer video, senza dipendere da modelli esterni (come ViTPose o YOLO) durante l'inferenza. Questi strumenti sono usati solo per generare le etichette di addestramento (pseudo-labels).
Guida basata sull'Oggetto: L'innovazione principale è l'uso delle informazioni sull'oggetto interattivo per guidare la selezione dei token. Questo risolve il limite delle tecniche precedenti che ignoravano le interazioni con gli oggetti, portando a una selezione subottimale dei token in scenari di distrazione.
Efficienza Estrema: Il metodo riduce drasticamente i requisiti computazionali (GFLOPs) mantenendo o migliorando l'accuratezza, rendendo possibile l'esecuzione su hardware embedded.
Benchmark Realistici: Valutazione estesa su una piattaforma NVIDIA Jetson Orin NX, dimostrando la fattibilità del deployment in tempo reale.

4. Risultati Sperimentali

Il modello è stato valutato su tre dataset principali: Drive&Act, 100-Driver e 3MDAD.

Prestazioni di Accuratezza:
- Su Drive&Act, PO-GUISE+ raggiunge un'accuratezza macro del 70.35% (con VideoMAEv2) e 71.52% (con InternVideo2), superando lo stato dell'arte (es. TransDARC, DRVMon-VM) con meno GFLOPs.
- Su 100-Driver, ottiene il 93.54%, superando il baseline VideoMAEv2-base del 2.24%.
- Su 3MDAD, raggiunge il 93.42%, migliorando di oltre il 9% rispetto al metodo precedente MIFI, riducendo al contempo i GFLOPs del 28%.
Efficienza Computazionale:
- Rispetto al modello base VideoMAEv2, PO-GUISE+ riduce i GFLOPs del 30% (da 360 a 251) mantenendo un'accuratezza superiore.
- In configurazioni altamente efficienti (keep rate basso), la riduzione dei GFLOPs può arrivare al 57% con una perdita di accuratezza trascurabile (<0.5%).
Performance su Jetson:
- Il modello ottimizzato esegue 33 frame al secondo (FPS) su Jetson Orin NX utilizzando solo 3.8 GB di memoria (contro i 5.6 GB del modello base con heatmap), permettendo un'elaborazione in tempo reale.
- Una versione più leggera (ViT-S) raggiunge 105 FPS con un consumo di memoria di 0.65 GB, superando di 11 punti percentuali le CNN leggere (I3D) con un costo di memoria simile.

5. Significato e Impatto

Il lavoro di PO-GUISE+ rappresenta un passo significativo verso l'implementazione di sistemi di monitoraggio del conducente sicuri, precisi ed efficienti direttamente a bordo veicolo.

Sicurezza Stradale: Fornisce una tecnologia fondamentale per ridurre gli incidenti causati da distrazione, migliorando la prevedibilità e l'affidabilità dei sistemi di guida autonoma e assistita.
Democratizzazione dell'AI su Edge: Dimostra che i potenti modelli Transformer possono essere adattati per funzionare su hardware embedded economico (Jetson), superando il collo di bottiglia della complessità computazionale.
Nuovo Paradigma di Selezione: Introduce un nuovo standard per la selezione dei token nei video, dimostrando che l'integrazione di informazioni semantiche specifiche del dominio (come gli oggetti interagenti) è superiore alle strategie generiche di pruning.

In sintesi, PO-GUISE+ risolve il compromesso tra accuratezza ed efficienza, rendendo i sistemi di rilevamento della distrazione basati su Transformer una realtà pratica per l'industria automobilistica.