PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Il paper presenta PO-GUISE+, un trasformatore video multi-task che migliora l'efficienza computazionale e l'accuratezza nel riconoscimento delle azioni distratte alla guida selezionando i token in base alla postura del conducente e agli oggetti interagenti, superando gli attuali metodi sullo stato dell'arte su diversi dataset e piattaforme embedded.

Ricardo Pizarro, Roberto Valle, Rafael Barea, Jose M. Buenaposada, Luis Baumela, Luis Miguel Bergasa

Pubblicato 2026-03-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un guardiano della sicurezza dentro l'auto che non dorme mai. Il suo compito è guardare il conducente e dire: "Stai guidando bene" oppure "Ehi, stai guardando il telefono o mangiando il panino?".

Il problema è che i "guardiani" più intelligenti (chiamati Transformer, modelli di intelligenza artificiale avanzati) sono come elefanti in una cristalleria: sono bravissimi a vedere tutto, ma sono così pesanti e lenti che non riescono a stare dentro l'elettronica di un'auto normale. Consumano troppa energia e si scaldano troppo.

Ecco come PO-GUISE+ risolve il problema, trasformando l'elefante in un falco agile.

1. Il Problema: Troppa "Rumore"

Quando un'auto registra un video dell'interno, ci sono migliaia di "pezzi" di immagine (chiamati token). La maggior parte di questi pezzi è inutile: è il sedile vuoto, il finestrino, il cielo che cambia.
I vecchi metodi provavano a guardare tutto per non perdere nulla, ma questo li rendeva lenti. Altri metodi provavano a buttare via pezzi a caso per velocizzare, ma rischiavano di buttare via proprio il pezzo importante (es. la mano che tiene il telefono).

2. La Soluzione: PO-GUISE+ (Il Guardiano con la Mappa)

PO-GUISE+ è un nuovo tipo di guardiano che ha due superpoteri:

  1. Sa dove guardare la postura: Sa che il corpo del guidatore è importante.
  2. Sa dove guardare gli oggetti: Sa che se il guidatore sta bevendo, deve guardare la bottiglia, non il sedile.

L'analogia della "Caccia al Tesoro":
Immagina di dover trovare un tesoro in una stanza piena di mobili.

  • Il metodo vecchio: Guarda ogni singolo centimetro della stanza. Lento e faticoso.
  • Il metodo intermedio: Guarda solo dove si muove la persona. Veloce, ma se la persona tiene il tesoro in mano, potrebbe non vederlo bene.
  • PO-GUISE+: Guarda la persona E guarda anche l'oggetto che sta toccando. È come se avesse una mappa che gli dice: "Non guardare il soffitto, guarda la mano che stringe la bottiglia!".

3. Come Funziona in Pratica?

Il sistema fa due cose intelligenti mentre guarda il video:

  • Taglia l'irrilevante: Se vede che un pezzo di video (un "token") non riguarda né il corpo del guidatore né l'oggetto con cui interagisce, lo butta via immediatamente. È come se un editor di video cancellasse tutti i fotogrammi noiosi prima di mostrare il film.
  • Unisce i simili: Se ci sono due pezzi di video molto simili (es. due fotogrammi consecutivi dove il guidatore è fermo), li unisce in uno solo per risparmiare spazio.

Grazie a questo, il modello deve elaborare molto meno informazioni (fino al 57% in meno!), ma rimane più preciso perché si concentra solo su ciò che conta davvero: il guidatore e ciò che sta facendo.

4. I Risultati: Un Supereroe per le Auto

I ricercatori hanno provato questo sistema su computer piccoli e potenti (come quelli che si usano nei droni o nelle auto moderne, chiamati Jetson).

  • Velocità: Riesce a guardare 33-57 video al secondo. È velocissimo, quasi in tempo reale.
  • Precisione: Sbaglia meno dei migliori sistemi attuali, anche quando è molto veloce.
  • Versatilità: Funziona bene su diversi tipi di auto e con diverse telecamere.

In Sintesi

PO-GUISE+ è come dare a un'auto un "cervello" che non solo vede, ma capisce cosa è importante. Invece di sprecare energia guardando tutto, sa esattamente dove puntare lo sguardo (sulla postura e sugli oggetti) per capire se il guidatore è distratto.

Questo significa che in futuro potremo avere auto più sicure, che ci avvertono se stiamo per distrarci, senza bisogno di computer enormi e costosi, ma usando piccoli chip efficienti già pronti per la strada.