DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Il paper introduce DriverGaze360, un nuovo dataset su larga scala con campo visivo a 360° e il relativo metodo DriverGaze360-Net, che superano i limiti delle soluzioni esistenti per la previsione dell'attenzione del guidatore grazie a una visione panoramica completa e a una guida a livello di oggetto.

Shreedhar Govil, Didier Stricker, Jason Rambach

Pubblicato 2026-03-06
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di guidare un'auto. Quando sei al volante, non guardi solo dritto davanti a te. Guardi gli specchietti laterali, controlli il retro, lanci un'occhiata al semaforo a sinistra e ti assicuri che quel pedone non stia per attraversare di corsa. È un gioco di "occhi che ballano" in tutte le direzioni.

Fino ad oggi, però, i computer che cercano di capire dove guarda un guidatore avevano un problema enorme: avevano gli occhi bendati.

1. Il Problema: Gli Occhi Bendati

Tutti i sistemi precedenti per studiare l'attenzione dei guidatori guardavano solo attraverso il parabrezza anteriore. Era come se provassimo a capire cosa sta pensando un giocatore di calcio guardando solo la parte centrale del campo, ignorando completamente le ali e la porta.
Se un guidatore deve cambiare corsia o controllare un ciclista che arriva da dietro, i vecchi sistemi non vedevano nulla. Erano come una telecamera fissa che guarda solo il muro di fronte, perdendo tutto il resto della scena.

2. La Soluzione: DriverGaze360 (La Sfinge a 360°)

Gli autori di questo studio hanno creato qualcosa di rivoluzionario: DriverGaze360.
Immagina di mettere un guidatore in una macchina virtuale (un simulatore di guida molto realistico) e di circondarlo con cinque schermi che formano un cerchio perfetto.

  • Tre schermi davanti.
  • Due schermi laterali che fungono da specchietti retrovisori.

In questo modo, il guidatore vede tutto: davanti, dietro, a destra e a sinistra. Hanno registrato 19 persone mentre guidavano in questa "bolla" virtuale, per circa 9 ore totali.
Il risultato? Un'enorme libreria di dati (quasi un milione di immagini) che mostra esattamente dove guardano gli occhi umani in ogni singolo istante, anche quando guardano dietro le spalle per cambiare corsia. È la prima volta che abbiamo una mappa completa di "dove guardiamo" in 360 gradi.

3. Il Cervello: DriverGaze360-Net (Il Detective con una Lente Magica)

Avere i dati è un passo, ma farli capire al computer è un altro. Hanno creato un'intelligenza artificiale chiamata DriverGaze360-Net.
Per farla semplice, immagina due metodi diversi per insegnare a un bambino a riconoscere le cose:

  • Metodo vecchio: "Guarda questa foto e dimmi dove guarda il guidatore". Il bambino fa fatica perché la foto è enorme e piena di dettagli inutili (alberi, cielo, asfalto).
  • Il metodo nuovo (DriverGaze360-Net): "Guarda questa foto. Prima, cerca e colora di rosso le cose importanti (auto, pedoni, semafori). Poi, dimmi dove guarda il guidatore".

L'intelligenza artificiale ha un "assistente" speciale (chiamato testa di segmentazione semantica). Invece di cercare di indovinare il punto di sguardo nel vuoto, prima impara a dire: "Ehi, lì c'è un pedone, qui c'è un'auto". Una volta che sa cosa c'è nella scena, diventa molto più facile capire dove il guidatore sta guardando. È come se l'AI avesse una lente magica che evidenzia solo le cose importanti, rendendo il compito di prevedere lo sguardo molto più facile e preciso.

4. Perché è importante?

Perché le auto a guida autonoma devono capire non solo la strada, ma anche l'intenzione umana.
Se un'auto autonoma sa che il guidatore umano sta guardando di lato per controllare un ciclista, può capire che il guidatore sta per cambiare corsia o frenare. Questo rende le strade più sicure e le auto autonome più "umane" e comprensibili.

In sintesi

  • Prima: Guardavamo solo dritto davanti, perdendo il 50% della realtà.
  • Ora: Abbiamo creato una "palestra virtuale" a 360 gradi dove registriamo esattamente dove guardano i guidatori.
  • Il trucco: Abbiamo insegnato al computer a non guardare tutto il panorama, ma a focalizzarsi prima sugli oggetti importanti (pedoni, auto) per capire meglio dove stanno guardando le persone.

È come passare da una mappa disegnata su un foglio di carta strappato a un globo terrestre completo e interattivo: finalmente possiamo vedere tutto il mondo che ci circonda, non solo quello che abbiamo davanti al naso.