GazeMoE: Perception of Gaze Target with Mixture-of-Experts

Il paper presenta GazeMoE, un nuovo framework end-to-end che utilizza un meccanismo Mixture-of-Experts su modelli visivi pre-addestrati per stimare con stato dell'arte i target dello sguardo umano integrando segnali multi-modali e affrontando lo sbilanciamento delle classi.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li

Pubblicato 2026-03-09
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere in una stanza piena di persone e cerchi di capire dove sta guardando qualcuno. È facile se la persona ti guarda dritto negli occhi, ma diventa un rompicapo se guarda di lato, se c'è un ostacolo, se è un bambino che si muove troppo, o se guarda qualcosa che si trova fuori dalla foto (e quindi non lo vedi).

Fino a poco tempo fa, i computer facevano fatica a risolvere questo rompicapo perché usavano "un solo cervello" per analizzare tutte le situazioni. Se il computer era bravo a capire gli occhi, spesso si perdeva quando doveva guardare la postura della testa o il contesto della scena.

La Soluzione: GazeMoE (Il "Comitato di Esperti")

Gli autori di questo studio hanno creato un nuovo sistema chiamato GazeMoE. Per capire come funziona, immagina invece di un singolo detective che deve fare tutto da solo, di avere un comitato di esperti riuniti in una stanza.

Ecco come funziona la magia, passo dopo passo:

1. Il "Libro di Conoscenza" Congelato (DINOv2)

Prima di tutto, il sistema usa un cervello artificiale gigante e già molto intelligente (chiamato DINOv2), che è stato addestrato guardando milioni di immagini. È come se avessimo un libro di testo enciclopedico sulla visione umana che non dobbiamo riscrivere, ma solo consultare. Questo libro ci dice già dove sono gli occhi, la testa e gli oggetti nella stanza.

2. Il Sistema "Mixture-of-Experts" (MoE)

Qui entra in gioco l'idea geniale. Invece di far leggere tutto il libro a un solo assistente, il sistema ha un responsabile (il "gatekeeper") che decide quale esperto chiamare per ogni singola situazione.

Immagina quattro esperti specializzati:

  • L'Esperto Occhi: Guarda solo le pupille e le palpebre.
  • L'Esperto Testa: Analizza l'angolo del collo e la direzione dello sguardo.
  • L'Esperto Mani/Gesti: Osserva se la persona sta indicando qualcosa.
  • L'Esperto Contesto: Guarda la stanza intera per capire cosa c'è di interessante.

Come funziona nella pratica?

  • Se la persona ha gli occhi coperti dalle mani, il responsabile non chiama l'Esperto Occhi (che sarebbe confuso), ma chiama l'Esperto Testa e l'Esperto Contesto.
  • Se la persona è un bambino che non guarda in camera, il responsabile attiva gli esperti che capiscono i movimenti strani.
  • Il vantaggio: Il sistema non spreca energia analizzando tutto con tutti gli esperti. Ne attiva solo i due o tre più utili per quel momento specifico. È come avere un'auto ibrida che usa la batteria elettrica in città e il motore a benzina in autostrada: efficiente e potente.

3. Imparare dagli Errori (La Bilancia)

C'è un altro problema: nei dati reali, le persone guardano spesso cose che non sono nella foto (fuori campo). I vecchi computer tendevano a ignorare queste situazioni perché erano meno frequenti nei dati di addestramento.

GazeMoE usa una tecnica speciale (chiamata Focal Loss) che è come un insegnante severo ma giusto: quando il computer sbaglia a prevedere dove guarda qualcuno (specialmente se è una situazione rara o difficile), l'insegnante gli fa fare più esercizi su quel caso specifico. In questo modo, il sistema impara a non ignorare le situazioni "fuori campo".

4. Allenamento con "Occhiali da Sole" e "Filtri" (Augmentation)

Per rendere il sistema robusto, gli autori lo hanno allenato mostrandogli immagini modificate: a volte più scure, a volte con colori cambiati, a volte ritagliate in modo strano. È come se allenassimo un atleta facendogli correre sotto la pioggia, col vento e con gli occhiali da sole: quando poi dovrà correre in una giornata di sole perfetto, sarà invincibile.

I Risultati: Perché è speciale?

Il paper mostra che GazeMoE è il migliore al mondo (State-of-the-Art) su diversi test:

  • Precisione: Capisce esattamente dove la persona sta guardando, anche in scenari complessi come sport all'aperto o pubblicità TV.
  • Adattabilità: Funziona bene anche con immagini distorte (come quelle delle telecamere a 360 gradi) o con bambini, situazioni dove i vecchi sistemi fallivano.
  • Velocità: Nonostante sia intelligente, è veloce. Può analizzare circa 13 immagini al secondo, abbastanza per essere usato in tempo reale, ad esempio per far capire a un robot umanoide a chi sta parlando o cosa sta guardando.

In sintesi

GazeMoE è come avere un team di detective specializzati che lavorano insieme in modo intelligente. Invece di usare un approccio "taglia e incolla" rigido, il sistema sceglie dinamicamente gli strumenti giusti per capire dove sta guardando una persona, anche se la situazione è confusa, oscura o fuori dal campo visivo della telecamera. È un passo avanti fondamentale per far capire ai robot e alle intelligenze artificiali cosa pensiamo e cosa ci interessa guardare.