SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

Each language version is independently generated for its own context, not a direct translation.

🎨 Il Problema: Come "leggiamo" con gli occhi?

Immagina di entrare in un museo e di fronte a te c'è un capolavoro antico. I tuoi occhi non si fermano su tutto il quadro allo stesso tempo. Fanno dei piccoli salti rapidi (chiamati saccadi) e si fermano su certi punti (le fissazioni) per assorbire i dettagli. Questo percorso che i tuoi occhi fanno è chiamato scanpath.

Il problema è che ogni persona guarda un quadro in modo leggermente diverso. Se chiedi a 10 amici di guardare lo stesso quadro, faranno 10 percorsi diversi. Per un computer, prevedere questi percorsi è difficile perché non è una cosa matematica fissa, ma dipende da come il cervello umano decide cosa è interessante.

🤖 La Soluzione: SPGen, il "Pittore Digitale"

Gli autori hanno creato un'intelligenza artificiale chiamata SPGen. Immagina SPGen non come un robot rigido, ma come un giovane apprendista pittore che sta imparando a guardare i quadri.

Ecco come funziona, passo dopo passo:

1. L'Apprendista che guarda i paesaggi (Il Modello Base)

Prima di imparare a guardare i quadri d'arte, l'apprendista ha studiato milioni di foto di paesaggi naturali (alberi, cani, strade). In queste foto, sa già che gli occhi umani tendono a guardare certe cose (come un viso o un oggetto brillante).

L'analogia: È come se l'apprendista avesse letto un manuale di istruzioni su "come guardare il mondo reale".

2. Il Grande Salto: Dal Paesaggio al Museo (Adattamento di Dominio)

Qui arriva il trucco magico. Se mostri all'apprendista un quadro di Van Gogh, lui potrebbe fare confusione. I quadri d'arte hanno colori, luci e composizioni diverse dalle foto normali.
Per risolvere questo, gli autori usano una tecnica chiamata Adattamento di Dominio Non Supervisionato.

L'analogia: Immagina di mettere all'apprendista degli occhiali speciali (uno strato di rete neurale con un "inversione del gradiente"). Questi occhiali lo costringono a dimenticare le differenze tra "foto di strada" e "quadri d'arte" e a concentrarsi solo su ciò che è universale (ciò che attira l'attenzione in entrambi i mondi). Così, l'apprendista impara a trasferire le sue conoscenze dal mondo reale ai musei senza che nessuno gli insegni manualmente come guardare i quadri.

3. La "Salsiccia del Caso" (Generazione Stocastica)

Questo è il punto più geniale. Se l'IA fosse un robot perfetto, guarderebbe sempre lo stesso punto del quadro ogni volta. Ma gli umani non sono robot! A volte guardiamo un po' più a sinistra, a volte più a destra.
SPGen introduce un elemento di casualità (rumore casuale).

L'analogia: Immagina di avere un dado (o un "temperatura" che puoi regolare).
- Se lanci il dado con un valore basso (temperatura bassa), l'apprendista è molto concentrato e guarda quasi sempre al centro o sui punti più evidenti.
- Se alzi il valore del dado (temperatura alta), l'apprendista diventa più "disperato" o curioso: i suoi occhi saltano in giro per tutto il quadro, esplorando aree diverse.
  Questo permette al computer di generare molti percorsi diversi per lo stesso quadro, proprio come farebbero 10 persone diverse.

4. La Bussola e il Filtro (Bias e Selettore)

Il modello ha anche una "bussola" interna (chiamata Gaussian Prior) che sa che gli umani tendono a guardare un po' più al centro del quadro che ai bordi. Inoltre, ha un "filtro" che decide quando fermarsi e quando saltare, creando percorsi di lunghezza variabile, non sempre uguali.

🏆 I Risultati: Cosa ha scoperto?

Gli autori hanno fatto dei test:

Su foto normali: SPGen è bravissimo, batte molti altri modelli esistenti.
Sui quadri d'arte: Senza gli "occhiali speciali" (adattamento di dominio), il modello faceva errori grossolani. Con gli occhiali, ha imparato a guardare i quadri quasi come un umano, individuando i dettagli importanti anche in stili artistici molto diversi (dal Rinascimento all'arte cinese).

💡 Perché è importante?

Questa ricerca non serve solo a fare esperimenti. Serve a:

Preservare la cultura: Capire come le persone guardano l'arte ci aiuta a capire cosa rende un'opera "bella" o significativa.
Musei Virtuali: In futuro, potremo creare tour virtuali dove il computer guida i tuoi occhi attraverso un museo digitale, mostrandoti esattamente ciò che un esperto o un gruppo di persone troverebbe interessante.
Restauro: Sapere dove guardiamo aiuta a capire quali parti di un quadro sono più importanti da restaurare.

In sintesi

SPGen è un'intelligenza artificiale che ha imparato a guardare i quadri d'arte prendendo lezioni dalle foto di tutti i giorni, usando degli "occhiali magici" per adattarsi allo stile artistico, e lanciando un dado per decidere se essere concentrato o esplorativo. Il risultato? Un computer che "guarda" l'arte quasi come faremmo noi.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La comprensione dell'attenzione visiva umana è fondamentale per la preservazione e l'analisi del patrimonio culturale, in particolare per le opere pittoriche. Tuttavia, modellare il comportamento oculare (scanpath) sulle opere d'arte presenta sfide significative:

Divario di Dominio (Domain Gap): I modelli esistenti sono spesso addestrati su immagini di scene naturali (fotografie), ma falliscono nel generalizzare su dipinti, che possiedono caratteristiche estetiche, strutturali e semantiche diverse.
Natura Stocastica: L'attenzione visiva umana è intrinsecamente stocastica e soggettiva; lo stesso stimolo può generare percorsi oculari diversi tra individui o nello stesso individuo in momenti diversi. I modelli deterministici tradizionali non riescono a catturare questa variabilità.
Mancanza di Dati Etichettati: Esiste una scarsità di dataset di dipinti con tracciati oculari (eye-tracking) annotati, rendendo difficile l'addestramento diretto di modelli specifici per l'arte.

2. Metodologia: SPGen

Gli autori propongono SPGen, un nuovo modello di deep learning basato su una Rete Neurale Fully Convolutional (FCNN) progettata per generare scanpath (sequenze di punti di fissazione e saccadi) partendo da un'immagine.

L'architettura si compone dei seguenti elementi chiave:

Estrattore di Caratteristiche: Utilizza MobileNet come backbone per estrarre efficientemente le caratteristiche visive dall'immagine di input, riducendo il carico computazionale.
Mappe di Priorità Apprendibili (Learnable Domain Prior Bias Maps): Vengono introdotte mappe di bias basate su distribuzioni Gaussiane (per modellare il "center bias", ovvero la tendenza umana a guardare il centro dell'immagine). A differenza dei metodi statici, queste mappe sono apprendibili e concatenate alle feature estratte, permettendo al modello di adattarsi alle specifiche caratteristiche del dominio (es. arte vs natura).
Selettore di Fissazione (Fixation Selector): Un modulo che utilizza pooling globale e strati fully connected per generare una maschera binaria. Questo componente permette di selezionare dinamicamente quali punti di fissazione includere nello scanpath, consentendo la generazione di scanpath di lunghezza variabile.
Generazione Stocastica: Per catturare la variabilità umana, il modello introduce un vettore latente casuale ( $L$ ) modulato da un parametro di temperatura ( $T$ ). Questo permette di generare diversi scanpath validi per la stessa immagine, simulando l'incertezza e la soggettività dell'osservazione umana.
Adattamento di Dominio Non Supervisionato (Unsupervised Domain Adaptation - UDA): Per colmare il divario tra scene naturali e dipinti senza utilizzare dati etichettati sui dipinti, il modello impiega una Gradient Reversal Layer (GRL).
- Un classificatore di dominio tenta di distinguere se un'immagine proviene da scene naturali o da dipinti.
- La GRL inverte il gradiente durante la backpropagation, costringendo l'estrattore di feature a imparare una rappresentazione condivisa che è indistinguibile tra i due domini, eliminando le specificità di dominio non rilevanti per il compito di previsione.

3. Contributi Chiave

Modello Deep Learning Efficiente: Proposta di un'architettura FCNN leggera (basata su MobileNet) per la previsione di scanpath.
Generazione Stocastica: Integrazione di un meccanismo di rumore e temperatura per generare molteplici scanpath plausibili per lo stesso stimolo, riflettendo la natura soggettiva dell'attenzione.
Adattamento di Dominio per l'Arte: Applicazione innovativa dell'adattamento di dominio non supervisionato per trasferire conoscenze dalle scene naturali ai dipinti, migliorando le prestazioni senza bisogno di dati di eye-tracking etichettati per le opere d'arte.
Selettore di Fissazione Dinamico: Un modulo che permette la generazione di scanpath di lunghezza variabile, superando le limitazioni dei modelli a lunghezza fissa.
Validazione Estensiva: Test approfonditi su dataset naturali (Salicon, MIT1003) e dataset pittorici (Le Meur, AVAtt).

4. Risultati Sperimentali

Il modello è stato valutato utilizzando metriche standard per la similarità degli scanpath (MultiMatch, NSS, Congruency).

Su Scene Naturali (Salicon e MIT1003): SPGen ha ottenuto risultati all'avanguardia, superando o competendo con modelli come PathGAN, SALYPATH e Le Meur. In particolare, ha ottenuto il punteggio migliore nella metrica NSS (Normalized Scanpath Saliency) su Salicon, indicando un'ottima allineamento con le mappe di salienza.
Su Dipinti (Le Meur e AVAtt):
- L'applicazione dell'adattamento di dominio ha portato a un miglioramento significativo delle prestazioni.
- Sul dataset Le Meur, il punteggio NSS è aumentato da 1.3620 (senza DA) a 1.5093 (con DA).
- Sul dataset AVAtt, l'adattamento ha migliorato tutte le metriche, inclusi Shape, Position, MM Score e Congruency, dimostrando che il modello riesce a generalizzare su stili artistici diversi (dal Rinascimento all'arte cinese).
Analisi della Temperatura: Gli esperimenti hanno mostrato che valori di temperatura più bassi (meno rumore) producono scanpath più precisi e allineati alle regioni salienti, mentre temperature più alte aumentano la diversità degli output ma riducono leggermente la precisione spaziale.

5. Significato e Implicazioni

Il lavoro di SPGen rappresenta un passo avanti significativo nell'intersezione tra intelligenza artificiale e patrimonio culturale:

Preservazione Digitale: Fornisce uno strumento potente per analizzare come le persone interagiscono con le opere d'arte, aiutando a comprendere la percezione visiva storica e culturale.
Musei Virtuali e Realtà Aumentata: La capacità di generare scanpath realistici su dipinti può migliorare le esperienze di visita virtuale, simulando l'attenzione di un esperto o di un visitatore medio.
Generalizzazione Senza Dati Etichettati: Dimostra che è possibile adattare modelli complessi a domini specifici (come l'arte) utilizzando tecniche di adattamento di dominio non supervisionato, aggirando il problema della mancanza di grandi dataset annotati per l'eye-tracking su opere d'arte.

In conclusione, SPGen non solo supera gli stati dell'arte nella previsione degli scanpath, ma offre una soluzione robusta e adattabile per l'analisi visiva del patrimonio culturale, aprendo la strada a future applicazioni nell'analisi di monumenti, sculture e ambienti 3D virtuali.