SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je naar een prachtig schilderij in een museum kijkt. Je ogen bewegen niet willekeurig; ze springen van het ene interessante detail naar het andere. Deze route die je ogen afleggen, noemen onderzoekers een "scanpath".

Het artikel dat we bespreken, introduceert een slimme nieuwe computerprogramma genaamd SPGen. Dit programma is een soort "oog-voorspeller". Het probeert te raden hoe een mens naar een schilderij zou kijken, zelfs zonder dat er echt iemand naar kijkt.

Hier is hoe het werkt, uitgelegd met simpele vergelijkingen:

1. Het probleem: Foto's vs. Schilderijen

Stel je voor dat je een computer hebt getraind om te begrijpen hoe mensen kijken naar natuurlijke foto's (zoals een hond in een park of een drukke straat). Die computer is daar heel goed in geworden.

Maar als je diezelfde computer nu een schilderij laat zien (bijvoorbeeld een oud meesterwerk van Rembrandt), raakt hij in de war. Waarom? Omdat een schilderij er heel anders uitziet dan een foto. De kleuren, de stijl en de compositie zijn anders. Het is alsof je iemand die perfect Nederlands spreekt, plotseling laat proberen om in het Chinees te praten zonder les te hebben gehad. De computer "weet" niet hoe hij naar kunst moet kijken.

2. De oplossing: Een slimme vertaler (Domain Adaptation)

Om dit op te lossen, hebben de onderzoekers een slimme truc bedacht, genaamd Unsupervised Domain Adaptation.

De Analogie: Stel je voor dat de computer een student is die al jarenlang geoefend heeft met het lezen van kranten (natuurlijke foto's). Nu moet hij echter gedichten van dichters uit de 17e eeuw (schilderijen) lezen.
De Truc: In plaats van de student opnieuw te laten beginnen, geven ze hem een "geheime vertaler" (de Gradient Reversal Layer). Deze vertaler zorgt ervoor dat de student leert wat er gemeenschappelijk is tussen kranten en gedichten (bijvoorbeeld: waar zijn de belangrijke woorden? Waar ligt de focus?), en negeert wat specifiek is voor de ene of de andere vorm (zoals de lettertype van de krant versus de inkt van de schilder).
Het Resultaat: De computer leert zo dat hij zijn kennis van foto's kan gebruiken om ook naar schilderijen te kijken, zonder dat hij duizenden voorbeelden van menselijke blikken op schilderijen nodig heeft.

3. Het toevals-element: Waarom iedereen anders kijkt

Als jij en ik naar hetzelfde schilderij kijken, kijken we niet precies op dezelfde manier. Jij kijkt misschien eerst naar het gezicht, ik eerst naar de achtergrond. Dit heet stochasticiteit (toeval).

Het Probleem: Computers zijn meestal heel strikt en voorspelbaar. Als je ze hetzelfde beeld geeft, geven ze altijd hetzelfde antwoord. Dat is niet natuurlijk voor menselijke ogen.
De Oplossing: De onderzoekers hebben een "ruis-generator" toegevoegd. Denk hierbij aan een dobbelsteen of een willekeurige windvlaag.
De Temperatuur: Ze hebben een knop genaamd "Temperatuur".
- Lage temperatuur: De computer is heel rustig en kiest de meest logische plek om te kijken (vaak het midden).
- Hoge temperatuur: De computer is wat "dronkener" of speelser. Hij kijkt naar meer verschillende plekken, wat meer lijkt op hoe echte mensen soms dwalen met hun blik. Hierdoor kan het programma voor één schilderij meerdere verschillende, maar toch logische, kijkroutes voorspellen.

4. Wat levert dit op?

Dit programma is niet alleen leuk voor de wetenschap, maar heeft een groot doel: het behoud van cultureel erfgoed.

Musea: Musea kunnen dit gebruiken om te begrijpen welke onderdelen van een schilderij mensen het meest aantrekken.
Restauratie: Het kan helpen bij het restaureren van oude kunst, door te weten waar de aandacht van de kijker naartoe gaat.
Virtual Reality: Het kan helpen bij het maken van betere virtuele museumbezoeken, waarbij de camera of de beleving automatisch meebeweegt met hoe een mens zou kijken.

Samenvattend

SPGen is een slimme computer die leert hoe mensen naar kunst kijken. Hij is getraind op gewone foto's, maar heeft een slimme "vertaler" gekregen om ook naar schilderijen te kijken. Bovendien heeft hij een knop voor "toeval", zodat hij niet altijd op dezelfde manier kijkt, maar net als een mens soms eens een andere kant op slaat. Hierdoor kunnen we kunst beter begrijpen en bewaren voor de toekomst.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het begrijpen van menselijke visuele aandacht is cruciaal voor het behoud en de appreciatie van cultureel erfgoed, met name schilderijen. Bestaande modellen voor het voorspellen van scanpaths (de sequentie van oogbewegingen) worden vaak getraind op foto's van natuurlijke scènes. Er bestaat echter een aanzienlijke domeinkloof (domain gap) tussen natuurlijke scènes en kunstwerken. Kunstwerken hebben unieke esthetische, semantische en compositie-eigenschappen die leiden tot andere kijkpatronen dan foto's.

Daarnaast is visuele aandacht een stochastisch (willekeurig) en subjectief fenomeen; verschillende mensen kijken naar hetzelfde beeld op verschillende manieren. Bestaande diepe leermodellen zijn vaak deterministisch en genereren slechts één vaste output voor een input, wat de variabiliteit van menselijk kijkgedrag niet goed nabootst. Het ontbreekt aan modellen die zowel deze stochastische variabiliteit kunnen modelleren als effectief kunnen generaliseren naar het domein van schilderijen zonder uitgebreide gelabelde data voor dat specifieke domein.

Methodologie: SPGen

De auteurs stellen SPGen voor, een nieuw deep learning-model dat scanpaths voorspelt door een combinatie van een volledig convolutie-neuraal netwerk (FCNN), leerbare priors en ongesuperviseerde domeinadaptatie.

1. Architectuur:

Feature Extractor: Het model gebruikt MobileNet als encoder om efficiënt visuele kenmerken uit de inputafbeelding te halen.
Leerbare Domein Priors (Attention Biases): Om de "center bias" (de neiging om naar het midden van het beeld te kijken) en andere domeinspecifieke vertekeningen te modelleren, worden leerbare Gaussische prior maps geïntroduceerd. Deze worden samengevoegd met de features van de encoder.
Fixation Selector: Een module die gebruikmaakt van global pooling en een MLP (Multi-Layer Perceptron) om een binaire masker te genereren. Dit stelt het model in staat om scanpaths van variabele lengte te genereren, in plaats van een vast aantal fixaties.
Soft-ArgMax: Deze functie converteert de gewogen feature maps naar continue coördinaten voor de voorspelde fixatiepunten.
Stochastische Generatie: Om de subjectiviteit van kijkgedrag na te bootsen, wordt een random noise sampler in de latente ruimte geïntroduceerd. Een temperatuurparameter ( $T$ ) moduleert de intensiteit van deze ruis. Dit stelt het model in staat om meerdere, verschillende scanpaths te genereren voor dezelfde afbeelding.

2. Ongesuperviseerde Domeinadaptatie (Unsupervised Domain Adaptation - UDA):
Om de kloof tussen natuurlijke scènes (bron) en schilderijen (doel) te overbruggen zonder gelabelde data voor schilderijen, wordt een Gradient Reversal Layer (GRL) gebruikt.

Een kleine tak in het netwerk fungeert als domeinclassificator (natuurlijk vs. schilderij).
De GRL keert het teken van de gradiënt om tijdens backpropagation. Hierdoor wordt de feature extractor gestimuleerd om een gemeenschappelijke representatieruimte te leren die domeinspecifieke ruis minimaliseert, terwijl de discriminatieve taken (scanpath voorspelling) behouden blijven.

Belangrijkste Bijdragen

Efficiënt Deep Learning Model: Een nieuw architectuur voor vector-naar-sequentie modellering (beeld naar scanpath) met een selectiemodule voor variabele lengtes.
Stochastisch Mechanisme: Integratie van ruis en temperatuurparameter om meerdere realistische scanpaths per stimulus te genereren, wat de subjectiviteit van menselijke aandacht weerspiegelt.
Domeinspecifieke Priors: Invoering van leerbare Gaussische priors om bias in de data te modelleren.
Domeinadaptatie voor Kunst: Toepassing van ongesuperviseerde adversarial domeinadaptatie om kennis over te dragen van natuurlijke scènes naar schilderijen, waardoor accurate voorspellingen mogelijk zijn zonder gelabelde trainingsdata voor schilderijen.
Uitgebreide Evaluatie: Omvangrijke kwalitatieve en kwantitatieve tests op zowel natuurlijke scènes (Salicon, MIT1003) als kunstwerken (Le Meur, AVAtt datasets).

Resultaten

De prestaties van SPGen werden geëvalueerd met metrics zoals MultiMatch (vorm, richting, lengte, positie), NSS (Normalized Scanpath Saliency) en Congruency.

Natuurlijke Scènes (Salicon & MIT1003): SPGen presteert beter dan bestaande state-of-the-art modellen (zoals PathGAN, SALYPATH, Le Meur) op de meeste MultiMatch-componenten en behaalt de hoogste NSS-scores. Dit betekent dat de voorspelde fixaties sterk overeenkomen met de salientiegebieden in de afbeeldingen.
Schilderijen (Le Meur & AVAtt):
- Zonder domeinadaptatie presteerde het model minder goed op schilderijen.
- Met domeinadaptatie steeg de NSS-score aanzienlijk (van 1.36 naar 1.51 op Le Meur) en verbeterde de Congruency.
- De adaptatie zorgde ervoor dat de scanpaths zich beter verspreiden over de relevante gebieden van het schilderij in plaats van alleen naar het midden te kijken.
Temperatuur Effect: Lagere temperaturen leidden tot meer deterministische, gecentreerde fixaties, terwijl hogere temperaturen meer variatie en een bredere verdeling over het beeld opleverden, wat de stochastische aard van menselijk kijken nabootst.

Betekenis en Toekomstperspectief

SPGen biedt een krachtig instrument voor het analyseren van kijkgedrag in de context van cultureel erfgoed. Door de domeinkloof tussen foto's en kunst te overbruggen, kan het model helpen bij het begrijpen hoe mensen kunstwerken bekijken, wat waardevol is voor:

Het restaureren en behouden van kunst.
Het ontwerpen van virtuele musea en interactieve tentoonstellingen.
Het analyseren van monumenten en architectuur.

Beperkingen: Het huidige model voorspelt nog geen duur van fixaties (tijd), alleen de ruimtelijke volgorde. De auteurs plannen om in toekomstig werk een tijdsvoorspellingsmodule toe te voegen.

Samenvattend biedt SPGen een robuuste, stochastische en domeinadaptieve oplossing voor het simuleren van menselijke visuele aandacht op kunstwerken, wat een belangrijke stap is in de digitalisering en studie van cultureel erfgoed.

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

1. Het probleem: Foto's vs. Schilderijen

2. De oplossing: Een slimme vertaler (Domain Adaptation)

3. Het toevals-element: Waarom iedereen anders kijkt

4. Wat levert dit op?

Samenvattend

Probleemstelling

Methodologie: SPGen

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation