Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere una macchina del tempo fotografica molto potente. Non è una macchina vera, ma un'intelligenza artificiale (chiamata "modello di diffusione") che può creare immagini partendo da una semplice descrizione scritta. Se le dici "disegna una persona che cucina nel 1700", lei dovrebbe creare un'immagine che sembri autentica per quell'epoca.

Il problema è: questa macchina del tempo sta mentendo? O sta solo raccontando una storia sbagliata basata su ciò che ha letto nei suoi libri di addestramento?

Questo paper, scritto da due ricercatrici dell'Università di Zurigo, si chiama "Synthetic History" (Storia Sintetica) e fa proprio questo: mette alla prova queste macchine del tempo per vedere se riescono a rappresentare il passato in modo onesto o se finiscono per creare un "falso storico".

Ecco come funziona la loro indagine, spiegata con parole semplici:

1. Il Grande Esperimento: La "Cassaforte" di 30.000 Immagini

Le ricercatrici hanno creato un enorme database chiamato HistVis. Immaginalo come una cassaforte piena di 30.000 foto false.
Hanno chiesto a tre delle migliori intelligenze artificiali attuali (SDXL, SD3 e FLUX) di disegnare la stessa attività umana (come "ascoltare musica", "coltivare la terra" o "giocare") in 10 periodi storici diversi (dal 1600 fino ai giorni nostri).
L'obiettivo era vedere se l'AI cambia davvero lo stile e i dettagli quando il tempo cambia, o se rimane bloccata sugli stessi stereotipi.

2. I Tre Problemi Principali Scoperti

L'analisi ha rivelato tre "bug" principali nel modo in cui l'AI vede il passato:

A. Il "Filtro Visivo" Rigido (Associazioni Stilistiche)

Immagina di chiedere a un pittore di disegnare una scena del 1700. Se lui ha solo visto quadri a olio e incisioni antiche, userà sempre quello stile, anche se gli chiedi di fare un disegno moderno.
L'AI fa lo stesso:

Se chiedi un'immagine del 1700, l'AI tende a farla sembrare un'incisione o un quadro a olio, anche se non lo hai chiesto.
Se chiedi un'immagine del 1950, tende a farla in bianco e nero, anche se in quel periodo la fotografia a colori esisteva già.
È come se l'AI avesse un "filtro Instagram" automatico per ogni epoca storica, e non riesce a toglierlo.

B. Gli "Orrori Temporali" (Anacronismi)

Questo è il problema più divertente e pericoloso. Immagina di vedere un film ambientato nell'antica Roma dove un gladiatore tiene in mano uno smartphone o un aspirapolvere.
L'AI commette spesso questi errori:

Disegna persone del 1800 con cuffie per ascoltare musica.
Mostra un forno a microonde in una cucina del 1930.
Mette zaini moderni su persone che viaggiano nel 1700.
L'AI è così abituata a vedere oggetti moderni associati a certe azioni (es. "ascoltare musica" = "cuffie") che dimentica che quegli oggetti non esistevano ancora. È come se la sua memoria fosse un pasticcio dove tutte le epoche si mescolano.

C. Le "Maschere" Sociali (Razza e Genere)

Qui l'AI si comporta come un attore che recita male un ruolo.

Genere: Se chiedi di disegnare qualcuno che "cucina" nel 1700, l'AI disegna quasi sempre un uomo, anche se storicamente la cucina domestica era spesso gestita da donne. Se chiedi di disegnare qualcuno che "lavora in fabbrica" nel 1900, disegna quasi sempre un uomo, ignorando le donne che lavoravano.
Razza: L'AI tende a disegnare quasi tutte le persone del passato come bianche, anche in epoche e luoghi dove la popolazione era molto mista. Sembra che l'AI abbia un "preambolo" mentale che dice: "Il passato è bianco", ignorando la diversità reale della storia umana.

3. Perché è Importante?

Perché queste immagini non sono solo "disegni carini".

Nell'educazione: Se un bambino usa l'AI per fare un compito di storia e vede un gladiatore con un iPhone, impara una storia sbagliata.
Nella memoria culturale: Se l'AI decide che il passato era sempre bianco e fatto solo di uomini, stiamo cancellando visivamente la presenza di donne e persone di colore nella storia. Stiamo riscrivendo la storia in modo sbagliato.

4. La Conclusione: Non è una Macchina del Tempo, è uno Specchio Distorto

Le ricercatrici concludono che queste intelligenze artificiali non sono archivisti storici. Sono come specchi che riflettono ciò che hanno visto online, ma in modo distorto.

Ripetono gli stereotipi (il passato è antico e bianco).
Mescolano i tempi (mettono oggetti moderni nel passato).
Non capiscono la vera diversità della storia umana.

In sintesi: Il paper ci avverte che se usiamo l'AI per creare immagini storiche, dobbiamo stare molto attenti. Non possiamo fidarci ciecamente di quello che vediamo, perché l'AI sta creando una "Storia Sintetica": una versione del passato che sembra reale, ma che è in realtà un collage di pregiudizi moderni e errori di memoria.

Il lavoro serve a creare un "righello" per misurare questi errori e sperare che in futuro le macchine del tempo siano più precise e meno bugiarde.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Con l'ascesa dei modelli di diffusione Text-to-Image (TTI) nella creazione di contenuti, è emersa la necessità di valutarne l'impatto socioculturale oltre alle note distorsioni demografiche (genere e razza) e culturali. Tuttavia, la capacità di questi modelli di rappresentare accuratamente i contesti storici rimane un'area largamente inesplorata.
Le sfide principali identificate sono:

Distorsione Stilistica Implicita: I modelli tendono ad associare automaticamente periodi storici specifici a stili visivi stereotipati (es. incisioni per il XVII secolo, monocromo per gli anni '30), indipendentemente dal prompt.
Incoerenza Storica (Anacronismi): I modelli spesso inseriscono artefatti moderni in contesti pre-moderni (es. smartphone in scene del XVIII secolo), compromettendo la coerenza cronologica.
Rappresentazione Demografica: Le distribuzioni di genere e razza generate non riflettono le probabilità storiche plausibili, ma spesso replicano bias contemporanei o stereotipi legati all'attività descritta.
Rischio Culturale: La generazione di immagini storiche imprecise può distorcere la memoria collettiva e la comprensione pubblica del passato.

2. Metodologia e Contributi Chiave

Gli autori introducono HistVis, il primo benchmark sistematico per valutare la rappresentazione storica nei modelli TTI, composto da un dataset e un protocollo di valutazione riproducibile.

A. Il Dataset HistVis

Composizione: 30.000 immagini sintetiche generate da tre modelli di diffusione all'avanguardia: Stable Diffusion XL (SDXL), Stable Diffusion 3 (SD3) e FLUX.1 Schnell.
Prompt Design: 100 prompt curati basati su template neutri ("Una persona [attività] nel [periodo storico]"), combinati con 20 attività umane universali (es. musica, agricoltura, lavoro) e 10 periodi storici (dal XVII al XXI secolo, inclusi decenni specifici del XX secolo).
Obiettivo: Isolare l'influenza del periodo storico sulla generazione, evitando riferimenti a figure o eventi specifici per minimizzare bias esterni.

B. Protocollo di Valutazione

Il benchmark valuta le immagini lungo tre dimensioni:

Associazioni Stilistiche Implicite (Implicit Stylistic Associations):
- Viene utilizzato un classificatore di stile addestrato su WikiArt (basato su DINOv2) per categorizzare le immagini in 5 stili: disegno, incisione, illustrazione, pittura, fotografia.
- Viene calcolato il punteggio VSD (Visual Style Dominance) per misurare quanto un modello converga verso uno stile dominante per un dato periodo, anche senza istruzioni stilistiche nel prompt.
Coerenza Storica (Historical Consistency):
- Rilevamento degli Anacronismi: Un approccio a due stadi.
  - Fase 1 (Proposta): Un LLM (GPT-4o) genera una lista di potenziali anacronismi specifici per l'attività e il periodo (es. "dispositivi audio moderni" per il XVIII secolo) e formula domande VQA (Visual Question Answering) binarie.
  - Fase 2 (Rilevamento): Tre modelli VLM (GPT-4o, LLaMA-3.2, Qwen2.5) analizzano le immagini rispondendo alle domande. La decisione finale è presa a maggioranza.
- Metriche: Frequenza (quanto spesso appare l'anacronismo) e Severità (quanto è coerente l'errore una volta proposto).
Rappresentazione Demografica (Demographic Representation):
- Estrazione: Un classificatore facciale (FairFace) rileva genere e razza nelle immagini generate.
- Baseline Storica: Poiché i dati storici completi non sono disponibili per tutte le categorie, vengono utilizzati LLM (GPT-4o) per stimare distribuzioni demografiche "storicamente plausibili" basate su contesto, strutture sociali e norme globali.
- Metriche: Calcolo di Sottorappresentazione e Sovrarappresentazione confrontando le distribuzioni generate con quelle stimate dall'LLM.

3. Risultati Principali

A. Distorsioni Stilistiche

I modelli mostrano associazioni stilistiche rigide: SDXL tende alle incisioni per i secoli XVII-XVIII, mentre SD3 e FLUX.1 preferiscono la pittura.
Per i periodi moderni (XX-XXI secolo), SD3 e FLUX.1 convergono sulla fotografia, mentre SDXL mostra una maggiore diversità verso le illustrazioni.
Resistenza alla Mitigazione: Tentativi di prompt engineering (es. richiedere "fotorealismo" ed evitare il bianco e nero) hanno avuto scarso successo nel modificare queste preferenze stilistiche radicate, suggerendo che i bias sono profondamente incorporati nei pesi del modello.

B. Incoerenze Storiche (Anacronismi)

SD3 è il modello più soggetto ad anacronismi (fino al 25% delle immagini nel 1930 e 20% nel XIX secolo), seguito da FLUX.1 e SDXL (che ha la maggiore accuratezza storica, <5%).
Gli errori più frequenti riguardano dispositivi audio, attrezzature per stirare e abbigliamento moderno.
L'analisi rivela che i modelli si affidano più agli indizi concettuali del prompt (es. "ascoltare musica" $\rightarrow$ cuffie) che al condizionamento temporale, creando una frattura nella logica cronologica.

C. Rappresentazione Demografica

Genere: I modelli tendono a sovrarappresentare figure maschili in attività storicamente dominate da donne (es. cucina) fino al XX secolo, e viceversa in ambiti educativi.
Razza: C'è una sovrarappresentazione sistematica di individui bianchi nei periodi precedenti al XX secolo. La diversità razziale aumenta solo verso il XXI secolo, allineandosi più alle aspettative moderne che a quelle storiche globali.
Le distribuzioni generate sembrano riflettere correlazioni presenti nei dati di addestramento piuttosto che una comprensione storica contestuale.

4. Significato e Implicazioni

Questo lavoro rappresenta un passo fondamentale verso la costruzione di modelli TTI storicamente accurati e culturalmente sensibili.

Nuova Dimensione di Valutazione: Sposta il focus dalla semplice accuratezza fattuale (riconoscimento di monumenti) alla coerenza contestuale e alla plausibilità storica.
Rischi per l'Educazione e il Patrimonio: Dimostra che l'uso non critico di queste immagini in contesti educativi o museali rischia di perpetuare stereotipi visivi e narrazioni esclusive.
Limiti e Futuro: Gli autori riconoscono che l'uso di LLM come baseline storica è un'approssimazione e che i classificatori facciali semplificano identità complesse. Tuttavia, il framework proposto è agnostico rispetto al modello e fornisce una base solida per futuri sviluppi che integrino conoscenze storiche più ricche e competenze interdisciplinari.

In sintesi, il paper evidenzia che i modelli di diffusione attuali, pur essendo potenti generatori visivi, mancano di una vera "ragione storica", producendo rappresentazioni del passato che sono spesso stereotipate, anacronistiche e demograficamente distorte.