Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un archeologo che deve capire come sono collegati tra loro diversi alfabeti antichi. Alcuni sembrano fratelli, altri cugini, altri ancora estranei. Il problema è che non abbiamo un "albero genealogico" perfetto: spesso non sappiamo con certezza se un simbolo greco deriva da uno fenicio o se è solo una coincidenza.

Questo articolo propone un metodo intelligente per insegnare a un computer a riconoscere queste somiglianze senza fare supposizioni azzardate. Chiamiamolo "Il Metodo del Maestro e dell'Apprendista".

Ecco come funziona, spiegato con parole semplici e qualche analogia:

1. Il Problema: La Confusione tra "Sicuro" e "Dubbio"

Immagina di avere due scatole di matite:

Scatola A (Alfabeti Invented): Sono alfabeti inventati di sana pianta (come quelli dei cartoni animati o di Tolkien). Qui sappiamo tutto: la lettera "A" è diversa dalla lettera "B". Non c'è confusione. È tutto sicuro.
Scatola B (Alfabeti Storici): Sono gli alfabeti veri, antichi (come il greco, il latino, il cinese). Qui le cose si complicano. Due lettere potrebbero sembrare simili perché sono imparentate, o perché si sono copiate a vicenda, o semplicemente perché sono simili per caso. Se diciamo al computer "queste due lettere sono diverse" quando in realtà potrebbero essere sorelle, gli stiamo insegnando una bugia.

Il problema è che i metodi attuali cercano di trattare tutto allo stesso modo, rischiando di confondere l'apprendista.

2. La Soluzione: Due Fasi Distinte

Gli autori propongono di dividere il lavoro in due tappe, come un corso di formazione in due livelli.

Fase 1: Il Maestro (Imparare le Regole Sicure)

Prima di toccare gli alfabeti antichi, addestriamo un "Maestro" (un'intelligenza artificiale) usando solo gli alfabeti inventati (la Scatola A).

Cosa fa: Impara a distinguere chiaramente una lettera dall'altra. Sa che un "A" non è mai un "B".
L'analogia: È come un insegnante di scuola elementare che insegna ai bambini a riconoscere le forme base usando disegni chiari e senza ambiguità. Il Maestro impara a vedere le differenze con precisione chirurgica.

Fase 2: L'Apprendista (Esplorare il Mondo Reale)

Ora prendiamo un "Apprendista" (un'altra intelligenza artificiale) e lo mandiamo a studiare gli alfabeti storici (la Scatola B), che sono pieni di incertezze.

Il trucco: L'Apprendista non inizia da zero. Guarda il Maestro e impara da lui le basi. Ma, a differenza di un metodo tradizionale, non gli viene detto cosa NON è simile.
Come funziona: L'Apprendista osserva le lettere antiche. Se due lettere sembrano simili, lui le avvicina. Se sembrano diverse, le allontana. Ma se non è sicuro? Non si inventa nulla. Lascia che la struttura emerga naturalmente, guidato dalla saggezza del Maestro ma libero di scoprire nuove connessioni nascoste.
L'analogia: È come se il Maestro dicesse all'Apprendista: "So riconoscere le forme perfette. Ora vai nel mondo reale. Se vedi due cose che sembrano parenti, avvicinale. Non preoccuparti se non sai chi è il nonno di chi, basta che tu senta la loro affinità."

3. Perché è Geniale?

La magia sta nel fatto che il computer impara a essere rigido dove serve (per distinguere le lettere) ma flessibile dove serve (per capire le parentele storiche).

Risultato: Alla fine, il computer crea una "mappa mentale" delle lettere.
- Le lettere della stessa famiglia (es. Greco e Latino) si trovano vicine.
- Le lettere lontane (es. Cinese e Latino) si trovano lontane.
- Tutto questo senza che nessuno abbia mai dovuto dire al computer: "Il Greco deriva dal Latino". Il computer lo ha scoperto da solo guardando le forme.

4. I Risultati

Hanno provato questo metodo su molti tipi di reti neurali (i "cervelli" del computer) e su due grandi collezioni di dati (Omniglot e Unicode).

Il verdetto: Il loro metodo funziona meglio di tutti gli altri per capire le relazioni tra intere lingue (script).
Curiosità: Anche se i modelli "famosi" e giganti (come DINOv2) sono bravi a riconoscere gatti e cani nelle foto, falliscono miseramente quando si tratta di antichi alfabeti. Questo dimostra che per i linguaggi antichi serve un addestramento specifico, non basta un modello generico.

In Sintesi

Immagina di voler capire la storia di una famiglia.

Prima studi un albero genealogico perfetto e moderno (Fase 1) per imparare come si riconosce un membro della famiglia.
Poi usi quella conoscenza per esplorare un vecchio archivio polveroso di documenti antichi (Fase 2), lasciando che le somiglianze emergano da sole senza forzare collegamenti che non esistono.

Il risultato è un computer che non solo riconosce le lettere, ma capisce la storia dietro di esse, creando una mappa delle scritture umane che rispetta sia la precisione che le zone d'ombra della storia.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning" in lingua italiana.

1. Il Problema: Supervisione Asimmetrica nell'Analisi dei Sistemi di Scrittura

Il lavoro affronta una sfida fondamentale nell'apprendimento di metriche di similarità per glifi e sistemi di scrittura: l'asimmetria della supervisione.

Livello del Glifo: All'interno di alfabeti inventati (es. il Tengwar di Tolkien o l'alfabeto di Futurama), le identità dei caratteri sono certe e indipendenti storicamente. È quindi possibile etichettare positivamente le variazioni dello stesso glifo e negativamente i glifi di classi diverse.
Livello dello Script (Sistema di Scrittura): Per i sistemi di scrittura storici, le relazioni evolutive sono spesso incerte, dibattute o parzialmente documentate. Definire coppie negative tra caratteri di script diversi (asserendo che non sono correlati) rischia di "incorporare" ipotesi linguistiche o archeologiche non verificabili nel modello.
Obiettivo: Creare uno spazio di embedding che sia discriminativo per i singoli glifi ma che permetta di scoprire similarità latenti e influenze storiche tra script diversi senza imporre vincoli negativi arbitrari.

2. Metodologia: Un Framework a Due Stadi

Gli autori propongono un approccio ibrido che separa ciò che può essere supervisionato da ciò che deve rimanere esplorativo.

Stadio 1: Apprendimento Contrastivo Supervisionato (Teacher)

Dati: Vengono utilizzati alfabeti inventati (Omniglot supervisionato) dove le etichette sono certe.
Obiettivo: Addestrare un encoder (Teacher) utilizzando la Supervised Contrastive Loss (SupCon).
Meccanismo: Ogni classe di glifo (con le sue variazioni manoscritte e aumentate) è trattata come una classe positiva. I glifi di classi diverse agiscono come negativi.
Risultato: Si ottiene un modello Teacher ( $f^*_\phi$ ) che produce uno spazio di embedding geometricamente strutturato, con cluster intra-classe compatti e separazione inter-classe netta. Questo funge da "priori semantico" robusto.

Stadio 2: Distillazione Self-Supervised Asimmetrica (Student)

Dati: Vengono utilizzati script storici non etichettati (Omniglot non supervisionato e dataset Unicode).
Obiettivo: Adattare il modello Teacher a dati storici senza imporre coppie negative tra script diversi.
Framework: Si basa su una variante di BYOL (Bootstrap Your Own Latent).
- Inizializzazione: Sia la rete Student ( $f_\theta$ ) che quella Target ( $f_\xi$ ) sono inizializzate con i pesi del Teacher dello Stadio 1 (invece che casualmente).
- Architettura: Viene omesso il proiettore MLP tipico di BYOL; il predittore agisce direttamente sugli embedding del backbone.
- Training: Lo Student impara a prevedere la rappresentazione del Target (aggiornato tramite EMA - Exponential Moving Average) partendo da due viste aumentate dello stesso glifo. Non vengono utilizzate coppie negative tra script diversi.
Vantaggio: Lo Student eredita la struttura discriminativa del Teacher ma ha la libertà di riorganizzare le rappresentazioni per catturare similarità storiche latenti, imparando embedding invarianti alle deformazioni.

3. Contributi Chiave

Strategia di Addestramento a Due Stadi: Decoupling tra la supervisione affidabile sui caratteri (alfabeti inventati) e l'esplorazione delle relazioni incerte tra script storici.
Distillazione Self-Supervised Inizializzata dal Teacher: Un adattamento di BYOL che evita l'uso di coppie negative tra script storici, permettendo al modello di scoprire similarità evolutive senza pregiudizi.
Protocollo di Valutazione Ibrido: Una combinazione di:
- Riconoscimento Few-Shot (20-way 1-shot): Per valutare la discriminazione a livello di glifo.
- Metriche di Ranking a Livello di Script (NDCG@10, Spearman): Per valutare se la geometria dello spazio di embedding riflette le relazioni linguistiche e storiche note.
Dataset: Utilizzo di Omniglot (diviso in parti supervisionate, non supervisionate e di test) e un nuovo dataset costruito su Unicode 17.0 con font Noto, contenente sistemi di scrittura storici.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su cinque architetture di backbone (Simple CNN, Siamese CNN, ResNet-18/34/50) e confrontati con baselines come BYOL, Barlow Twins, SupCon e DINOv2.

Qualità del Ranking a Livello di Script (Metrica Primaria):
- L'approccio ibrido ("Ours") ha ottenuto sistematicamente i migliori punteggi NDCG@10 su tre delle cinque architetture (incluso ResNet-50), superando di margini significativi le metodologie puramente self-supervised.
- Questo dimostra che il prior semantico dello Stadio 1 aiuta a organizzare lo spazio di embedding in modo più coerente con le relazioni storiche reali.
- La correlazione di Spearman è stata competitiva, indicando che l'ordinamento globale delle dissimilarità è preservato.
Riconoscimento Few-Shot a Livello di Glifo:
- Il metodo proposto rimane competitivo o superiore nelle metriche Top-1 e Top-5 per il recupero dei glifi, dimostrando che non si sacrifica la discriminazione fine per la coerenza a livello di script.
- Su backbone di dimensioni medie (ResNet-18/34), le baselines self-supervised pure hanno talvolta superato il metodo ibrido nel Top-1, suggerendo un possibile "drift" durante l'adattamento, ma il metodo ibrido ha mantenuto una geometria a livello di script superiore.
Analisi Geometrica (Separability Ratio):
- È stato introdotto un rapporto di separabilità ( $R$ ) per misurare quanto gli script correlati (es. Greco e Latino) siano vicini rispetto a quelli non correlati (es. CJK).
- Lo Student ha ridotto $R$ del 35% rispetto al Teacher, dimostrando che lo Stadio 2 non comprime semplicemente lo spazio, ma accentua selettivamente le prossimità storicamente fondate.
- Le visualizzazioni t-SNE confermano una struttura più coerente tra gli script storici dopo l'adattamento.
Limiti dei Modelli Generali:
- DINOv2 (pre-addestrato su immagini naturali) ha ottenuto risultati modesti, sottolineando la necessità di strategie di adattamento specifico per il dominio degli script antichi.

5. Significato e Implicazioni

Questo lavoro offre una soluzione metodologica a un problema epistemologico: come apprendere rappresentazioni visive quando le "verità fondamentali" (ground truth) sulle relazioni tra categorie sono assenti o controverse.

Impatto Scientifico: Fornisce un metodo oggettivo e riproducibile per informare il dibattito archeologico e linguistico sulle origini delle scritture, senza imporre assunzioni non verificate.
Generalizzabilità: Il principio "impara un prior discriminativo dove la supervisione è affidabile, poi adatta senza imporre negativi speculativi" può essere applicato ad altri domini con supervisione asimmetrica (es. biologia evolutiva, analisi di manoscritti antichi).
Futuro: I risultati aprono la strada a analisi filogenetiche su larga scala dei sistemi di scrittura, permettendo ricostruzioni basate su alberi o reti delle linee evolutive delle scritture umane.