Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die probeert de familiebanden tussen verschillende oude talen op te lossen. Je hebt duizenden oude tekens (letters) voor je liggen. Het probleem? Je weet precies welke letters bij elkaar horen in een verzonnen alfabet (zoals de letters uit een stripboek), maar bij echte, historische talen is het een groot mysterie. Wetenschappers zijn het vaak oneens over welke talen familie zijn en welke niet.

De auteurs van dit paper hebben een slimme oplossing bedacht, een soort "Twee-Fase Detectivetraining". Hier is hoe het werkt, vertaald naar alledaagse taal:

Fase 1: De Meester in het Vak (De Leraar)

Stel je voor dat je een jonge detective (het computerprogramma) wilt opleiden. Je kunt hem niet direct sturen naar de mysterieuze oude steden, want daar is alles verward en onzeker.

In plaats daarvan stuur je hem eerst naar een veilige, verzonnen wereld (zoals de letters uit Futurama of Tolkien's Elfen).

Wat gebeurt er? Hier zijn de regels duidelijk. Een 'A' is altijd een 'A', en een 'B' is nooit een 'A'.
De les: De computer leert hier perfect om te zien dat verschillende schrijfstijlen van dezelfde letter eigenlijk hetzelfde zijn (bijvoorbeeld een krullerige 'A' en een rechte 'A'), en dat letters van verschillende soorten echt verschillend zijn.
Het resultaat: De computer wordt nu een Meester-Detective (de "Teacher"). Hij heeft een heel scherp oog voor details en weet precies hoe letters eruitzien. Hij heeft een sterke "gevoel" voor wat erbij hoort en wat niet.

Fase 2: De Leerling in het Veld (De Student)

Nu is het tijd om de Meester-Detective mee te nemen naar de echte, historische wereld. Maar hier is het lastig: we weten niet zeker of een Grieks lettertype en een Oud-Grieks lettertype familie zijn. Als we de computer zouden dwingen om te zeggen "deze twee zijn geen familie", zouden we misschien een fout maken.

Dus doen we het anders:

De Leerling: We nemen de Meester-Detective en maken een kopie van hem, de Leerling.
De Oefening: De Leerling krijgt nu te maken met de oude, verwarde tekens. Hij mag niet zomaar zeggen "dit is anders". In plaats daarvan kijkt hij naar de Meester.
De Magie: De Meester zegt: "Kijk, deze twee lijken op elkaar, dus probeer ze ook zo te zien." Maar de Leerling heeft ook zijn eigen ogen. Als hij ziet dat twee oude tekens eigenlijk heel veel op elkaar lijken (misschien zelfs meer dan de Meester dacht), mag hij die link zelf ontdekken.
Het doel: De Leerling leert van de Meester hoe hij letters moet herkennen, maar hij is vrij om zijn eigen "familiebanden" te ontdekken tussen de oude talen, zonder dat iemand hem vertelt wie de "vijanden" zijn.

Waarom is dit zo slim?

Stel je voor dat je een kaarttekent.

De oude manier: Je zegt: "Alle landen die we niet kennen, moeten ver van elkaar af liggen." Dat is gevaarlijk, want misschien zijn ze wel buren!
Deze nieuwe manier: Je zegt eerst: "Leren we eerst hoe landen eruitzien." Dan laat je de kaartmaker (de Leerling) zelf de wegen tekenen tussen de landen op basis van wat hij ziet, maar hij gebruikt de kennis van de Meester als kompas.

Wat levert het op?

Betere herkenning: De computer kan zelfs met één voorbeeld (een "1-shot" test) een letter herkennen, net als een mens die een nieuwe letter ziet en zegt: "Ah, dat lijkt op een 'E'!"
Slimme groepering: De computer kan oude talen groeperen op basis van echte historische banden. Bijvoorbeeld: Grieks en Latijn komen dichter bij elkaar te staan dan Grieks en Chinees, precies zoals historici verwachten.
Geen gissen: Het systeem hoeft niet te gokken over wie de "vijand" is. Het leert puur op basis van wat er wel lijkt op elkaar.

Kort samengevat

De auteurs hebben een manier gevonden om computers te leren over oude talen door eerst te oefenen met verzonnen letters (waar de regels duidelijk zijn) en die kennis vervolgens te gebruiken om de mysterieuze, echte oude talen te ontrafelen. Het is alsof je eerst leert fietsen op een vlakke weg met wieltjes, en daarna pas de berg op gaat, wetende dat je balans al goed is.

Het resultaat is een computer die niet alleen letters herkent, maar ook de "familiegeschiedenis" van de wereldtaalverwantschap begint te begrijpen, zonder dat we eerst alles perfect hoeven te weten.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning" in het Nederlands.

Probleemstelling: Asymmetrische Supervisie

De kernuitdaging bij het leren van similariteitsmaten voor glyphen (lettertekens) en schrijfsystemen is de fundamentele onzekerheid in de historische relaties tussen verschillende scripts.

Het dilemma: Binnen "uitvindingen" (zoals kunstmatige alfabetten uit fictie) kunnen individuele karakters betrouwbaar gelabeld worden; verschillende renderings van hetzelfde karakter zijn positieve paren, en verschillende karakters zijn negatieve paren.
De beperking: Bij historisch gedocumenteerde schrijfsystemen zijn de evolutionaire relaties vaak onzeker, betwist of incompleet. Het aannemen dat twee verschillende karakters uit verschillende scripts niet gerelateerd zijn (negatieve paren), riskeert het inbouwen van onverifieerbare linguïstische aannames.
De oplossing: De auteurs stellen een tweestapsframework voor dat onderscheid maakt tussen wat betrouwbaar gesuperviseerd kan worden (karakteridentiteit in uitvindingen) en wat verkennend moet blijven (relaties tussen historische scripts).

Methodologie: Een Tweestaps Framework

Het voorgestelde model combineert toezicht op synthetische data met zelftoezicht op historische data via een leerkracht-leerling (teacher-student) architectuur.

Fase 1: Supervised Contrastive Learning (De Leerkracht)

Doel: Het trainen van een robuust discriminatief model ("teacher") op gelabelde, kunstmatige alfabetten (bijv. uit Futurama of Tolkien).
Methode: Gebruik van Supervised Contrastive Loss (SupCon). Hierbij worden alle instanties van hetzelfde karakter (inclusief augmentaties) behandeld als positieve paren, terwijl karakters van verschillende klassen als negatief worden behandeld.
Resultaat: De leerkracht ( $f^*_\phi$ ) leert een ingebedde ruimte met duidelijke intra-klass clustering en inter-klass scheiding, zonder vooroordelen over historische relaties.

Fase 2: Ongecontroleerde Teacher-Student Distillatie (De Leerling)

Doel: Het aanpassen van de structuur van de leerkracht aan ongelabelde, historisch gedocumenteerde scripts zonder negatieve paren tussen scripts te introduceren.
Methode: Gebaseerd op BYOL (Bootstrap Your Own Latent), maar met drie cruciale aanpassingen:
1. Initialisatie: Zowel de student ( $f_\theta$ ) als de target network ( $f_\xi$ ) worden geïnitieerd met de gewichten van de getrainde leerkracht uit Fase 1. Dit biedt een semantisch gestructureerd startpunt.
2. Architectuur: De projectie-MLP (vaak gebruikt in BYOL) wordt weggelaten omdat de backbone al compacte embeddings produceert; de predictor werkt direct op de embeddings.
3. Data: In plaats van twee augmentaties van één afbeelding, worden meerdere echte handgeschreven instanties per karakterklasse gebruikt, aangevuld met geometrische augmentaties.
Training: De student probeert de voorspellingen van de target network (die via EMA, Exponential Moving Average, wordt bijgewerkt) te matchen. Een stop-gradient op de target voorkomt representatie-inzakking (collapse) zonder negatieve paren nodig te hebben.

Evaluatie en Resultaten

De auteurs evalueren het model op twee niveaus:

Glyph-niveau: Few-shot herkenning (20-way 1-shot retrieval).
Script-niveau: Het ordenen van scripts op basis van historische/linguïstische similariteit (gemeten met NDCG@10 en Spearman-correlatie).

Belangrijkste bevindingen:

Script-ranking: De hybride aanpak behaalde consistent de beste resultaten op NDCG@10 (de primaire metriek voor rankingkwaliteit) op meerdere backbone-architecturen (o.a. Simple CNN, ResNet-34, ResNet-50). Dit bewijst dat de methode historisch gerelateerde scripts (zoals Grieks en Latijn) beter bij elkaar plaatst dan puur zelftoezichtende methoden (zoals BYOL of Barlow Twins).
Glyph-herkenning: Het model bleef concurrerend op glyph-niveau, hoewel sommige puur zelftoezichtende methoden op specifieke ResNet-varianten iets hogere Top-1 accuracy haalden.
Scheidbaarheid (Separability Ratio): Een analyse met t-SNE en de scheidbaarheidsratio ( $R$ ) toonde aan dat Fase 2 de ruimte niet uniform comprimeert, maar specifiek de historische nabijheden accentueert. De student ( $R=0.210$ ) creëerde een coherenter geometrisch beeld dan de leerkracht ( $R=0.323$ ).
Vergelijking met DINOv2: Grote, op natuurlijke beelden voorgetrainde modellen (DINOv2) presteerden slecht op dit specifieke domein, wat aangeeft dat domeinspecifieke training essentieel is voor oude schrijfsystemen.

Bijdragen

Tweestaps-strategie: Een innovatieve manier om betrouwbare karakter-supervisie te ontkoppelen van onzekere script-relaties.
Teacher-geïnitieerde zelf-distillatie: Een methode die cross-script negatieve paren vermijdt, maar toch de leerkracht's discriminatieve structuur behoudt en aanpast aan historische data.
Evaluatieprotocol: Een combinatie van few-shot glyph-retrieval en script-level ranking-metrieken, gevalideerd op zowel Omniglot als een nieuw geconstrueerd Unicode-dataset.

Significantie

Dit onderzoek biedt een oplossing voor het fundamentele epistemologische probleem in de digitale paleografie: hoe leer je een model over historische relaties zonder die relaties als waarheid op te leggen? Door een "discriminatieve prior" te leren op veilige data en deze vervolgens aan te passen zonder speculatieve negatieve constraints, creëert het model een similariteitsruimte die objectieve, reproduceerbare bewijzen kan leveren voor linguïstische en archeologische debatten over de oorsprong en verspreiding van schrijfsystemen.

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Fase 1: De Meester in het Vak (De Leraar)

Fase 2: De Leerling in het Veld (De Student)

Waarom is dit zo slim?

Wat levert het op?

Kort samengevat

Probleemstelling: Asymmetrische Supervisie

Methodologie: Een Tweestaps Framework

Fase 1: Supervised Contrastive Learning (De Leerkracht)

Fase 2: Ongecontroleerde Teacher-Student Distillatie (De Leerling)

Evaluatie en Resultaten

Bijdragen

Significantie

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA