Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Dit paper introduceert een tweestapskader dat contrastief leren op gelabelde alfabetten combineert met zelftoezicht via leraar-leerling distillatie om robuuste, vervormingsinvariante embeddings te leren voor het vaststellen van scriptgelijkenis zonder betrouwbare grondwaarheid over historische relaties.

Claire Roman, Philippe Meyer

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die probeert de familiebanden tussen verschillende oude talen op te lossen. Je hebt duizenden oude tekens (letters) voor je liggen. Het probleem? Je weet precies welke letters bij elkaar horen in een verzonnen alfabet (zoals de letters uit een stripboek), maar bij echte, historische talen is het een groot mysterie. Wetenschappers zijn het vaak oneens over welke talen familie zijn en welke niet.

De auteurs van dit paper hebben een slimme oplossing bedacht, een soort "Twee-Fase Detectivetraining". Hier is hoe het werkt, vertaald naar alledaagse taal:

Fase 1: De Meester in het Vak (De Leraar)

Stel je voor dat je een jonge detective (het computerprogramma) wilt opleiden. Je kunt hem niet direct sturen naar de mysterieuze oude steden, want daar is alles verward en onzeker.

In plaats daarvan stuur je hem eerst naar een veilige, verzonnen wereld (zoals de letters uit Futurama of Tolkien's Elfen).

  • Wat gebeurt er? Hier zijn de regels duidelijk. Een 'A' is altijd een 'A', en een 'B' is nooit een 'A'.
  • De les: De computer leert hier perfect om te zien dat verschillende schrijfstijlen van dezelfde letter eigenlijk hetzelfde zijn (bijvoorbeeld een krullerige 'A' en een rechte 'A'), en dat letters van verschillende soorten echt verschillend zijn.
  • Het resultaat: De computer wordt nu een Meester-Detective (de "Teacher"). Hij heeft een heel scherp oog voor details en weet precies hoe letters eruitzien. Hij heeft een sterke "gevoel" voor wat erbij hoort en wat niet.

Fase 2: De Leerling in het Veld (De Student)

Nu is het tijd om de Meester-Detective mee te nemen naar de echte, historische wereld. Maar hier is het lastig: we weten niet zeker of een Grieks lettertype en een Oud-Grieks lettertype familie zijn. Als we de computer zouden dwingen om te zeggen "deze twee zijn geen familie", zouden we misschien een fout maken.

Dus doen we het anders:

  • De Leerling: We nemen de Meester-Detective en maken een kopie van hem, de Leerling.
  • De Oefening: De Leerling krijgt nu te maken met de oude, verwarde tekens. Hij mag niet zomaar zeggen "dit is anders". In plaats daarvan kijkt hij naar de Meester.
  • De Magie: De Meester zegt: "Kijk, deze twee lijken op elkaar, dus probeer ze ook zo te zien." Maar de Leerling heeft ook zijn eigen ogen. Als hij ziet dat twee oude tekens eigenlijk heel veel op elkaar lijken (misschien zelfs meer dan de Meester dacht), mag hij die link zelf ontdekken.
  • Het doel: De Leerling leert van de Meester hoe hij letters moet herkennen, maar hij is vrij om zijn eigen "familiebanden" te ontdekken tussen de oude talen, zonder dat iemand hem vertelt wie de "vijanden" zijn.

Waarom is dit zo slim?

Stel je voor dat je een kaarttekent.

  • De oude manier: Je zegt: "Alle landen die we niet kennen, moeten ver van elkaar af liggen." Dat is gevaarlijk, want misschien zijn ze wel buren!
  • Deze nieuwe manier: Je zegt eerst: "Leren we eerst hoe landen eruitzien." Dan laat je de kaartmaker (de Leerling) zelf de wegen tekenen tussen de landen op basis van wat hij ziet, maar hij gebruikt de kennis van de Meester als kompas.

Wat levert het op?

  1. Betere herkenning: De computer kan zelfs met één voorbeeld (een "1-shot" test) een letter herkennen, net als een mens die een nieuwe letter ziet en zegt: "Ah, dat lijkt op een 'E'!"
  2. Slimme groepering: De computer kan oude talen groeperen op basis van echte historische banden. Bijvoorbeeld: Grieks en Latijn komen dichter bij elkaar te staan dan Grieks en Chinees, precies zoals historici verwachten.
  3. Geen gissen: Het systeem hoeft niet te gokken over wie de "vijand" is. Het leert puur op basis van wat er wel lijkt op elkaar.

Kort samengevat

De auteurs hebben een manier gevonden om computers te leren over oude talen door eerst te oefenen met verzonnen letters (waar de regels duidelijk zijn) en die kennis vervolgens te gebruiken om de mysterieuze, echte oude talen te ontrafelen. Het is alsof je eerst leert fietsen op een vlakke weg met wieltjes, en daarna pas de berg op gaat, wetende dat je balans al goed is.

Het resultaat is een computer die niet alleen letters herkent, maar ook de "familiegeschiedenis" van de wereldtaalverwantschap begint te begrijpen, zonder dat we eerst alles perfect hoeven te weten.