Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre comment les différentes écritures du monde sont liées entre elles, un peu comme un généalogiste qui tente de reconstruire l'arbre familial de toutes les langues. Le problème, c'est que l'histoire est floue : on sait que le grec et le latin sont cousins, mais on ne sait pas toujours avec certitude si deux symboles anciens viennent de la même source ou s'ils se ressemblent juste par hasard.

C'est là que cette recherche intervient. Les auteurs proposent une méthode en deux étapes pour apprendre à une intelligence artificielle à comparer ces écritures sans se tromper sur l'histoire.

Voici l'explication simple, avec quelques images pour mieux comprendre :

1. Le Problème : La "Maison des Fantômes" vs. La "Maison des Réels"

Pour entraîner une IA à reconnaître des lettres, on a besoin de lui montrer des exemples.

Le problème : Si on lui montre des alphabets inventés (comme ceux des films de science-fiction ou les écritures de Tolkien), on est sûr à 100 % que le "A" de l'alien 1 n'a rien à voir avec le "A" de l'alien 2. C'est facile à apprendre.
La difficulté : Avec les vraies écritures anciennes (comme les hiéroglyphes ou les runes), on ne sait pas toujours si deux signes sont liés ou non. Si on force l'IA à dire "Ces deux signes sont différents" alors qu'ils pourraient être cousins, on lui donne de mauvaises informations. C'est comme essayer de faire un arbre généalogique en inventant des liens qui n'existent pas.

2. La Solution : L'École en Deux Temps

Les chercheurs ont créé un système qui ressemble à un professeur et son élève.

Étape 1 : L'Entraînement du Professeur (Sur des alphabets inventés)

Imaginez un professeur très strict qui travaille dans une école où tout est clair.

Il utilise des alphabets inventés (comme des dessins de monstres ou des signes de jeux vidéo).
Ici, il n'y a aucun doute : le signe A est différent du signe B.
Le professeur apprend à distinguer parfaitement chaque forme. Il devient un expert en reconnaissance de formes, capable de dire "Ceci est un A, cela est un B" sans se tromper.
L'analogie : C'est comme un entraîneur de sport qui fait faire des exercices de base sur un terrain parfaitement plat et marqué. L'athlète apprend la technique pure.

Étape 2 : L'Apprentissage de l'Élève (Sur les vraies écritures anciennes)

Maintenant, on envoie cet élève sur le terrain de la réalité, où le sol est boueux et les règles floues (les vraies écritures historiques).

L'élève ne reçoit pas de corrections directes sur l'histoire (on ne lui dit pas "ce signe vient de là").
À la place, il observe le professeur. Le professeur lui montre : "Regarde, ces deux formes se ressemblent beaucoup."
L'élève utilise cette intuition pour organiser les écritures anciennes. Il apprend à dire : "Ces deux écritures semblent proches, même si on ne connaît pas leur histoire exacte."
L'analogie : C'est comme si l'élève apprenait à danser. D'abord, il apprend les pas de base avec un professeur sur un parquet lisse (Étape 1). Ensuite, il va danser en soirée avec des inconnus (Étape 2). Il n'a pas de partitions, mais il utilise ce qu'il a appris pour s'adapter, sentir la musique et trouver des partenaires qui bougent comme lui, sans avoir besoin de connaître leur nom.

3. Le Résultat : Une Carte Géographique Intelligente

Grâce à cette méthode, l'IA crée une "carte" mentale des écritures :

Les écritures qui se ressemblent vraiment (comme le grec et le cyrillique) se retrouvent proches sur la carte.
Les écritures totalement différentes (comme le latin et le chinois) se retrouvent loin.
Surtout, l'IA n'a pas besoin de connaître l'histoire exacte pour faire cette carte. Elle a juste appris à "sentir" les ressemblances visuelles.

Pourquoi c'est génial ?

C'est comme si on donnait à un explorateur une boussole très précise (le professeur) pour naviguer dans une forêt inconnue (les écritures anciennes). Même s'il ne connaît pas le nom de chaque arbre, il sait où aller parce qu'il a appris à reconnaître les sentiers.

En résumé, cette méthode permet de découvrir des liens historiques entre des écritures anciennes sans avoir besoin de livres d'histoire parfaits, en utilisant d'abord des exercices simples pour apprendre la logique, puis en appliquant cette logique aux cas complexes. C'est une façon intelligente de contourner le manque de certitudes historiques.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning" en français.

1. Problématique et Défi Fondamental

L'article aborde le défi de l'apprentissage de métriques de similarité pour les glyphes et les systèmes d'écriture anciens. Le problème central est l'asymétrie de la supervision :

Au niveau du glyphe (caractère) : Il est possible de superviser l'apprentissage car les instances d'un même caractère (dans des alphabets inventés ou modernes) peuvent être clairement étiquetées comme positives.
Au niveau du script (système d'écriture) : Les relations historiques entre différents scripts sont souvent incertaines, débattues ou incomplètes. Définir des paires négatives (affirmant que deux caractères de scripts différents sont sans rapport) risque d'introduire des hypothèses linguistiques ou archéologiques non vérifiables dans le modèle.

Les méthodes existantes de représentation visuelle (comme le contraste pur) supposent souvent que tous les échantillons non étiquetés comme positifs sont négatifs, ce qui est inapproprié pour les scripts historiques où des similarités visuelles peuvent refléter des influences historiques réelles plutôt qu'une simple différence de classe.

2. Méthodologie : Un Cadre en Deux Étapes

Les auteurs proposent un cadre hybride en deux étapes pour séparer ce qui peut être supervisé de ce qui doit rester exploratoire.

Étape 1 : Apprentissage Contrastif Supervisé (Enseignant)

Objectif : Apprendre un prior discriminatif robuste.
Données : Utilisation d'alphabets inventés (ex: Futurama, Tengwar) où les identités des caractères sont univoques et historiquement indépendantes.
Méthode : Entraînement d'un encodeur (Teacher) avec une perte contrastive supervisée (SupCon).
- Les instances d'un même caractère sont traitées comme positives.
- Les caractères de classes différentes (dans ces alphabets inventés) agissent implicitement comme des paires négatives.
Résultat : Un espace d'encodage géométriquement structuré avec un regroupement intra-classe net et une séparation inter-classe claire, servant de prior sémantique.

Étape 2 : Distillation Enseignant-Élève Non Supervisée (Adaptation)

Objectif : Adapter le prior appris aux scripts historiques (non étiquetés) sans imposer de paires négatives inter-scripts.
Données : Scripts historiques attestés (ex: Omniglot historique, Unicode ancien).
Méthode : Adaptation du framework BYOL (Bootstrap Your Own Latent) avec des modifications spécifiques :
- Initialisation : L'élève (student) et la cible (target, mise à jour par EMA) sont initialisés avec les poids de l'enseignant de l'Étape 1 (au lieu d'une initialisation aléatoire).
- Architecture : Suppression de la projection MLP intermédiaire (inutile car les embeddings sont déjà compacts).
- Données d'entrée : Utilisation de multiples instances manuscrites réelles par classe de caractère, complétées par des augmentations géométriques, plutôt que de simples vues augmentées d'une seule image.
- Fonction de perte : Minimisation de la similarité cosinus négative symétrisée entre les prédictions de l'élève et les représentations de la cible (avec arrêt du gradient sur la cible).
Avantage : L'élève hérite de la structure discriminative de l'enseignant mais est libre de réorganiser les représentations pour découvrir des similarités latentes entre scripts historiques sans être contraint par des hypothèses de négativité erronées.

3. Contributions Clés

Stratégie d'entraînement en deux étapes : Découplage de la supervision fiable (identité des caractères dans des alphabets inventés) et des relations de scripts incertaines (données historiques).
Adaptation par auto-distillation initialisée par un enseignant : Une méthode qui évite l'utilisation de paires négatives inter-scripts tout en permettant aux représentations de s'adapter aux données historiques, préservant la régularité géométrique tout en accentuant les proximités historiques.
Protocole d'évaluation hybride : Combinaison de la reconnaissance de glyphes en few-shot (20-way 1-shot) et de métriques de classement au niveau du script (NDCG@10, corrélation de Spearman) validées sur des ensembles de données Omniglot et Unicode.

4. Résultats Expérimentaux

Les expériences ont été menées sur cinq architectures de base (Simple CNN, Siamese CNN, ResNet-18/34/50) et un modèle fondation (DINOv2).

Qualité du classement au niveau du script (Métrique Principale) :
- L'approche hybride obtient systématiquement les meilleurs scores NDCG@10 (mesurant la qualité du classement des scripts historiquement liés) sur la plupart des architectures, notamment ResNet-50 (0.3178 vs 0.2997 pour Barlow Twins).
- Cela démontre que le prior supervisé permet d'organiser l'espace d'encodage d'une manière plus alignée avec les relations historiques que les méthodes purement auto-supervisées.
Recherche de glyphes (Few-Shot) :
- La méthode reste compétitive, voire supérieure, sur les tâches de reconnaissance de caractères (Top-1 et Top-5), prouvant qu'elle ne sacrifie pas la discrimination fine des glyphes pour la cohérence globale des scripts.
Analyse Géométrique (Séparabilité) :
- Le rapport de séparabilité ( $R$ ) montre que l'étape 2 affine l'espace : les scripts linguistiquement liés (ex: Grec et Latin) sont projetés proportionnellement plus proches les uns des autres par rapport aux scripts non liés (ex: CJK), réduisant $R$ de 35 % par rapport au modèle enseignant seul.
Limites des modèles génériques :
- DINOv2, bien que puissant, performe médiocrement sur cette tâche spécifique, soulignant la nécessité d'un entraînement adapté au domaine des écritures anciennes.

5. Signification et Impact

Cet article propose une solution élégante au problème épistémologique de l'apprentissage sur des données historiques incertaines. En évitant d'imposer des relations de négativité arbitraires entre scripts, le modèle permet de découvrir des similarités structurelles et historiques réelles.

Apport théorique : Il démontre qu'il est possible de combiner l'apprentissage contrastif supervisé (pour la robustesse) et l'apprentissage auto-supervisé (pour l'exploration) dans un cadre asymétrique.
Application future : Les distances entre scripts induites par ce modèle peuvent servir de base pour des analyses phylogénétiques à grande échelle des systèmes d'écriture, permettant de reconstruire des arbres ou des réseaux de lignées scripturaires.
Généralisation : Le principe "apprendre un prior discriminatif là où la supervision est fiable, puis adapter sans imposer de négatifs spéculatifs" est transférable à d'autres domaines où l'identité intra-classe est connue mais les relations inter-catégories sont contestées.