One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, comme si on en parlait autour d'un café.

🧠 L'Enquête : Le Cerveau de l'IA voit-il le fond ou la forme ?

Imaginez que vous avez un traducteur automatique très intelligent. Si vous lui donnez un texte écrit en latin (comme le français) et le même texte écrit en cyrillique (comme le russe), l'ordinateur voit-il deux choses totalement différentes, ou il comprend-il que c'est la même idée ?

C'est exactement ce que les chercheurs ont voulu tester avec les Grands Modèles de Langage (LLM), ces IA qui écrivent et parlent comme des humains.

Leur question était : Quand l'IA apprend des concepts, est-ce qu'elle apprend le "sens" profond des mots, ou est-elle simplement collée à la façon dont les lettres sont écrites ?

🇷🇸 Le Laboratoire Secret : La Serbie et ses deux visages

Pour faire cette expérience, les chercheurs ont choisi un terrain de jeu parfait : la langue serbe.

Pourquoi ? Parce que le serbe est une langue "bilingue" en matière d'écriture. Les Serbes écrivent exactement la même chose, soit avec l'alphabet latin (A, B, C...), soit avec l'alphabet cyrillique (А, Б, В...).

Le sens est identique : "Bonjour" veut dire "Bonjour" dans les deux cas.
L'écriture est différente : Pour un ordinateur, ce sont deux langues totalement étrangères qui ne partagent aucun caractère commun. C'est comme si vous écriviez un mot avec des lettres et que votre voisin l'écrivait avec des hiéroglyphes, mais que le message restait le même.

C'est le test ultime : si l'IA comprend le sens, elle devrait réagir de la même façon, peu importe l'alphabet utilisé.

🔍 La Loupe Magique : Les "SAE"

Pour voir ce qui se passe dans le cerveau de l'IA, les chercheurs utilisent un outil appelé Autoencodeur Épars (SAE).
Imaginez que le cerveau de l'IA est une immense salle de contrôle avec des millions de lumières. Quand l'IA lit une phrase, certaines lumières s'allument.

Les chercheurs ont créé une loupe (le SAE) pour voir quelles lumières s'allument pour un concept précis (comme "le chat", "la liberté" ou "la pluie").
L'objectif : Vérifier si les mêmes lumières s'allument pour la phrase en alphabet latin et pour la même phrase en alphabet cyrillique.

🎭 Les Résultats : La Magie du Sens

Voici ce qu'ils ont découvert, et c'est plutôt impressionnant :

Le même message, mêmes lumières : Même si l'alphabet change complètement (et que l'ordinateur ne voit aucun lien entre les deux), les mêmes "lumières" s'allument dans le cerveau de l'IA. C'est comme si vous écoutiez une chanson en version acoustique et en version électronique : le son change, mais la mélodie reste la même, et votre cerveau reconnaît la mélodie.
Le sens bat l'orthographe : L'IA fait plus de différence entre deux phrases qui disent la même chose avec des mots différents (paraphrase) que entre deux phrases identiques écrites dans deux alphabets différents.
- Analogie : C'est comme si l'IA disait : "Peu importe si tu m'écris 'Chat' ou 'Gato', je vois l'animal. Mais si tu écris 'Chien', je vois un chien, même si c'est écrit avec la même police d'écriture !"
Plus l'IA est grande, mieux elle comprend : Plus le modèle est gros (plus il a de "neurones"), plus cette capacité à ignorer l'écriture et à se concentrer sur le sens est forte. Les petits modèles sont un peu confus, mais les géants (27 milliards de paramètres) sont très clairs : le sens prime sur la forme.

🚫 Ce n'est pas de la mémoire

Un doute pourrait venir : "Et si l'IA avait juste mémorisé ces phrases par cœur ?"
Les chercheurs ont prouvé que non. Ils ont mélangé les phrases (une phrase en latin avec une paraphrase en cyrillique) que l'IA n'avait probablement jamais vues ensemble pendant son entraînement. Et devinez quoi ? Elle a quand même reconnu le lien ! Cela prouve qu'elle a vraiment compris le concept, et pas juste recraché des souvenirs.

💡 La Conclusion en une phrase

Cette étude nous dit que les intelligences artificielles modernes ne sont pas de simples machines à copier-coller de lettres. Elles apprennent à abstraire le sens, un peu comme un humain qui comprendrait que "Maison", "House" et "Дом" désignent le même endroit, même si les lettres sont totalement différentes.

C'est une excellente nouvelle pour l'avenir : cela signifie que ces IA peuvent potentiellement comprendre des idées complexes à travers les barrières des langues et des écritures, sans être bloquées par la surface des mots.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « ONE LANGUAGE, TWO SCRIPTS: PROBING SCRIPT-INVARIANCE IN LLM CONCEPT REPRESENTATIONS », présenté en français.

1. Problématique et Contexte

La question centrale de cette recherche est de déterminer si les caractéristiques (features) apprises par les Autoencodeurs Creux (Sparse Autoencoders - SAE) dans les grands modèles de langage (LLM) capturent des significations abstraites ou si elles restent intrinsèquement liées aux motifs spécifiques des tokens (la forme orthographique).

Bien que les modèles multilingues aient démontré des capacités de transfert, il reste incertain si les représentations internes sont invariantes aux variations orthographiques radicales, en particulier lorsque les scripts partagent une sémantique identique mais des tokenisations totalement disjointes. L'article propose d'utiliser le digraphisme serbe (l'usage interchangeable des alphabets latin et cyrillique) comme banc d'essai contrôlé. Le serbe offre un cas unique car :

Les deux scripts sont utilisés avec une fréquence similaire.
La conversion entre les deux est déterministe et sans perte sémantique.
Point crucial : Les LLM tokenisent ces deux scripts de manière complètement différente, sans aucun token partagé, ce qui isole la variable orthographique de la variable sémantique.

2. Méthodologie

Données et Configuration Expérimentale

Jeu de données : 30 triplets de phrases couvrant divers sujets (nature, activités quotidiennes, concepts abstraits). Chaque triplet contient :
1. Une phrase originale.
2. Un paraphrase (sémantiquement équivalent, lexicalement différent).
3. Une phrase aléatoire (sans lien sémantique).
- Ces phrases sont traduites en trois variantes : Anglais, Serbe Latin, Serbe Cyrillique (totalisant 270 phrases uniques).
- La similarité sémantique entre les paires serbes (latin/cyrillique) a été validée via des embeddings LaBSE.
Modèles : La famille Gemma (de 270M à 27B paramètres), incluant les versions 270M, 1B, 4B, 12B et 27B.
SAE : Utilisation des Gemma Scope 2 SAE (65 536 caractéristiques, architecture JumpReLU) entraînés sur les activations des modèles.
Couches analysées : 3 à 4 couches par modèle (début, milieu, fin du traitement).

Pipeline d'Extraction

Pour chaque phrase, le pipeline suit ces étapes :

Tokenisation : Conversion en séquence de tokens via le tokenizer Gemma.
Passage avant : Calcul de l'état caché $h^{(l)}$ à la position du dernier token.
Encodage SAE : Obtention des activations de caractéristiques $a = \text{SAEenc}(h^{(l)})$ .
Seuillage : Définition de l'ensemble des caractéristiques actives $F(s) = \{i : a_i > \tau\}$ avec $\tau = 0.1$ .
Mesure de similarité : Utilisation de l'indice de Jaccard entre les ensembles de caractéristiques actives de deux phrases :
$J(s_1, s_2) = \frac{|F(s_1) \cap F(s_2)|}{|F(s_1) \cup F(s_2)|}$

Types de Comparaisons

Les auteurs comparent plusieurs scénarios pour tester l'invariance :

Intra-script : Original vs Paraphrase (même script).
Inter-script (Test principal) :
- Original Inter-script : Même phrase en Latin vs Cyrillique.
- Paraphrase Inter-script : Même paraphrase en Latin vs Cyrillique.
- Croisé Inter-script : Original en Latin vs Paraphrase en Cyrillique (et vice-versa).
Baselines : Phrases aléatoires inter-script et phrases aléatoires inter-langues (Serbe vs Anglais).

3. Résultats Clés

Invariance Orthographique

Les résultats montrent une forte invariance aux scripts, dépassant largement les baselines aléatoires :

Similarité Original Inter-script : $\approx 0.58$ (Jaccard).
Similarité Paraphrase Inter-script : $\approx 0.59$ .
Similarité Croisée Inter-script (Origine/Paraphrase) : $\approx 0.47$ .
Baseline Aléatoire Inter-script : $\approx 0.28$ .
Baseline Aléatoire Inter-langue : $\approx 0.19$ .

Observation majeure : La similarité entre deux phrases identiques écrites dans des scripts différents (0.58) est supérieure à la similarité entre une phrase et son paraphrase dans le même script (environ 0.54 en moyenne). Cela suggère que les caractéristiques SAE sont plus sensibles aux choix lexicaux qu'au script lui-même. De plus, le fait que les combinaisons "Original Latin / Paraphrase Cyrillique" (qui n'apparaissent probablement jamais ensemble dans les données d'entraînement) affichent une forte similarité (0.47) réfute l'hypothèse d'une simple mémorisation par cœur (overfitting).

Effet de l'Échelle du Modèle

L'invariance au script s'améliore avec la taille du modèle :

La similarité "Original Inter-script" augmente de 0.50 (270M) à 0.65 (27B).
Les baselines aléatoires diminuent avec la taille du modèle (de ~0.42 à ~0.21 pour le random inter-script), indiquant une meilleure discrimination sémantique.
Les modèles plus grands développent des représentations plus granulaires et plus robustes, indépendamment du script.

4. Contributions Principales

Nouveau Paradigme d'Évaluation : Introduction du digraphisme serbe comme méthode contrôlée pour tester l'abstraction sémantique des LLM, permettant de varier l'orthographe tout en gardant le sens constant.
Preuve d'Invariance : Démonstration que les caractéristiques SAE dans la famille Gemma capturent la sémantique au-delà de la tokenisation de surface, avec une similarité inter-script significative ( $\sim 0.58$ ).
Analyche de l'Échelle : Caractérisation de la relation entre la taille du modèle et la robustesse des représentations indépendantes du script, montrant que l'abstraction sémantique s'affine avec l'augmentation des paramètres.

5. Signification et Implications

Ces résultats suggèrent que les SAE peuvent extraire des concepts sémantiques à un niveau d'abstraction supérieur à la simple tokenisation de surface. Cela a des implications importantes pour :

L'interprétabilité : Confirme que les "features" apprises par les SAE correspondent à des concepts humains interprétables qui transcendent la forme écrite.
La recherche multilingue : Indique que les modèles peuvent développer des représentations unifiées pour des langues partageant une sémantique mais utilisant des scripts disjoints, même sans alignement explicite.
Robustesse : Suggère que les représentations internes sont moins fragiles face aux variations orthographiques que ne le laisserait penser la tokenisation brute.

L'article conclut que le digraphisme serbe constitue un outil puissant pour l'évaluation future de l'abstraction orthographique dans les réseaux de neurones, ouvrant la voie à des recherches sur la généralisabilité de ces propriétés à d'autres langues à scripts multiples.