One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je twee verschillende vertalers hebt. De ene spreekt alleen in Latijnse letters (zoals A, B, C) en de andere alleen in Cyrillische letters (zoals А, Б, В). Voor een computer zijn dit twee totaal verschillende talen, alsof de ene vertaler in het Frans spreekt en de andere in het Japans. Ze gebruiken geen enkele letter die op elkaar lijkt.

Maar wat als je zegt: "Ik wil dat ze precies hetzelfde denken, ongeacht welke letters ze gebruiken?"

Dat is precies wat deze wetenschappers hebben onderzocht met een slimme truc en een speciale taal: Servisch.

Het Grote Experiment: Servisch als de "Twee-Geschriften-Taal"

Servisch is uniek. Mensen die Servisch spreken, schrijven hun taal soms in het Latijnse alfabet en soms in het Cyrillische alfabet. Het is alsof je een verhaal schrijft, en dan iemand anders het overschrijft in een ander schrift, maar exact dezelfde woorden en betekenis behoudt. Er is geen verlies van informatie.

Voor een computer (een Large Language Model of LLM) is dit echter een enorme uitdaging. Omdat de letters zo verschillend zijn, ziet de computer de twee schriften als twee volledig verschillende talen. Ze hebben zelfs geen enkele gemeenschappelijke "bouwsteen" (token) in hun geheugen.

De "Geheime Camera": Sparse Autoencoders (SAE)

Om te zien wat er in het hoofd van de computer gebeurt, gebruikten de onderzoekers een soort X-ray-bril genaamd Sparse Autoencoders.

Stel je voor dat het brein van de computer een enorme, donkere kamer is vol met duizenden lampjes. De meeste lampjes gaan uit, maar een paar gaan fel branden als de computer iets begrijpt.

Als de computer het woord "hond" ziet, gaan lampjes 1, 5 en 12 aan.
Als het woord "kat" is, gaan lampjes 3, 9 en 20 aan.

De onderzoekers wilden weten: Zien deze lampjes de betekenis van het woord, of zien ze alleen de vorm van de letters?

De Vraag: Is het Brein Slap of Slim?

Ze stelden de computer een simpele test:

Geef de computer een zin in het Servisch-Latijns: "De kat zit op de mat."
Geef de computer dezelfde zin in het Servisch-Cyrillisch: "Кошача седи на мати." (Dit is letterlijk hetzelfde, maar met andere tekens).

De Hypothese:

Als de computer "slap" is: Hij denkt dat het twee verschillende dingen zijn. De lampjes die branden bij de Latijnse versie, zijn totaal anders dan die bij de Cyrillische versie.
Als de computer "slim" is: Hij herkent de betekenis. De lampjes die branden, moeten bijna hetzelfde zijn, ongeacht of de letters er anders uitzien.

Wat Vonden Ze? (De Resultaten)

Het nieuws is geweldig voor de kunstmatige intelligentie: De computer is slim.

Betekenis wint van vorm: De lampjes die brandden voor de Latijnse zin en de Cyrillische zin waren bijna identiek. Het maakt voor de computer kennelijk niet uit hoe het geschreven is, zolang de boodschap maar hetzelfde blijft.
Grotere modellen zijn slimmer: Hoe groter en krachtiger de computer (van kleine tot enorme modellen), hoe beter hij dit doet. Bij de grootste modellen was de overeenkomst tussen de twee schriften zelfs sterker dan bij het herschrijven van een zin in dezelfde taal.
- Analogie: Het is alsof het voor de computer makkelijker is om te begrijpen dat "Hond" en "Dog" hetzelfde zijn, dan om te begrijpen dat "Hond" en "Deze hond is groot" hetzelfde bedoelen. Hij kijkt echt naar de kern, niet naar de verpakking.
Geen "uit het hoofd leren": Ze testten ook of de computer gewoon zinnen uit zijn geheugen had opgezocht (zoals een leerling die een antwoord uit zijn hoofd leert). Zelfs als ze zinnen combineerden die de computer waarschijnlijk nooit eerder samen had gezien (Latijnse origineel + Cyrillische herschrijving), bleef de overeenkomst groot. Dit betekent dat hij echt begrijpt wat er staat, en niet alleen herhaalt wat hij heeft gezien.

Waarom Is Dit Belangrijk?

Stel je voor dat je een robot bouwt die de wereld moet helpen. Je wilt dat hij begrijpt dat een bericht in het Russisch, het Arabisch of het Chinees dezelfde boodschap kan dragen als een bericht in het Nederlands, ook al zien de letters er totaal anders uit.

Deze studie bewijst dat moderne AI-modellen (zoals de Gemma-modellen die ze gebruikten) abstract kunnen denken. Ze zijn niet vastgeklonken aan de letters op het scherm. Ze hebben een "geest" die boven de letters uitkijkt en de echte betekenis vangt.

Conclusie in Eén Zin

De onderzoekers hebben bewezen dat AI-modellen niet blind zijn voor de vorm van tekst; ze kunnen de ziel van de taal zien, zelfs als de kleding (het schrift) volledig verandert. En hoe groter de AI, hoe scherper dat inzicht wordt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations", geschreven in het Nederlands.

Probleemstelling

De centrale vraag die dit onderzoek adresseert, is of de concepten die door Large Language Models (LLMs) worden geleerd, abstracte betekenis (semantiek) vertegenwoordigen of juist sterk gebonden zijn aan de specifieke schrijfwijze (orthografie) en tokenisatiepatronen van de input. Bestaande interpretatiemethoden, zoals Sparse Autoencoders (SAEs), hebben aangetoond dat neurale netwerken interpreteerbare, monosemantische kenmerken kunnen leren. Echter, het is onduidelijk of deze kenmerken robuust zijn tegenover variaties in het schriftsysteem, vooral wanneer twee schriften volledig verschillend worden getokeniseerd door het model.

Methodologie

Het onderzoek gebruikt een gecontroleerd experimenteel ontwerp gebaseerd op digrafie in het Servisch. Servisch is uniek omdat het twee schriften gebruikt die wisselend worden toegepast: het Latijnse en het Cyrillische schrift.

Controlevariabelen:
- Betekenis: De betekenis blijft exact hetzelfde tussen de twee schriften (deterministische, verliesvrije conversie).
- Tokenisatie: De twee schriften worden door LLMs volledig verschillend getokeniseerd; ze delen geen enkele token. Dit creëert een ideale testomgeving om orthografie van betekenis te scheiden.
Modellen en SAE's:
- Er is gebruikgemaakt van de Gemma-modelfamilie (van 270M tot 27B parameters).
- Voor interpretatie werden Gemma Scope 2 SAE's (JumpReLU sparse autoencoders) gebruikt, getraind op modelactivaties met 65.536 features.
- Activaties werden geëxtraheerd uit meerdere lagen (vroege, middelste en late verwerking) en gethresholded ( $\tau = 0.1$ ).
Dataset:
- Een dataset van 30 zinnen-triplets, elk bestaande uit: een originele zin, een parafrase (semantisch equivalent maar lexicaal anders) en een willekeurige zin.
- Deze zinnen zijn vertaald naar Engels, Servisch-Latijns en Servisch-Cyrillisch.
Vergelijkingsmetriek:
- De Jaccard-similairiteit werd gebruikt om de overlap tussen de sets van actieve SAE-features te meten: $J(s_1, s_2) = \frac{|F(s_1) \cap F(s_2)|}{|F(s_1) \cup F(s_2)|}$ .
- Er werden verschillende vergelijkingstypen gemaakt, waaronder "Cross-Script Original" (dezelfde zin in beide schriften) versus "Cross-Script Random" (ongeachte zinnen in verschillende schriften).

Belangrijkste Bijdragen

Nieuw Evaluatieparadigma: Het paper introduceert Servische digrafie als een gestandaardiseerd testbed om te evalueren of geleerde conceptrepresentaties abstracte semantiek vastleggen of gebonden blijven aan script-specifieke tokens.
Aanwijzingen voor Script-Invariantie: Het onderzoek demonstreert dat SAE-features in Gemma-modellen aanzienlijke script-invariantie vertonen. Identieke zinnen in Latijns en Cyrillisch activeren sterk overlappende features, ondanks de volledige disjunctie in tokenisatie.
Schaalafhankelijkheid: Het karakteriseert hoe script-invariantie varieert met modelgrootte, waarbij wordt aangetoond dat grotere modellen consistentere, script-onafhankelijke representaties behouden.

Resultaten

De experimentele resultaten tonen overtuigend aan dat SAE-features semantische structuren boven de oppervlakkige tokenisatie uit kunnen vangen:

Hoge Cross-Script Overlap: Identieke zinnen in Servisch-Latijns en Servisch-Cyrillisch bereikten een gemiddelde Jaccard-similairiteit van ~0,58. Dit is aanzienlijk hoger dan de cross-script willekeurige baseline van ~0,28.
Sterker dan Parafrase: Opmerkelijk genoeg was de overlap tussen dezelfde zin in verschillende schriften (0,58) zelfs groter dan de overlap tussen een zin en zijn parafrase binnen hetzelfde schrift (wat impliceert dat het model gevoeliger is voor woordkeuze dan voor het schriftsysteem).
Geen Memorizatie: De resultaten voor "Cross-Script Cross-Paraphrase" (origineel in het ene schrift vs. parafrase in het andere) waren hoog (~0,47). Omdat deze specifieke combinaties zelden in de trainingsdata voorkomen, suggereert dit dat de overlap het gevolg is van echte semantische uitlijning en niet van memorisatie.
Invloed van Modelgrootte:
- Bij kleinere modellen (270M) was de cross-script originaliteit ~0,50.
- Bij de grootste modellen (27B) steeg dit naar ~0,65.
- Tegelijkertijd daalde de willekeurige baseline bij grotere modellen, wat aangeeft dat grotere modellen scherper kunnen onderscheiden tussen semantisch gerelateerde en ongerelateerde content, ongeacht het schrift.

Betekenis en Conclusie

De bevindingen suggereren dat SAE-geleerde concepten semantische informatie vastleggen op een niveau van abstractie dat de oppervlakkige tokenisatie overstijgt. Dit heeft belangrijke implicaties voor het mechanistisch interpreteren van LLMs:

Semantische Robuustheid: LLMs leren representaties die fundamenteel zijn voor betekenis en niet afhankelijk zijn van de specifieke orthografische vorm van de input.
Interpretatie over Schrijfwijzen: Dit ondersteunt het idee dat SAE's kunnen dienen als een universeel raamwerk voor het begrijpen van concepten in multilinguale en multiscriptuele contexten.
Toekomstig Onderzoek: Het paper stelt Servische digrafie voor als een standaardparadigma voor het testen van de abstractheid van representaties in toekomstige modellen en suggereert dat script-invariantie een fundamenteel kenmerk kan zijn van schaalbare taalmodellen.

Kortom, het onderzoek bewijst dat hoe LLMs tekst "zien" (via tokens), minder belangrijk is voor hun interne conceptrepresentaties dan wat de tekst "betekent".

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Het Grote Experiment: Servisch als de "Twee-Geschriften-Taal"

De "Geheime Camera": Sparse Autoencoders (SAE)

De Vraag: Is het Brein Slap of Slim?

Wat Vonden Ze? (De Resultaten)

Waarom Is Dit Belangrijk?

Conclusie in Eén Zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning