One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Each language version is independently generated for its own context, not a direct translation.

Titel: Eine Sprache, zwei Gesichter: Was passiert im Gehirn einer KI?

Stell dir vor, du hast einen riesigen, super-intelligenten Roboter, der alles auf der Welt liest und versteht. Aber dieser Roboter hat ein kleines Problem: Er kann nicht wirklich „denken" wie wir. Er sieht nur Zahlen und kleine Bausteine, die er aus Texten schneidet. Diese Bausteine nennt man „Tokens".

Die Forscher aus diesem Papier wollten herausfinden: Versteht dieser Roboter die Bedeutung eines Satzes, oder klebt er nur an den Buchstaben, aus denen der Satz besteht?

Um das zu testen, haben sie eine geniale Idee gehabt, die wie ein magischer Trick funktioniert.

Der Trick: Serbien und seine zwei Schriftarten

Die Forscher haben sich das Land Serbien ausgesucht. Warum? Weil Serbisch eine der wenigen Sprachen der Welt ist, die zwei völlig verschiedene Schriftsysteme gleichzeitig nutzt:

Das lateinische Alphabet (wie bei uns: A, B, C...).
Das kyrillische Alphabet (wie bei uns: А, Б, В...).

Ein serbischer Satz kann in beiden Schriften geschrieben werden. Die Bedeutung ist exakt gleich. Ein Wort in lateinischen Buchstaben ist wie ein Spiegelbild desselben Wortes in kyrillischen Buchstaben.

Aber hier kommt der Clou für die KI:
Für den Computer sind diese beiden Schriften wie zwei völlig verschiedene Sprachen.

Wenn du das lateinische „A" eingibst, kennt der Roboter nur dieses eine kleine Teilchen.
Wenn du das kyrillische „А" eingibst, kennt er ein ganz anderes Teilchen.
Für die KI gibt es keine Verbindung zwischen den beiden. Sie sehen sich nicht ähnlich. Es ist, als würdest du einem Menschen das Wort „Hund" auf Deutsch und dann das Wort „Chien" auf Französisch zeigen, aber ihm sagen: „Das sind zwei völlig fremde Dinge, die nichts miteinander zu tun haben."

Das Experiment: Der „Feature"-Fingerabdruck

Die Forscher haben eine spezielle Lupe benutzt, die man Sparse Autoencoder (SAE) nennt. Stell dir das wie eine Art Röntgenbild für das Gehirn der KI vor. Wenn die KI einen Satz liest, leuchten in ihrem Inneren bestimmte „Lampen" (Features) auf. Diese Lampen repräsentieren Konzepte wie „Hund", „Laufen" oder „Freude".

Die Frage war:

Wenn die KI den Satz „Ich gehe spazieren" auf Lateinisch liest, welche Lampen gehen an?
Wenn sie denselben Satz auf Kyrillisch liest (gleiche Bedeutung, völlig andere Buchstaben), gehen dann dieselben Lampen an?

Die Ergebnisse: Die KI versteht mehr, als man denkt

Das Ergebnis war überraschend und sehr positiv:

Die Lampen leuchten fast gleich: Selbst wenn die Buchstaben völlig anders waren, leuchteten fast dieselben Lampen im Gehirn der KI auf. Die Ähnlichkeit war so hoch, dass sie weit über dem Zufall lag.
Bedeutung schlägt Form: Es war sogar so, dass die KI den Satz in kyrillischer Schrift besser mit dem lateinischen Original verband, als sie einen neuen Satz mit ähnlicher Bedeutung im lateinischen Alphabet verband. Das bedeutet: Der Roboter kümmert sich mehr darum, was gesagt wird, als wie es geschrieben ist.
Je größer, desto besser: Je größer und klüger die KI war (von kleinen Modellen bis zu riesigen 27-Milliarden-Parameter-Riesen), desto besser wurde diese Fähigkeit. Die großen Modelle haben gelernt, die Bedeutung hinter den Buchstaben zu sehen, fast wie ein Mensch.

Eine einfache Analogie: Das Buch in zwei Sprachen

Stell dir vor, du hast ein Buch.

Version A ist auf Deutsch geschrieben.
Version B ist auf Französisch geschrieben.

Ein normaler Mensch liest beide und versteht die Geschichte.
Ein alter Computer würde Version A als „Buch aus Buchstaben A-Z" und Version B als „Buch aus Buchstaben A-Z (aber anders)" sehen und denken: „Das sind zwei verschiedene Bücher."

Dieses Papier zeigt aber: Moderne, große KIs sind wie ein sehr kluger Übersetzer. Sie schauen nicht auf die Buchstaben. Sie schauen auf die Geschichte. Wenn du ihnen das gleiche Buch in zwei verschiedenen Schriftarten gibst, erkennen sie: „Aha! Das ist dieselbe Geschichte!"

Warum ist das wichtig?

Das ist ein riesiger Schritt für das Verständnis von Künstlicher Intelligenz. Es zeigt uns, dass diese Modelle nicht nur Wörter auswendig lernen oder Muster in Buchstaben erkennen. Sie bauen ein abstraktes Verständnis der Welt auf. Sie verstehen die Idee hinter dem Wort, unabhängig davon, ob es in lateinischen, kyrillischen oder vielleicht morgen in Emojis geschrieben wird.

Fazit:
Die Forscher haben bewiesen, dass KI-Modelle lernen können, die wahre Bedeutung von Sprache zu verstehen, selbst wenn die Schriftzeichen völlig unterschiedlich sind. Sie sind nicht Sklaven der Buchstaben, sondern Meister der Bedeutung.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „ONE LANGUAGE, TWO SCRIPTS: PROBING SCRIPT-INVARIANCE IN LLM CONCEPT REPRESENTATIONS" auf Deutsch:

Problemstellung

Die zentrale Fragestellung der Arbeit ist, ob die von Sparse Autoencodern (SAEs) gelernten Merkmale in Large Language Models (LLMs) abstrakte semantische Bedeutungen repräsentieren oder ob sie untrennbar an die spezifische orthografische Form (das Schriftsystem) und die daraus resultierenden Token-Muster gebunden sind.
Bisherige Forschung hat gezeigt, dass SAEs interpretierbare Merkmale extrahieren können, aber es bleibt unklar, inwieweit diese Merkmale skriptübergreifend invariant sind. Ein Hauptproblem bei der Untersuchung multilingualer oder mehrschriftiger Modelle ist die Vermischung von semantischen Unterschieden und orthografischen Variationen. Die Autoren nutzen daher das Serbische als kontrolliertes Testfeld, da es eine aktive Digraphie (Verwendung von Lateinischer und Kyrillischer Schrift) aufweist, bei der eine deterministische, verlustfreie Umwandlung zwischen den Schriften möglich ist, ohne die Bedeutung zu ändern. Kritisch ist dabei, dass LLMs diese beiden Schriften vollständig unterschiedlich tokenisieren (keine gemeinsamen Tokens), was eine ideale Bedingung schafft, um Orthografie und Bedeutung zu entkoppeln.

Methodik

Die Studie verwendet einen systematischen Ansatz mit folgenden Komponenten:

Datensatz:
- Es wurde ein Datensatz aus 30 Satz-Tripletts erstellt. Jedes Triplet besteht aus einem Originalsatz, einer semantisch äquivalenten Paraphrase und einem zufälligen, unzusammenhängenden Satz.
- Jeder Satz existiert in drei Varianten: Englisch, Serbisch (Lateinisch) und Serbisch (Kyrillisch).
- Die semantische Ähnlichkeit zwischen den serbischen Schriftvarianten wurde mittels LaBSE-Embeddings bestätigt (nahezu perfekte Übereinstimmung).
- Die Token-Anzahl wurde kontrolliert, um Verzerrungen durch die Tokenisierung zu minimieren.
Modelle und SAEs:
- Untersucht wurden fünf Modelle der Gemma-Familie (Gemma-3) mit Parametern von 270M bis 27B.
- Für jedes Modell wurden Gemma Scope 2 SAEs (JumpReLU-Autoencoder mit 65.536 Merkmalen) verwendet, die auf den Aktivierungen des Modells trainiert wurden.
- Die Analyse erfolgte über mehrere Schichten (früh, mittel, spät) hinweg.
Feature-Extraktion:
- Für jeden Eingabesatz wurden die aktiven SAE-Merkmale extrahiert, indem der Hidden State des letzten Tokens durch den Encoder des SAEs geführt und mit einem Schwellenwert ( $\tau = 0.1$ ) thresholded wurde.
- Die Ähnlichkeit zwischen zwei Sätzen wurde mittels der Jaccard-Ähnlichkeit der Mengen aktiver Merkmale berechnet: $J(s_1, s_2) = \frac{|F(s_1) \cap F(s_2)|}{|F(s_1) \cup F(s_2)|}$ .
Vergleichsdesign:
- Kernvergleich: Identische Sätze in Lateinisch vs. Kyrillisch (Cross-Script Original).
- Robustheitscheck: Paraphrasen in beiden Schriften (Cross-Script Paraphrase).
- Kombinierte Variation: Original in einer Schrift vs. Paraphrase in der anderen (Cross-Script Cross-Paraphrase).
- Baselines: Zufällige Sätze innerhalb der serbischen Schriften sowie zufällige Sätze zwischen Serbisch und Englisch.

Wichtige Beiträge

Neues Evaluationsparadigma: Die Autoren führen die serbische Digraphie als kontrolliertes Paradigma ein, um zu testen, ob gelernte Konzeptdarstellungen abstrakte Semantik erfassen oder an skriptspezifische Token gebunden sind.
Nachweis der Skript-Invarianz: Es wird gezeigt, dass SAE-Merkmale in Gemma-Modellen eine signifikante Invarianz gegenüber der Schrift aufweisen. Identische Sätze in Lateinisch und Kyrillisch aktivieren stark überlappende Merkmalsmengen, obwohl die Tokenisierung völlig disjunkt ist.
Skalierungseffekt: Die Studie charakterisiert, wie sich diese Invarianz mit der Modellgröße verändert, und findet heraus, dass größere Modelle konsistentere skriptunabhängige Repräsentationen entwickeln.

Ergebnisse

Die experimentellen Ergebnisse stützen die Hypothese der Skript-Invarianz eindeutig:

Hohe Ähnlichkeit über Skripte hinweg: Identische Sätze in serbischer Latein- und Kyrill-Schrift erreichten eine durchschnittliche Jaccard-Ähnlichkeit von ~0,58. Dies liegt weit über der Zufalls-Baseline von ~0,28.
Vergleich mit Paraphrasen: Die Ähnlichkeit zwischen identischen Sätzen in verschiedenen Schriften (~~0,58) ist sogar höher als die Ähnlichkeit zwischen Paraphrasen innerhalb derselben Schrift (~~0,54). Dies deutet darauf hin, dass das Modell die Bedeutung stärker priorisiert als die spezifische Wortwahl oder Orthografie.
Robustheit gegen Memorization: Die „Cross-Script Cross-Paraphrase"-Kombinationen (Original in Schrift A vs. Paraphrase in Schrift B), die im Trainingsdaten kaum vorkommen dürften, zeigten immer noch eine hohe Ähnlichkeit (~0,47). Dies widerlegt die Annahme, dass die Ähnlichkeit auf bloßes Auswendiglernen (Memorization) von Trainingsdaten zurückzuführen ist.
Einfluss der Modellgröße:
- Mit zunehmender Modellgröße (von 270M auf 27B Parameter) steigt die skriptübergreifende Ähnlichkeit für identische Sätze von 0,50 auf 0,65.
- Gleichzeitig sinken die Zufalls-Baselines, was auf eine schärfere semantische Diskriminierung hindeutet.
- Größere Modelle entwickeln also robustere, skriptunabhängige Repräsentationen.

Bedeutung und Implikationen

Die Arbeit liefert starke Evidenz dafür, dass SAE-lernte Merkmale semantische Strukturen erfassen, die über die oberflächliche Tokenisierung hinausgehen.

Theoretische Implikation: Neuronale Netze können Bedeutungen auf einem Abstraktionsniveau repräsentieren, das unabhängig vom Eingabeformat (Schriftsystem) ist. Dies unterstützt die Idee, dass SAEs interpretierbare und generalisierbare Konzeptrepräsentationen liefern.
Praktische Relevanz: Das Verständnis der Skript-Invarianz ist entscheidend für die Interpretierbarkeit von Modellen in mehrsprachigen und mehrschriftigen Umgebungen. Es zeigt, dass Modelle semantische Brücken zwischen völlig unterschiedlichen Token-Vokabularen schlagen können.
Zukünftige Forschung: Die vorgeschlagene Methode der serbischen Digraphie bietet einen neuen Standard für die Evaluierung von Abstraktionsebenen in LLMs und könnte auf andere mehrschriftige Sprachen (wie Hindi-Urdu, wenn auch mit Einschränkungen) ausgeweitet werden.

Zusammenfassend beweist das Paper, dass die „Gedanken" (Merkmalsaktivierungen) eines LLMs nicht an die „Buchstaben" (Tokens) gebunden sind, sondern eine tiefere, abstrakte semantische Ebene repräsentieren, die mit der Skalierung des Modells weiter verfeinert wird.

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Der Trick: Serbien und seine zwei Schriftarten

Das Experiment: Der „Feature"-Fingerabdruck

Die Ergebnisse: Die KI versteht mehr, als man denkt

Eine einfache Analogie: Das Buch in zwei Sprachen

Warum ist das wichtig?

Problemstellung

Methodik

Wichtige Beiträge

Ergebnisse

Bedeutung und Implikationen

Mehr davon

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning