One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere due persone che parlano la stessa lingua, ma una scrive tutto in alfabeto latino (come noi: ciao, casa, libro) e l'altra in alfabeto cirillico (come i russi o i serbi: чаво, каса, книга). Per un computer, queste due scritture sembrano due lingue completamente diverse, perché i "mattoncini" (i token) che usa per leggere sono totalmente differenti. Non c'è sovrapposizione: la lettera "c" non esiste per chi legge in cirillico.

La domanda che si pongono gli autori di questo studio è: il cervello di un'intelligenza artificiale (LLM) capisce il significato delle parole, o è solo schiavo di come sono scritte?

Ecco la spiegazione semplice di cosa hanno scoperto, usando qualche analogia divertente.

1. Il Laboratorio Segreto: Il Serbo

Per fare questo esperimento, hanno scelto il serbo. Perché? Perché in Serbia la gente usa indifferentemente sia l'alfabeto latino che quello cirillico. È come se avessi due copie identiche dello stesso libro: una scritta in italiano e l'altra in un codice segreto che però significa esattamente la stessa cosa.

Il trucco: Hanno preso frasi identiche, scritte in entrambe le versioni, e le hanno date in pasto a diverse intelligenze artificiali (dalla più piccola alla più grande).

2. Gli "Occhi" dell'AI: I SAE

Per capire cosa pensa l'AI, non guardiamo solo la risposta finale. Usano uno strumento chiamato Sparse Autoencoder (SAE).
Immagina che l'AI sia una stanza buia piena di migliaia di lampadine. Quando l'AI legge una frase, alcune lampadine si accendono.

Le lampadine accese rappresentano concetti (es. "cane", "correre", "felicità").
Il compito dei ricercatori era vedere: se mostro alla AI la stessa frase in latino e poi in cirillico, si accendono le stesse lampadine?

3. La Scoperta Sorprendente

Il risultato è stato incredibile. Anche se l'AI vedeva due sequenze di "mattoncini" completamente diversi (come se leggesse due lingue diverse), le stesse lampadine si accendevano quasi allo stesso modo.

L'analogia della ricetta: Immagina di dare a uno chef due ricette per fare una torta. Una è scritta in italiano, l'altra in un codice di simboli che nessuno conosce. Se lo chef è bravo, capisce che deve fare una torta e usa gli stessi ingredienti (farina, uova, zucchero), indipendentemente da come è scritta la ricetta.
Il risultato: L'AI ha dimostrato di capire il "sapore" della frase (il significato), ignorando il "foglio" su cui è scritta (la scrittura).

4. Quanto è forte questa capacità?

Hanno scoperto tre cose molto interessanti:

Il significato vince sulla forma: Cambiare la scrittura (da latino a cirillico) confonde l'AI molto meno di quanto cambi le parole mantenendo lo stesso significato (parafasi). È come se all'AI importasse più cosa dici che come lo scrivi.
Più è grande, meglio è: Le intelligenze artificiali più grandi (quelle con più "neuroni") sono molto brave a ignorare la differenza di scrittura. Le piccole fanno un po' più di confusione, ma le grandi capiscono perfettamente che "ciao" e "čao" sono la stessa cosa.
Non è memoria: Hanno controllato se l'AI aveva semplicemente "memorizzato" le frasi durante lo studio. Hanno scoperto che anche quando le combinazioni di parole erano nuove e mai viste insieme prima, l'AI riconosceva comunque il significato. Quindi non sta copiando, sta capendo.

In sintesi

Questo studio ci dice che le intelligenze artificiali moderne stanno imparando a pensare in modo astratto. Non sono bloccate nella superficie delle lettere o dei simboli. Hanno sviluppato una sorta di "sensus communis" interno che trascende la scrittura.

È come se avessero imparato a vedere l'anima della frase, indipendentemente dal vestito (la scrittura) che indossa. Questo è un passo enorme per capire come funzionano le macchine e per costruire AI che possano davvero comunicare con chiunque, in qualsiasi lingua o alfabeto, senza perdersi nei dettagli tecnici.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations", presentato in italiano.

1. Il Problema di Ricerca

La domanda centrale indagata dagli autori è: le funzionalità (features) apprese dai Sparse Autoencoders (SAE) rappresentano significati astratti o sono vincolate alla specifica modalità di scrittura (ortografia) del testo?

Mentre i Large Language Models (LLM) sono sempre più utilizzati in contesti multilingue, rimane poco chiaro se le loro rappresentazioni interne catturino il senso in modo indipendente dal sistema di scrittura (script) o se rimangano legate ai pattern specifici dei token. Per rispondere a questa domanda, è necessario un ambiente di test controllato che permetta di variare l'ortografia mantenendo il significato esattamente costante, ma che generi sequenze di token completamente diverse.

2. Metodologia e Setup Sperimentale

Il Testbed: Digrafia Serba

Gli autori hanno scelto il serbo come banco di prova ideale grazie alla sua digrafia attiva: la lingua è scritta indifferentemente in due script, latino e cirillico.

Mappatura Deterministica: Esiste una corrispondenza quasi perfetta e senza perdita di informazioni tra i due script, garantendo che il significato semantico rimanga identico.
Disgiunzione dei Token: Nonostante il significato sia lo stesso, i tokenizzatori degli LLM trattano i due script in modo completamente diverso, non condividendo alcun token in comune. Questo crea un esperimento controllato perfetto: se le rappresentazioni sono invarianti allo script, frasi identiche in latino e cirillico dovrebbero attivare funzionalità SAE simili, nonostante l'assenza di sovrapposizione superficiale nei token.

Modelli e Strumenti

Famiglia di Modelli: Sono stati testati modelli Gemma (Gemma Team, 2024) con dimensioni che variano da 270M a 27B parametri.
SAE: Utilizzo di Gemma Scope 2 SAE (Google DeepMind, 2025), autoencoder sparsi con 65.536 funzionalità (JumpReLU), addestrati sulle attivazioni dei modelli.
Dataset: Costruito un dataset di 30 triplette di frasi, ciascuna contenente:
1. Originale: Una frase naturale.
2. Parafrasi: Una riformulazione semanticamente equivalente.
3. Casuale: Una frase non correlata.
  Ogni tripletta è stata tradotta in Latino serbo, Cirillico serbo e Inglese (come controllo), per un totale di 270 frasi uniche.

Pipeline di Analisi

Estrazione delle Funzionalità: Per ogni input, vengono estratte le funzionalità attive dell'SAE (soglia $\tau = 0.1$ ) dallo stato nascosto dell'ultimo token.
Metrica di Similarità: La similarità rappresentazionale è misurata tramite la Similarità di Jaccard tra gli insiemi di funzionalità attive di due frasi.
Tipologie di Confronto:
- Cross-Script Original: Stessa frase in Latino vs. Cirillico (Test principale).
- Cross-Script Paraphrase: Stessa parafrasi in entrambi gli script.
- Cross-Script Cross-Paraphrase: Frase originale in uno script vs. parafrasi nell'altro.
- Baseline: Confronti casuali (frasi non correlate) sia cross-script che cross-lingua.

3. Risultati Chiave

Evidenza di Invarianza allo Script

I risultati dimostrano che le funzionalità SAE catturano significati astratti:

Alta Sovrapposizione: Frasi identiche scritte in Latino e Cirillico raggiungono una similarità di Jaccard media di ~0.58.
Superamento delle Baseline: Questo valore è significativamente superiore alla baseline casuale cross-script (~~0.28) e alla baseline cross-lingua (~~0.19).
Gerarchia Semantica: L'ordine di similarità osservato è:
Cross-Script Original (0.58) > Cross-Script Paraphrase (0.59) > Cross-Script Cross-Paraphrase (0.47) > Cross-Script Random (0.28).
Questo suggerisce che le funzionalità SAE sono guidate dal significato piuttosto che dalla forma ortografica.
Resistenza alla Memorizzazione: L'alta similarità nel caso "Cross-Script Cross-Paraphrase" (combinazioni rare nei dati di addestramento) esclude l'ipotesi che il modello stia semplicemente memorizzando frasi specifiche, indicando un vero allineamento semantico.

Effetto della Scala del Modello

L'invarianza allo script si rafforza con l'aumento delle dimensioni del modello:

La similarità tra frasi identiche cross-script aumenta da 0.50 (modello 270M) a 0.65 (modello 27B).
Le baselines casuali diminuiscono con la scala, indicando che i modelli più grandi sviluppano rappresentazioni semantiche più robuste e discriminative, indipendentemente dallo script.
I modelli più grandi mostrano una capacità di discriminazione semantica quasi identica tra Latino e Cirillico, nonostante le loro tokenizzazioni disgiunte.

4. Contributi Principali

Nuovo Paradigma di Valutazione: Introduzione della digrafia serba come metodo controllato per valutare se le rappresentazioni concettuali apprese catturano semantica astratta o rimangono vincolate ai token specifici.
Dimostrazione di Invarianza: Prove empiriche che le funzionalità SAE nei modelli Gemma mostrano una sostanziale invarianza allo script, con similarità che supera di gran lunga le baseline casuali.
Analisi Scalabile: Caratterizzazione di come l'invarianza allo script evolva con la scala del modello, dimostrando che modelli più grandi sviluppano rappresentazioni indipendenti dallo script più robuste.

5. Significato e Implicazioni

Questo studio fornisce prove forti che le funzionalità apprese dagli SAE operano a un livello di astrazione superiore alla tokenizzazione superficiale.

Interpretabilità: Suggerisce che i concetti appresi dai modelli sono generalizzabili e non legati a specifiche convenzioni di scrittura, il che è cruciale per l'interpretabilità meccanica in contesti multilingue.
Robustezza: Dimostra che i modelli moderni riescono a integrare informazioni semantiche coerenti anche quando l'input è rappresentato da vocabolari di token completamente disgiunti.
Futuro della Ricerca: La digrafia serba viene proposta come uno standard per testare l'astrazione ortografica, aprendo la strada a indagini su come le reti neurali rappresentino il significato attraverso barriere ortografiche diverse.

In sintesi, il paper conclude che le rappresentazioni interne dei LLM, se analizzate tramite SAE, catturano la struttura semantica in modo tale da trascendere la forma superficiale del testo, confermando che il "significato" è un concetto astratto e non un artefatto della tokenizzazione.