One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um livro de receitas muito especial. Esse livro ensina como fazer um bolo delicioso, mas ele tem uma característica curiosa: a mesma receita pode ser escrita de duas formas diferentes. Uma versão usa o alfabeto que usamos no Brasil (o "Latino"), e a outra usa um alfabeto totalmente diferente, cheio de letras estranhas para nós (o "Cirílico").

Aqui está o ponto mágico: o bolo é exatamente o mesmo. Se você seguir as instruções de qualquer uma das duas versões, o resultado será idêntico. A única diferença é a "roupa" que as palavras vestem.

O artigo que você leu é como um grupo de detetives (os pesquisadores) tentando responder a uma pergunta fundamental sobre a inteligência artificial (IA): Quando a IA "pensa" em um bolo, ela está pensando na receita em si (o significado), ou ela está apenas decorando a forma como as letras estão escritas?

Para descobrir isso, eles usaram uma técnica chamada Autoencoder Esparsos (SAE). Pense nisso como uma "lupa mágica" que permite ver o que está acontecendo dentro do cérebro da IA. Em vez de ver apenas números e códigos, essa lupa revela "conceitos" ou "ideias" que a IA ativou.

A Grande Experiência: O Teste do "Serbo"

Os pesquisadores escolheram a língua sérvia para fazer esse teste. Por que? Porque na Sérvia, as pessoas usam os dois alfabetos (Latino e Cirílico) no dia a dia, e eles podem converter um no outro perfeitamente, sem mudar o significado de nenhuma palavra.

Eles pegaram frases simples, como "O gato está dormindo no sofá", e as colocaram em ambos os alfabetos. O desafio? Para a IA, essas duas frases são totalmente diferentes. Ela não vê nenhuma letra em comum. É como se uma frase fosse escrita em inglês e a outra em código binário.

O Que Eles Descobriram?

Aqui está a parte surpreendente, explicada de forma simples:

A IA Entende a Ideia, Não a Letra:
Quando a IA leu a frase em Latino e depois a mesma frase em Cirílico, os "conceitos" que acenderam no seu cérebro foram quase idênticos. Foi como se você lesse a receita do bolo em português e depois em japonês, e seu cérebro acendesse exatamente os mesmos neurônios de "fazer bolo", ignorando a diferença das letras.
- Analogia: Imagine que você vê um amigo usando um chapéu vermelho e depois o mesmo amigo usando um chapéu azul. Se você reconhece que é o mesmo amigo, você está focado na pessoa, não no chapéu. A IA fez o mesmo: ela focou no significado, não no alfabeto.
A "Roupa" Importa Mais que a "Palavra":
O que foi ainda mais interessante foi comparar a mudança de alfabeto com a mudança de palavras (paráfrase).
- Mudar o alfabeto (Latino para Cirílico) causou menos confusão na IA do que mudar as palavras da mesma frase (ex: "O gato dorme" vs. "O felino está descansando").
- Isso significa que a IA é mais sensível a como você diz algo (as palavras exatas) do que a onde você escreve (o alfabeto). O significado abstrato é mais forte que a forma escrita.
Quanto Maior a IA, Melhor a Compreensão:
Eles testaram IAs de tamanhos diferentes (de "pequenas" a "gigantes"). Descobriram que as IAs maiores são ainda melhores em ignorar a diferença dos alfabetos. Elas conseguem ver que o "bolo" é o mesmo, não importa se a receita está escrita em letras redondas ou letras pontudas.

Por Que Isso é Importante?

Imagine que a IA fosse um tradutor que só aprendeu a ler em uma língua. Se você mudasse o alfabeto, ela ficaria confusa. Mas este estudo mostra que, ao contrário, as IAs modernas estão aprendendo a essência das coisas.

Sem "Decoreba": Eles provaram que a IA não está apenas "decorando" frases que viu no treinamento. Como as combinações de frases em alfabetos diferentes são raras nos dados de treino, o fato de a IA entender que são a mesma coisa prova que ela aprendeu o significado, não apenas a memória.
Futuro Melhor: Isso é ótimo para o futuro. Significa que podemos confiar que a IA vai entender o que queremos dizer, não importa se escrevemos em um alfabeto ou em outro, ou se usamos gírias diferentes. Ela está aprendendo a "alma" da linguagem, não apenas a "pele".

Resumo em uma Frase

Este estudo mostrou que, quando uma IA inteligente lê a mesma ideia escrita em dois alfabetos totalmente diferentes, ela não fica confusa com as letras; ela reconhece a ideia por trás delas, provando que ela aprendeu a entender o significado e não apenas a forma.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Invariância de Script em Representações de Conceitos de LLMs

1. O Problema

A pesquisa aborda uma questão fundamental na interpretabilidade de Grandes Modelos de Linguagem (LLMs): as características (features) aprendidas pelos modelos representam significado abstrato ou estão intrinsecamente ligadas a padrões específicos de tokens e ortografia?
Com a crescente interação de usuários de diversas línguas com sistemas de IA, é crucial entender se os modelos codificam o significado de forma agnóstica ao sistema de escrita ou se a representação semântica é fragmentada por diferentes scripts (alfabetos). O desafio reside no fato de que, em muitas línguas, a variação de script (ex: Devanagari vs. Nastaliq no Hindi-Urdu) frequentemente vem acompanhada de diferenças lexicais ou mapeamentos imperfeitos, dificultando o isolamento da variável "script" da variável "significado".

2. Metodologia

Os autores propõem o uso do Digrafia Sérvia como um "laboratório controlado" ideal para este teste. O sérvio é uma das poucas línguas ativas com digrafia, sendo escrita intercambiavelmente em alfabeto latino e cirílico.

Controle Experimental:
- Mapeamento Determinístico: Existe uma conversão lossless (sem perda) entre os dois scripts, garantindo que o significado permaneça exatamente o mesmo.
- Tokenização Disjunta: Crucialmente, os modelos de linguagem (LLMs) tokenizam os dois scripts de forma completamente diferente, sem compartilhar nenhum token entre si. Isso elimina qualquer sinal superficial que indique que as duas sequências representam a mesma língua.
- Dataset: Foi construído um conjunto de dados com 30 tripletos de frases (Originais, Paráfrases e Frases Aleatórias) em três variantes: Inglês, Sérvio Latino e Sérvio Cirílico.
Modelos e Ferramentas:
- Modelos: Família Gemma (versões de 270M a 27B parâmetros).
- SAEs (Autoencoders Esparsos): Utilização do Gemma Scope 2 (65.536 features, arquitetura JumpReLU) para decompor as ativações da rede em características interpretáveis.
- Métrica de Similaridade: Similaridade de Jaccard sobre os conjuntos de features ativadas ( $F(s)$ ) para medir a sobreposição representacional entre frases.
Tipos de Comparação:
1. Cross-Script Original: Mesma frase em Latino vs. Cirílico (Teste principal de invariância).
2. Cross-Script Paraphrase: Mesma paráfrase em ambos os scripts.
3. Cross-Script Cross-Paraphrase: Frase original em um script vs. paráfrase no outro (testa variação combinada de script e léxico).
4. Baselines: Frases aleatórias dentro do mesmo script, entre scripts e entre línguas (Sérvio vs. Inglês).

3. Principais Contribuições

Novo Paradigma de Avaliação: Introdução da digrafia sérvia como um método controlado para avaliar se representações de conceitos capturam semântica abstrata ou permanecem atreladas a tokens específicos de script.
Evidência de Invariância de Script: Demonstração de que features de SAE em modelos Gemma exibem uma invariância de script substancial. Frases idênticas em scripts diferentes ativam conjuntos de features altamente sobrepostos, superando significativamente as linhas de base aleatórias.
Caracterização da Escala: Análise de como a invariância de script varia com o tamanho do modelo, descobrindo que modelos maiores mantêm representações mais consistentes e independentes do script.

4. Resultados Chave

Alta Similaridade Cross-Script: Frases idênticas em sérvio latino e cirílico alcançaram uma similaridade de Jaccard média de ~0,58. Isso é significativamente maior que a linha de base aleatória cross-script (~0,28) e até superior à similaridade de paráfrases dentro do mesmo script em alguns casos.
Hierarquia Semântica: A ordem de similaridade observada foi:
Original Cross-Script (0,58) > Paráfrase Cross-Script (0,59) > Cross-Script Cross-Paráfrase (0,47) > Aleatório Cross-Script (0,28) > Aleatório Cross-Língua (0,19).
Isso sugere que as features de SAE priorizam o significado sobre a forma ortográfica.
Efeito da Escala do Modelo:
- A similaridade de frases idênticas entre scripts aumentou de 0,50 (modelo de 270M) para 0,65 (modelo de 27B).
- Simultaneamente, a similaridade aleatória cross-script diminuiu, indicando que modelos maiores desenvolvem representações mais robustas e discriminativas, separando melhor o sinal semântico do ruído de tokenização.
Contra Memorização: A alta sobreposição em combinações "Cross-Script Cross-Paraphrase" (que raramente co-ocorrem nos dados de treinamento) fornece evidências contra explicações baseadas em memorização, sugerindo um alinhamento semântico genuíno.

5. Significado e Implicações

Abstração Semântica: Os resultados indicam que as features aprendidas por SAEs capturam a estrutura semântica em um nível de abstração acima da tokenização superficial. O modelo "entende" que as duas escritas são a mesma língua, apesar da ausência de tokens compartilhados.
Interpretabilidade: Reforça o potencial dos SAEs como ferramentas para descobrir conceitos interpretáveis e generalizáveis que transcendem formatos de entrada específicos.
Futuro da Pesquisa: A digrafia sérvia é proposta como um benchmark padrão para futuras investigações sobre invariância de script e abstração ortográfica em redes neurais. Isso tem implicações para a interpretabilidade multilíngue e para a compreensão de como os LLMs generalizam o significado através de barreiras linguísticas e ortográficas.

Em suma, o estudo demonstra que, à medida que os modelos de linguagem crescem em escala, eles aprendem a representar o significado de forma cada vez mais independente de como o texto é escrito, superando as barreiras impostas por diferentes sistemas de tokenização.

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

A Grande Experiência: O Teste do "Serbo"

O Que Eles Descobriram?

Por Que Isso é Importante?

Resumo em uma Frase

Resumo Técnico: Invariância de Script em Representações de Conceitos de LLMs

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Implicações

Mais como este

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning