One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes dos amigos muy inteligentes, pero hablan un poco diferente: uno escribe todo con letras latinas (como en español o inglés) y el otro con letras cirílicas (como en ruso). Aunque usan alfabetos distintos, dicen exactamente lo mismo y significan lo mismo.

Este es el corazón de un nuevo estudio científico sobre cómo funcionan los "cerebros" de las Inteligencias Artificiales (IA). Aquí te explico de qué trata, usando analogías sencillas:

🧠 El Gran Misterio: ¿Piensan en "palabras" o en "ideas"?

Los investigadores querían saber algo fundamental: Cuando una IA aprende algo, ¿está aprendiendo el significado real de las cosas, o solo está memorizando cómo se ven las letras?

Para probarlo, usaron al serbio. El serbio es un idioma único porque sus hablantes escriben lo mismo en dos alfabetos diferentes (latino y cirílico) de forma intercambiable. Es como si tú pudieras escribir "gato" o "gato" pero con letras totalmente distintas, y ambos significaran exactamente lo mismo.

🔍 La Herramienta: Los "Detectives de Ideas" (SAE)

Los científicos usaron una herramienta llamada Autoencoder Escaso (SAE). Imagina que esta herramienta es como un detective de ideas que puede abrir el cerebro de la IA y ver qué "luces" se encienden cuando la IA lee una frase.

Si la IA solo memoriza letras, las luces se encenderían de forma totalmente diferente para el alfabeto latino y el cirílico.
Si la IA entiende el significado, las luces deberían encenderse de forma muy similar, sin importar qué letras se usen.

🏃‍♂️ El Experimento: La Carrera de Obstáculos

Los investigadores tomaron frases serbias y las pusieron a la IA a leer en dos versiones:

Versión A: Escrita en alfabeto latino.
Versión B: Escrita en alfabeto cirílico.

Además, crearon versiones "reescritas" (parafraseadas) para ver si la IA distinguía entre decir lo mismo con otras palabras o cambiar el alfabeto.

¿Qué descubrieron?
¡Fue sorprendente!

Cuando la IA leía la misma frase en alfabeto latino y en cirílico, las "luces" de su cerebro se encendían casi igual.
De hecho, la IA confundía menos las dos versiones del mismo alfabeto que confundía una frase original con una frase reescrita.
La analogía: Es como si tuvieras un libro en español y otro en francés que cuentan la misma historia. Si tu cerebro entendiera la historia, no le importaría si las palabras están en español o francés; sentirías la misma emoción. La IA hizo exactamente eso: ignoró las letras y se centró en la historia.

📈 El Factor "Tamaño": Cuanto más grande, más sabio

El estudio probó esto en modelos de IA de diferentes tamaños (desde pequeños hasta gigantes).

Los modelos pequeños: Tenían un poco más de confusión entre los alfabetos.
Los modelos gigantes: Eran expertos en entender que, aunque las letras cambien, el significado es el mismo. Cuanto más grande es la IA, más "sabia" se vuelve y menos le importa si las letras son latinas o cirílicas.

💡 ¿Por qué es esto importante?

Imagina que estás aprendiendo un idioma nuevo. Al principio, te fijas en cómo se escriben las palabras. Pero cuando te vuelves un experto, ya no piensas en las letras; piensas en conceptos.

Este estudio nos dice que las IAs modernas están llegando a ese nivel de "experto". Han aprendido a separar el significado (la idea abstracta) de la forma (las letras específicas).

En resumen:
La IA no es una máquina que solo memoriza cómo se escriben las cosas. Ha aprendido a entender el alma de las palabras, sin importar si están escritas en un alfabeto u otro. Es como si, al leer un mensaje en un código secreto, la IA no se detuviera a descifrar el código, sino que simplemente entendiera el mensaje de inmediato.

Esto es una gran noticia para el futuro, porque significa que estas máquinas podrían entender y conectar culturas y lenguas de una manera mucho más humana y profunda de lo que pensábamos.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Invarianza de Guion en las Representaciones de Conceptos de los LLM

1. Planteamiento del Problema

La pregunta central de la investigación es si las características (features) aprendidas por los Autoencoders Dispersos (SAEs) en los Modelos de Lenguaje Grandes (LLM) representan significados abstractos o si están intrínsecamente atadas a patrones específicos de tokens y sistemas de escritura (ortografía).

Aunque se ha estudiado la transferencia entre idiomas, existe una brecha en la comprensión de cómo los modelos manejan la variación ortográfica dentro de un mismo idioma. La mayoría de los idiomas con múltiples sistemas de escritura (digrafía) presentan desafíos como mapeos imperfectos o diferencias léxicas. Este trabajo busca aislar la variable "escritura" manteniendo constante el "significado" para probar la abstracción semántica de los LLM.

2. Metodología y Diseño Experimental

A. El Banco de Pruebas: Digrafía Serbia
Los autores utilizan el serbio como entorno controlado ideal debido a su digrafía activa:

Se escribe indistintamente en alfabeto latino y cirílico.
Existe un mapeo determinista y sin pérdida entre ambos sistemas, garantizando que el significado semántico sea idéntico.
Punto crítico: Los tokenizadores de los LLM procesan estos dos alfabetos de manera completamente diferente, sin compartir ningún token en común. Esto permite variar la ortografía sin alterar la semántica, creando un experimento controlado perfecto.

B. Configuración del Modelo y Datos

Modelos: Se evaluó la familia de modelos Gemma (de Google DeepMind), abarcando una escala de parámetros desde 270M hasta 27B.
Herramienta de Interpretación: Se utilizaron SAEs de Gemma Scope 2 (65,536 características, activación JumpReLU) entrenados sobre las activaciones de los modelos.
Dataset: Se construyó un conjunto de 30 tripletes de oraciones, cada uno con:
1. Original: Una oración natural.
2. Parafraseo: Una reescritura semánticamente equivalente.
3. Aleatorio: Una oración sin conexión semántica.
- Cada triplete se tradujo a Inglés, Serbio Latino y Serbio Cirílico (total: 270 oraciones únicas).
Extracción de Características: Se extrajeron las características activas de las capas finales de los modelos (pooling del último token) con un umbral de activación $\tau = 0.1$ .

C. Métricas de Evaluación
La similitud representacional se midió utilizando la Similitud de Jaccard sobre los conjuntos de características activas ( $F(s)$ ) de dos oraciones:
$J(s_1, s_2) = \frac{|F(s_1) \cap F(s_2)|}{|F(s_1) \cup F(s_2)|}$

D. Tipos de Comparación
El estudio comparó múltiples escenarios para aislar el efecto del guion:

Original vs. Parafraseo (Intra-guion): Verifica si el SAE captura similitud semántica dentro del mismo alfabeto.
Original Cruzado (Cross-Script Original): La misma oración en Latino vs. Cirílico (Prueba principal de invarianza).
Parafraseo Cruzado (Cross-Script Cross-Paraphrase): Oración original en un guion vs. parafraseo en el otro guion (prueba contra la memorización).
Líneas Base Aleatorias: Oraciones no relacionadas dentro y entre guiones.

3. Contribuciones Clave

Nuevo Paradigma de Evaluación: Introducen la digrafía serbia como un marco controlado para evaluar si las representaciones de conceptos aprendidas capturan semántica abstracta o dependen de tokens específicos.
Evidencia de Invarianza de Guion: Demuestran que las características de los SAE en los modelos Gemma exhiben una invarianza significativa al guion. La similitud entre oraciones idénticas en diferentes alfabetos supera ampliamente las líneas base aleatorias.
Caracterización de la Escala: Analizan cómo la invarianza al guion evoluciona con el tamaño del modelo, encontrando que los modelos más grandes mantienen representaciones más consistentes e independientes del guion.

4. Resultados Principales

Alta Similitud Cruzada: Las oraciones idénticas escritas en serbio latino y cirílico activaron conjuntos de características con una similitud de Jaccard promedio de ~0.58.
- Esto es significativamente mayor que la línea base aleatoria cruzada (~0.28).
- Sorprendentemente, la similitud entre guiones para oraciones idénticas fue mayor que la similitud de parafraseo dentro del mismo guion en algunos casos, sugiriendo que el modelo es más sensible a la elección de palabras (paráfrasis) que al sistema de escritura.
Evidencia contra la Memorización: La comparación "Cruzada-Cruzada" (Original en Latino vs. Parafraseo en Cirílico) mostró una similitud de ~0.47. Dado que estas combinaciones específicas rara vez coexisten en los datos de entrenamiento, la alta superposición de características indica un alineamiento semántico genuino y no un simple recuerdo de patrones de entrenamiento.
Efecto de la Escala:
- La similitud cruzada para oraciones idénticas aumentó de 0.50 (en el modelo de 270M) a 0.65 (en el modelo de 27B).
- Simultáneamente, las líneas base aleatorias disminuyeron, lo que indica que los modelos más grandes desarrollan representaciones semánticas más robustas y discriminativas que trascienden la tokenización superficial.
Jerarquía Semántica: El orden de similitud observado fue: Original Cruzado > Parafraseo Cruzado > Original Cruzado-Parafraseo > Aleatorio Cruzado > Aleatorio Inter-idioma. Esto confirma que la semántica es el impulsor principal de la similitud representacional, por encima de la ortografía.

5. Significado e Implicaciones

Abstracción Semántica: Los hallazgos sugieren que los SAE pueden capturar conceptos semánticos en un nivel de abstracción superior a la tokenización superficial. Esto valida el uso de SAEs para interpretar la "comprensión" real de los modelos, más allá de la coincidencia de tokens.
Robustez Multilingüe: La capacidad de los modelos para alinear representaciones entre guiones totalmente disjuntos (sin tokens compartidos) es un indicador positivo para la interpretabilidad cruzada y la transferencia de conocimientos en sistemas multilingües.
Futuro de la Investigación: El trabajo propone la digrafía serbia como una herramienta estándar para probar la abstracción ortográfica. Además, sugiere que la invarianza al guion es una propiedad que mejora con la escala del modelo, lo que tiene implicaciones para el diseño de modelos más eficientes y generalizables.

En conclusión, el estudio demuestra que, a pesar de la tokenización radicalmente diferente, los LLM modernos aprenden representaciones de conceptos que son fundamentalmente invariantes al guion, priorizando el significado abstracto sobre la forma escrita superficial.

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

🧠 El Gran Misterio: ¿Piensan en "palabras" o en "ideas"?

🔍 La Herramienta: Los "Detectives de Ideas" (SAE)

🏃‍♂️ El Experimento: La Carrera de Obstáculos

📈 El Factor "Tamaño": Cuanto más grande, más sabio

💡 ¿Por qué es esto importante?

Resumen Técnico: Invarianza de Guion en las Representaciones de Conceptos de los LLM

1. Planteamiento del Problema

2. Metodología y Diseño Experimental

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning