LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de inteligencia artificial (como los que chatean contigo) son como estudiantes superdotados que han leído casi todo lo que existe en internet. Tienen una memoria increíble, pero a veces, en lugar de pensar para resolver un problema, simplemente recuerdan la respuesta porque ya la han visto antes.

Este paper, llamado LINGOLY-TOO, es como un examen de "trampa" diseñado por lingüistas para ver si esos estudiantes realmente saben razonar o si solo están memorizando.

Aquí te lo explico con una analogía sencilla:

1. El Problema: El Estudiante que "Adivina" en lugar de "Pensar"

Imagina que le pones a un estudiante un acertijo de lógica sobre un idioma que no conoce (digamos, el idioma de una tribu lejana).

La forma normal: Si el acertijo está escrito en letras normales, el estudiante podría decir: "¡Ah! Ya he visto este idioma antes en internet, sé que la palabra 'perro' se dice así". Y da la respuesta correcta, pero no porque haya razonado, sino porque lo sabía de memoria.
El resultado: Los expertos dicen: "¡Mira qué listo es!". Pero en realidad, solo está usando su memoria, no su cerebro para pensar.

2. La Solución: El "Disfraz" (Obfuscación)

Los autores de este paper crearon LINGOLY-TOO. Imagina que toman esos mismos acertijos de lingüística y les ponen un disfraz.

La analogía del disfraz: Es como si cambiaras las letras de una palabra. En lugar de escribir "GATO", lo escribieras como "XZQW".
- Si el estudiante intentara usar su memoria, fallaría porque "XZQW" no existe en sus libros de texto.
- Pero, ¡la magia está en que la lógica sigue siendo la misma! Las reglas del juego no han cambiado, solo la "piel" de las palabras.
El objetivo: Ahora, para resolver el problema, el estudiante no puede usar su memoria. Está obligado a mirar las pistas, encontrar patrones y deducir la respuesta desde cero, como un detective.

3. Lo que Descubrieron: La "Caída" de los Modelos

Cuando probaron a los modelos de inteligencia artificial más avanzados (como GPT-5 o Claude) con este examen disfrazado, pasó algo interesante:

En el examen normal (sin disfraz): Los modelos sacaban buenas notas (como un 59/100). Parecían genios.
En el examen con disfraz (LINGOLY-TOO): Sus notas bajaron drásticamente (a un 48/100).

¿Qué significa esto?
Significa que cuando les quitas la "muleta" de la memoria, los modelos tropiezan. Demuestra que, aunque son muy buenos recordando datos, aún no son tan buenos pensando lógicamente cuando se enfrentan a algo totalmente nuevo.

4. ¿Por qué es importante?

Imagina que quieres saber si un coche es realmente rápido. Si lo pruebas en una pista donde el coche ya conoce cada curva, va muy bien. Pero si lo pruebas en un terreno desconocido y lleno de baches, verás su verdadera capacidad de manejo.

LINGOLY-TOO es ese terreno desconocido.
Nos dice que los modelos actuales a menudo "hacen trampa" usando su memoria en lugar de razonar.
Ayuda a los científicos a crear mejores modelos que realmente piensen y no solo reciten.

En resumen

Los autores tomaron acertijos de olimpiadas de lingüística (donde la gente adivina reglas de idiomas desconocidos), les cambiaron las letras para que nadie pudiera "copiar" la respuesta de internet, y usaron eso para medir la inteligencia real de las IAs.

La conclusión: Las IAs son muy buenas recordando, pero cuando se les quita la memoria, su capacidad de razonamiento lógico todavía tiene mucho que mejorar. Es como si un estudiante de memoria fuera a un examen de matemáticas sin calculadora y sin poder mirar el libro de fórmulas: de repente, se da cuenta de que no sabe cómo resolver el problema, solo sabía la respuesta de memoria.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "LINGOLY-TOO: DISENTANGLING REASONING FROM KNOWLEDGE WITH TEMPLATISED ORTHOGRAPHIC OBFUSCATION", publicado en ICLR 2026.

1. El Problema

Los modelos de lenguaje de vanguardia (LLMs) han demostrado una capacidad creciente para resolver problemas de razonamiento. Sin embargo, el artículo argumenta que su rendimiento en los benchmarks actuales está inflado artificialmente porque los modelos a menudo evitan el razonamiento real y, en su lugar, dependen de:

Memorización: Reconocimiento de problemas vistos durante el entrenamiento.
Conocimiento previo: Uso de datos lingüísticos almacenados en sus parámetros (especialmente en idiomas de alta recursos).

Esto genera una validez constructiva débil en las evaluaciones: un modelo puede obtener una puntuación alta no porque "razone" bien, sino porque "sabe" la respuesta o ha memorizado el patrón. A medida que los conjuntos de datos de entrenamiento crecen, la distinción entre tareas de entrenamiento y prueba se desdibuja, sesgando las estimaciones de las capacidades de razonamiento simbólico e inductivo.

2. Metodología: LINGOLY-TOO

Para abordar esto, los autores presentan LINGOLY-TOO, un nuevo benchmark diseñado para aislar la capacidad de razonamiento del conocimiento y la memorización.

Base de Datos: El conjunto de datos se deriva de 82 problemas del Olimpiada de Lingüística del Reino Unido (UKLO), diseñados para ser resueltos por estudiantes de secundaria sin conocimientos lingüísticos previos. El benchmark final consta de 1,203 preguntas y 6,995 pares de (sub-pregunta, respuesta).
Técnica de Ofuscación (Obfuscation):
- En lugar de cambiar el contenido semántico, los autores aplican permutaciones ortográficas a nivel de grafema (letras o combinaciones de letras).
- Se crean reglas específicas para cada problema que preservan las relaciones lingüísticas subyacentes necesarias para la solución (por ejemplo, la armonía vocálica o la estructura morfológica), pero cambian la apariencia visual del texto.
- Ejemplo: Si un sufijo cambia según la vocal anterior (ej. -siz vs -suz), la permutación mantiene esta relación lógica pero cambia los caracteres visuales, haciendo que el texto sea irreconocible para el modelo basado en su conocimiento previo del idioma original.
- Se eliminan metadatos como nombres de idiomas, familias lingüísticas y referencias geográficas.
Generación de Datos: Se generaron hasta 6 variantes permutadas por problema. Se eliminaron préstamos y cognados transparentes que podrían servir como atajos, a menos que fueran esenciales para la lógica del problema.
Evaluación: Se evaluaron 15 modelos (incluyendo GPT-5, Claude 3.7, o3-mini, Llama 3.3, etc.) en dos condiciones:
1. $M_{og}$ (Original): Problemas sin ofuscar.
2. $M_{obf}$ (Ofuscado): Problemas con permutaciones ortográficas.
- La métrica principal es la coincidencia exacta (Exact Match).

3. Contribuciones Clave

Un Benchmark No Saturado: Proporciona un entorno de evaluación donde incluso los modelos más avanzados (como GPT-5) no alcanzan la saturación, especialmente en niveles de dificultad altos (Round 2), obteniendo solo un 48% en general y 31% en los problemas más difíciles.
Método para Cuantificar el Efecto del Conocimiento: La diferencia entre el rendimiento en problemas originales y ofuscados ( $\Delta$ ) sirve como medida de cuánto dependen los modelos de atajos de conocimiento en lugar de razonamiento puro.
Generación de Problemas No Contaminados: Demostraron que la caída de rendimiento persiste incluso en problemas de la Olimpiada de Lingüística 2025 que aún no habían sido publicados en el momento del entrenamiento de los modelos, confirmando que la caída no se debe solo a la memorización de datos de entrenamiento específicos, sino a la incapacidad de razonar sobre datos desconocidos.

4. Resultados Principales

Caída de Rendimiento Significativa: Los modelos experimentan una caída drástica al pasar de problemas originales a ofuscados.
- El mejor modelo (GPT-5) bajó de 0.59 (original) a 0.48 (ofuscado).
- Modelos generales como GPT-4o mostraron caídas aún más pronunciadas.
Correlación con Recursos Lingüísticos: Existe una correlación negativa entre la cantidad de recursos disponibles para un idioma (número de hablantes) y el rendimiento en la tarea ofuscada. Los modelos dependen más de sus conocimientos internos en idiomas de alta recursos (como Japonés o Italiano), lo que infla sus puntuaciones en el benchmark original.
Modelos de Razonamiento vs. Generales: Los modelos diseñados específicamente para razonamiento (como o3-mini o Claude 3.7 "thinking") superan a los modelos generales, pero siguen siendo sensibles a las permutaciones. Sin embargo, sufren una caída menor (más cercana al rendimiento humano) que los modelos generales, lo que sugiere que tienen mejores capacidades de razonamiento inductivo simbólico.
Análisis de Errores:
- Tokenización: Se demostró que la caída de rendimiento no se debe a problemas de tokenización (el uso de guiones o tokenización por carácter no mejoró los resultados).
- Fragilidad: Los modelos a menudo entran en bucles de razonamiento inconsistentes o fallan al aplicar reglas abstractas cuando el contexto visual cambia.
Estudio Humano: En un ensayo controlado aleatorio con 172 humanos, la ofuscación redujo el rendimiento en un 5.7%. Esto indica que la dificultad añadida por la ofuscación es manejable para humanos, pero mucho más severa para los LLMs (que cayeron un 12.8%), confirmando que los modelos dependen excesivamente de la familiaridad ortográfica.

5. Significado e Implicaciones

El artículo concluye que las puntuaciones actuales de los LLMs en tareas de razonamiento lingüístico están sobreestimadas.

Desenmascarar la "Inteligencia": LINGOLY-TOO revela que muchos modelos "razonadores" en realidad están utilizando atajos basados en el conocimiento o la memorización. Cuando se eliminan estos atajos mediante ofuscación, su capacidad de razonamiento genuino se muestra mucho más limitada.
Necesidad de Nuevos Estándares: Para medir verdaderamente el razonamiento, los benchmarks deben ser resistentes a la memorización y al conocimiento previo. La ofuscación ortográfica es una técnica viable para lograr esto sin alterar la lógica subyacente del problema.
Futuro: El trabajo sugiere que, aunque hay progreso en dominios como las matemáticas y la codificación, el razonamiento inductivo simbólico en lenguaje natural sigue siendo un desafío abierto para los modelos de vanguardia, especialmente cuando se enfrentan a datos novedosos y desconocidos.

En resumen, LINGOLY-TOO ofrece una herramienta crítica para evaluar la verdadera capacidad de razonamiento de los modelos de IA, separándola de su inmensa capacidad de almacenamiento de datos y memorización.

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

1. El Problema: El Estudiante que "Adivina" en lugar de "Pensar"

2. La Solución: El "Disfraz" (Obfuscación)

3. Lo que Descubrieron: La "Caída" de los Modelos

4. ¿Por qué es importante?

En resumen

1. El Problema

2. Metodología: LINGOLY-TOO

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA