Unraveling Syntax: How Language Models Learn Context-Free Grammars

Este trabajo establece teóricamente que la pérdida de modelado de lenguaje se descompone linealmente en subgramáticas irreducibles, demostrando empíricamente que los transformadores pequeños aprenden estas estructuras en paralelo y que el preentrenamiento mejora las representaciones internas, aunque persisten dificultades con la recursión profunda incluso en modelos grandes.

Laura Ying Schulz, Daniel Mitropolsky, Tomaso Poggio

Publicado 2026-03-02
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que el lenguaje (ya sea el español que hablamos o el código que escribimos) es como una ciudad gigante construida con bloques de Lego.

Esta ciudad tiene reglas muy estrictas: cómo se unen los bloques, qué formas pueden tener las torres y cómo se conectan las calles. En el mundo de la informática, a estas reglas se les llama Gramáticas Libres de Contexto (CFG).

Los investigadores de este documento (Laura, Daniel y Tomaso) se preguntaron: "¿Cómo aprenden realmente las Inteligencias Artificiales (IA) a construir esta ciudad? ¿Las IAs aprenden primero a hacer una sola pared y luego una casa, o aprenden todo de golpe?"

Aquí tienes la explicación de sus descubrimientos, usando analogías sencillas:

1. La Gran Revelación: Las "Subciudades"

Ellos descubrieron que cualquier gramática compleja (como una oración larga o un programa de código) no es un bloque único, sino que está hecha de subgramáticas o "subciudades".

  • La analogía: Piensa en una oración como una caja de herramientas. Dentro hay un destornillador, un martillo y una llave. Cada herramienta es una "subgramática". La oración completa es la caja.
  • El hallazgo: Los autores demostraron matemáticamente que el "error" que comete una IA al aprender (lo que llaman pérdida o loss) se puede descomponer. Es como si el error total fuera simplemente la suma de los errores cometidos en cada una de esas subciudades. Si la IA falla en aprender a usar el martillo, ese error se suma al total, independientemente de si también falla con el destornillador.

2. ¿Aprenden en paralelo o en cadena? (El contraste con los niños)

Aquí es donde la cosa se pone interesante.

  • Los niños: Cuando aprendemos a hablar, primero dominamos palabras simples, luego frases cortas y finalmente oraciones complejas. Es un proceso paso a paso, como subir una escalera.
  • Las IAs (Transformers pequeños): Los autores descubrieron que las IAs pequeñas, cuando se les enseña estas reglas, aprenden todas las "subciudades" al mismo tiempo.
    • La analogía: Imagina que le das a un niño y a un robot un rompecabezas gigante. El niño empieza por las esquinas y luego hace los bordes. El robot, en cambio, parece mirar todas las piezas a la vez y aprender a encajarlas simultáneamente. No sigue una jerarquía estricta; aprende todo el mapa de una sola vez.

3. El entrenamiento previo: ¿Ayuda practicar con una sola pieza?

Se preguntaron: "¿Si le enseñamos a la IA solo una parte pequeña de la ciudad (una subgramática) antes de enseñarle la ciudad completa, aprenderá mejor?"

  • El resultado: Sí, pero solo si la IA es muy pequeña (como un cerebro de juguete).
    • La analogía: Si tienes un cerebro pequeño, practicar primero solo con "cómo hacer una puerta" te ayuda a entender mejor la casa completa después. Pero si tienes un cerebro gigante (una IA muy grande), ya es tan capaz que practicar solo con la puerta no le aporta mucho beneficio extra; puede aprender la casa entera desde el principio.
  • Lo curioso: Aunque el entrenamiento previo no siempre mejora la puntuación final en modelos grandes, sí cambia cómo piensa la IA. Hace que su "cerebro interno" organice la información de una manera más lógica, separando claramente las reglas de las "subciudades" de las reglas de la "ciudad completa". Es como si, tras practicar, la IA tuviera un mapa mental más ordenado.

4. El verdadero enemigo: La profundidad, no la longitud

El último gran descubrimiento es sobre dónde fallan las IAs, incluso las más avanzadas.

  • El problema: Las IAs tienen dificultades con la recursión profunda.
  • La analogía:
    • Imagina una oración larga pero plana: "El gato, el perro, el pájaro, el pez, el ratón..." (muchas palabras, pero sin anidar). La IA lo maneja bien.
    • Ahora imagina una oración anidada: "El ratón que persiguió al gato que persiguió al perro que persiguió al pájaro..." (pocas palabras, pero muchas capas de significado dentro de otras).
    • El fallo: Las IAs se pierden cuando las capas se vuelven muy profundas. Es como si tuvieran un "techo de cristal" en su capacidad de entendimiento. Pueden manejar una calle muy larga, pero si la calle tiene demasiados túneles uno encima del otro, se confunden. Esto ocurre incluso en modelos gigantes como GPT.

En resumen

Este paper nos dice que:

  1. Las IAs descomponen el lenguaje en piezas pequeñas y aprenden todas esas piezas al mismo tiempo (no paso a paso como los humanos).
  2. Practicar con piezas pequeñas ayuda a las IAs pequeñas, y hace que las grandes "piensen" de forma más ordenada.
  3. El mayor obstáculo para las IAs no es la longitud de la frase, sino la profundidad de los anidados (cuántas reglas hay dentro de otras reglas).

Es un paso importante para entender que, aunque las IAs parecen mágicas, su aprendizaje sigue patrones matemáticos muy específicos y tiene límites claros en cómo manejan la complejidad estructural.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →