Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Este estudio demuestra mediante un metaanálisis de 92 modelos que incorporar decisiones de diseño, como la composición de datos y la arquitectura, mejora significativamente la predicción del rendimiento en tareas posteriores en comparación con basarse únicamente en la escala del modelo.

Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de lenguaje (como los que usan para escribir correos o chatear) son como cocineros de élite.

Durante años, la comunidad científica creía una regla muy simple: "Si quieres un mejor cocinero, solo necesitas darle más ingredientes y más tiempo para cocinar". A esto lo llamaban "Leyes de Escalado". La idea era: más parámetros (ingredientes) + más datos (tiempo de cocción) = mejor resultado.

Pero los autores de este paper, un equipo de la Universidad Carnegie Mellon, se dieron cuenta de que no todo es cuestión de cantidad. A veces, un cocinero pequeño con ingredientes muy seleccionados y una receta especial puede cocinar mejor que un gigante con ingredientes de mala calidad.

Aquí te explico los hallazgos principales con analogías sencillas:

1. El problema: No es solo el tamaño de la olla

Imagina que tienes dos ollas gigantes.

  • Olla A: Tiene 100 litros de agua, pero es agua sucia y llena de basura.
  • Olla B: Tiene solo 20 litros, pero es agua de manantial pura y tiene las especias exactas.

La vieja teoría decía: "La Olla A ganará porque tiene más agua". Pero en la realidad, la Olla B suele hacer un plato más delicioso. El paper demuestra que si solo miramos el tamaño (la cantidad de datos), no podemos predecir bien qué tan bueno será el modelo. Necesitamos mirar qué hay dentro de la olla.

2. La nueva receta: Analizando los "ingredientes"

El equipo recopiló información de 92 modelos diferentes (desde pequeños hasta gigantes) y crearon una base de datos masiva. En lugar de solo contar cuántos "ingredientes" tenía cada uno, miraron:

  • La arquitectura: ¿Cómo está construido el modelo? (¿Usa una receta de "normalización de capas" tipo A o tipo B? ¿Tiene cabezas de atención como un chef con muchas manos?).
  • La composición de los datos: ¿Qué porcentaje de su entrenamiento fue código de programación? ¿Cuánto fue de libros? ¿Cuánto fue de internet (web)?

3. Los descubrimientos deliciosos (y a veces extraños)

🍳 El equilibrio del Código: "Ni mucho, ni poco"

Descubrieron una relación curiosa con el código de programación.

  • Si un modelo come demasiado código (más del 25%), se vuelve genial programando, pero pierde la capacidad de conversar o razonar en lenguaje natural. Es como un chef que solo sabe cortar cebollas y olvida cómo sazonar la sopa.
  • Si come muy poco código, no aprende a razonar lógicamente.
  • El punto dulce: Un 15-25% de código en la dieta del modelo es el equilibrio perfecto. Le da inteligencia lógica sin arruinar su capacidad de hablar.

🌐 El peligro de la "Web": La mentira digital

Analizaron cuánto tiempo pasaron los modelos leyendo internet (blogs, foros, redes sociales).

  • Hallazgo: Cuanto más "contenido de internet" consumen, menos veraces son.
  • Analogía: Imagina que un estudiante solo lee foros de internet donde todo el mundo inventa cosas y se burla de los hechos. Al final, ese estudiante será muy rápido hablando, pero dirá muchas mentiras. El paper confirma que entrenar con demasiada "basura de internet" hace que el modelo sea menos honesto.

📚 Los libros y la academia: La base sólida

Por el contrario, los modelos que comen más libros, textos académicos y enciclopedias tienden a ser mejores en tareas de conocimiento general y razonamiento. Es como si el chef leyera libros de cocina clásica en lugar de solo ver videos rápidos de TikTok.

4. ¿Por qué importa esto? (El "Superpoder" de predecir)

Antes, para saber si un modelo sería bueno, tenías que entrenarlo y probarlo (lo cual es carísimo y lento).
Los autores crearon un adivino matemático (un modelo de regresión).

  • Antes: Mirabas el tamaño del modelo y adivinabas su nota. (Error: 10-15%).
  • Ahora: Miras el tamaño + la receta (qué porcentaje de código, libros, web, etc.) y adivinas su nota. (Error: se reduce un 3% al 28%).

Es como si antes solo miraras el peso de un atleta para predecir si ganará la carrera, y ahora también miras su dieta, sus horas de sueño y su tipo de calzado. ¡La predicción es mucho más precisa!

En resumen

Este paper nos dice que el diseño importa tanto como el tamaño.
No basta con hacer modelos más grandes y tirarles más datos de internet. Para crear una Inteligencia Artificial inteligente, honesta y útil, necesitamos:

  1. Curar la dieta: Mezclar bien los ingredientes (código, libros, web).
  2. Elegir la receta correcta: Diseñar la arquitectura del modelo con cuidado.
  3. No confiar solo en el tamaño: Un modelo pequeño y bien diseñado puede vencer a un gigante mal alimentado.

Es un paso gigante para dejar de "tirar dinero" entrenando modelos a ciegas y empezar a diseñarlos con inteligencia.