What Scales in Cross-Entropy Scaling Law?

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los grandes modelos de lenguaje (como los que te están hablando ahora) son como cocineros en un restaurante de lujo. Durante años, los chefs (los investigadores) creyeron tener una regla mágica: "Si contratas más cocineros y les das más ingredientes (datos), el plato saldrá mejor de una forma predecible y constante". A esta regla la llamaron la "Ley de Escalado de la Entropía Cruzada".

Pero, recientemente, algo extraño pasó. Cuando los restaurantes se volvieron gigantes (con miles de cocineros), los platos dejaron de mejorar tan rápido como se esperaba. La magia parecía romperse.

Este paper de la Universidad Tsinghua viene a decirnos: "¡Esperen! La magia no se rompió, solo nos estábamos fijando en la parte equivocada del plato."

Aquí te explico qué descubrieron, usando analogías sencillas:

1. El Problema: El "Plato" vs. El "Sabor Real"

Imagina que la "Entropía Cruzada" (la medida de qué tan bueno es el modelo) es como el precio total de la cena.

Si el precio baja, asumimos que la comida está mejor.
Pero el precio total está compuesto por tres cosas diferentes:
1. El ingrediente principal (Error-Entropía): ¿Está la carne bien cocida? ¿Es el plato correcto?
2. La presentación (Auto-Alineación): ¿Cómo se ve el plato en el plato? ¿Coincide el color con lo que esperamos?
3. El orgullo del chef (Confianza): ¿Qué tan seguro está el chef de que su plato es el mejor?

El problema es que, cuando el restaurante crece, el precio total deja de bajar rápido. Los investigadores pensaron que el "ingrediente principal" (la inteligencia del modelo) había dejado de mejorar.

2. La Solución: Desarmar el Plato

Los autores tomaron el "precio total" y lo desarmaron en sus tres partes. Descubrieron algo fascinante:

El Ingrediente Principal (Error-Entropía): ¡Este sigue mejorando perfectamente! A medida que el modelo crece, se vuelve increíblemente bueno en saber cuál es la respuesta correcta y ponerla en el primer lugar de su lista. Es como un chef que nunca falla en elegir el ingrediente perfecto. Esta parte sigue una ley matemática perfecta (una "ley de escalado").
La Presentación y el Orgullo (Auto-Alineación y Confianza): Estas dos partes no mejoran con el tamaño. De hecho, se vuelven un poco caóticas o se quedan estancadas.

3. La Analogía del "Cocinero Confundido"

Imagina un pequeño restaurante (modelo pequeño).

El chef es novato. Su mayor problema es saber qué plato pedir (Error).
Como el "Error" es el 90% del problema, cuando el chef mejora en elegir el plato, el "precio total" (la puntuación general) baja drásticamente. ¡Parece magia!

Ahora, imagina un restaurante gigante (modelo enorme).

El chef ya es un genio. Casi nunca se equivoca al elegir el plato (el Error es casi cero).
Pero ahora, el precio total está dominado por cosas que no mejoran: la "presentación" y el "orgullo".
Como el chef ya no puede mejorar más en elegir el plato, y las otras partes no mejoran con el tamaño, el "precio total" deja de bajar rápido. La magia se detiene no porque el chef sea tonto, sino porque ya ha alcanzado la perfección en lo que realmente importa.

4. ¿Qué significa esto para el futuro?

Los autores proponen una nueva regla: La Ley de Escalado de la Entropía de Error.

En lugar de mirar el "precio total" (la pérdida de entropía cruzada), deberíamos mirar solo qué tan bien el modelo sabe elegir la respuesta correcta (su rango o posición en la lista).

Antes: "Nuestro modelo está estancado, ¿qué hacemos?"
Ahora: "Nuestro modelo ya es un genio en elegir respuestas. El problema es que está gastando demasiada energía en 'parecer' seguro o en detalles de presentación que no mejoran con el tamaño. Debemos entrenarlo para que se enfoque más en la precisión y menos en la confianza ciega."

En resumen

Este paper nos dice que la inteligencia (saber la respuesta correcta) sí escala perfectamente con el tamaño del modelo. Lo que nos engañó fue que, en los modelos gigantes, la parte de "saber la respuesta" es tan pequeña comparada con la parte de "confianza y presentación" que dejamos de verla.

Es como si un atleta olímpico dejara de ganar medallas no porque sea lento, sino porque el cronómetro que usamos está midiendo también cuánto tiempo pasa atándose los zapatos, y eso no mejora con el entrenamiento. Si quitamos los zapatos del cálculo, ¡veremos que sigue siendo el más rápido!

La lección: Para construir la próxima generación de inteligencias artificiales, no necesitamos solo más tamaño; necesitamos cambiar cómo medimos el éxito, enfocándonos en la precisión real y no en la confianza aparente.

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "What Scales in Cross-Entropy Scaling Law?", publicado como ponencia en ICLR 2026.

1. El Problema

La ley de escalado de entropía cruzada ha sido una herramienta fundamental para guiar el desarrollo de Modelos de Lenguaje Grandes (LLM). Esta ley empírica establece que, a medida que aumentan el tamaño del modelo y el conjunto de datos, la pérdida de entropía cruzada disminuye siguiendo una tasa predecible de ley de potencias.

Sin embargo, la evidencia reciente indica que esta ley se rompe a escalas muy grandes: la pérdida disminuye más lentamente de lo esperado, lo que genera incertidumbre sobre la viabilidad de escalar modelos indefinidamente. Además, los marcos teóricos existentes pueden explicar el escalado en métricas basadas en errores (como el error cuadrático medio), pero no logran generalizarse directamente a la pérdida de entropía cruzada. La pregunta central del trabajo es: ¿Qué componente de la entropía cruzada realmente sigue una ley de escalado?

2. Metodología

Los autores proponen una descomposición matemática novedosa de la pérdida de entropía cruzada en tres componentes distintos, basándose en una nueva métrica llamada Error Basado en Rangos (RBE - Rank-based Error).

A. Definición de RBE

A diferencia de la entropía cruzada tradicional que mide la probabilidad del token correcto, el RBE mide el rango del token correcto dentro de la lista de predicciones del modelo. Si cuatro tokens tienen una puntuación mayor que el token verdadero, el RBE es 4. Esto se considera una medida más robusta, ya que el orden relativo es menos susceptible a manipulaciones (como el escalado de temperatura o muestreo top-p) que los valores de probabilidad crudos.

B. Descomposición de la Entropía Cruzada

Utilizando la distribución del RBE ( $p_e$ ) y la distribución de puntuaciones normalizadas ( $q_e$ ), los autores descomponen matemáticamente la pérdida de entropía cruzada ( $L_{CE}$ ) en la suma de tres términos:

Entropía de Error (Error-Entropy): La entropía de Shannon de la distribución $p_e$ . Mide la incertidumbre sobre dónde se encuentra el token correcto en el ranking. Minimizar esto obliga al modelo a colocar el token correcto en los primeros rangos.
Auto-Alineación (Self-Alignment): La divergencia KL entre la distribución del error ( $p_e$ ) y la distribución de puntuaciones normalizadas ( $q_e$ ). Mide qué tan bien las puntuaciones de probabilidad del modelo reflejan su propia distribución de errores.
Confianza (Confidence): El logaritmo de la constante de normalización de las puntuaciones ( $C$ ). Representa la magnitud global de las puntuaciones de probabilidad asignadas por el modelo.

La ecuación resultante es:
$L_{CE} = \text{Error-Entropy} + \text{Self-Alignment} - \log(\text{Confidence})$

C. Experimentación

Los autores realizaron experimentos extensivos utilizando 32 modelos de diferentes familias (Pythia, GPT-2, Llama, Mistral, Qwen, OPT) que abarcan cinco órdenes de magnitud en tamaño (desde millones hasta decenas de miles de millones de parámetros). Se evaluaron en tres conjuntos de datos: Wikipedia, C4 y GitHub.

3. Contribuciones Clave

Nueva Descomposición Teórica: Introducen una descomposición exacta de la entropía cruzada que separa la capacidad de clasificación (ranking) de la asignación de puntuaciones de probabilidad.
Identificación del Motor de Escalado: Demuestran que solo la "Entropía de Error" sigue una ley de escalado de potencias robusta. Los otros dos componentes (Auto-Alineación y Confianza) permanecen mayormente invariantes o muestran ruido a medida que aumenta el tamaño del modelo.
Explicación del "Ralentamiento" a Gran Escala: Proporcionan una explicación teórica y empírica de por qué la ley de escalado de entropía cruzada falla en modelos grandes: en modelos pequeños, la Entropía de Error domina la pérdida total (aprox. 90%), haciendo que la pérdida total parezca seguir una ley de potencias limpia. En modelos grandes, la proporción de Entropía de Error disminuye, permitiendo que los términos no escalables (Confianza y Auto-Alineación) dominen, rompiendo la ley de potencias observada.

4. Resultados Principales

Ajuste de Ley de Potencias: La Entropía de Error muestra un ajuste de ley de potencias ( $R^2 > 0.9$ ) superior al de la entropía cruzada original en casi todos los casos y familias de modelos.
Comportamiento de los Componentes:
- Entropía de Error: Disminuye linealmente en escala log-log con el tamaño del modelo.
- Auto-Alineación: No muestra una tendencia de mejora clara; en algunos casos, incluso aumenta ligeramente.
- Confianza: Muestra una alta varianza y carece de un patrón consistente de escalado.
Dinámica de Entrenamiento: Durante el entrenamiento, el modelo primero se enfoca en reducir la Entropía de Error (mejorar el ranking). Una vez que esto se minimiza, comienza a optimizar la Auto-Alineación y la Confianza, que tienen magnitudes iniciales menores.
Robustez: La Entropía de Error es inmune a técnicas de post-procesamiento (como top-k o top-p sampling), lo que la convierte en una métrica de rendimiento más fiable que la pérdida de entropía cruzada cruda.

5. Significado e Implicaciones

Este trabajo tiene implicaciones profundas para el futuro de los LLM:

Revisión de la Ley de Escalado: Sugiere que la "Ley de Escalado de Entropía de Error" es una descripción más precisa del comportamiento de los modelos que la ley de entropía cruzada tradicional.
Guía para el Entrenamiento: Dado que la Confianza y la Auto-Alineación no escalan bien y pueden estar sobre-optimizadas en el entrenamiento actual, los autores proponen nuevos objetivos de entrenamiento. Por ejemplo, penalizar el término de Confianza podría redirigir la optimización hacia la Entropía de Error, mejorando la eficiencia.
Comprensión Teórica: Conecta el aprendizaje de modelos de lenguaje con la teoría de aprendizaje basada en entropía de error (Information-Theoretic Learning), ofreciendo nuevas perspectivas sobre por qué los modelos escalan y cómo se comportan bajo supervisión ruidosa.
Resolución de la Paradoja: Resuelve el misterio de por qué las leyes de escalado funcionan bien en modelos pequeños pero fallan en los grandes, atribuyéndolo al cambio en la composición de la pérdida total.

En resumen, el artículo demuestra que la entropía cruzada es una métrica compuesta donde solo una parte (la relacionada con el error de ranking) escala verdaderamente, y que entender esta distinción es crucial para el desarrollo futuro de modelos de inteligencia artificial más grandes y eficientes.