Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres enseñar a un niño a resolver problemas matemáticos muy complejos, como los de un examen de olimpiadas. Si le sientas frente a esos problemas difíciles desde el primer día, probablemente se frustrará, no entenderá nada y terminará odiando las matemáticas.

¿Qué propone este paper?
Los autores de este trabajo (presentado en la conferencia ICLR 2026) han creado un método llamado E2H Reasoner (Razonador de "Fácil a Difícil"). Es una forma de entrenar a las Inteligencias Artificiales (específicamente a modelos de lenguaje o "LLMs") para que piensen mejor, usando una técnica llamada Aprendizaje Curricular.

Aquí te lo explico con analogías sencillas:

1. El Problema: El "Salto al Vacío"

Antes, para enseñar a una IA a razonar, los investigadores usaban un método de "ensayo y error" (Reinforcement Learning). Imagina que le pones a un niño un problema de cálculo avanzado y le dices: "Si lo resuelves bien, te doy una estrella; si no, no pasa nada".

El problema: Como el niño no sabe nada al principio, nunca gana la estrella. Se queda frustrado y no aprende. En el mundo de la IA, esto se llama "recompensa dispersa": la IA no recibe señales de ayuda porque falla todo el tiempo.

2. La Solución: La Escalera de la Maestría

El método E2H dice: "¡Espera! No le demos el examen final todavía. Empecemos con cosas fáciles".
Dividen los problemas en cuatro niveles, como si fuera un videojuego:

Nivel Trivial: Problemas de un solo paso (como sumar 2+2).
Nivel Fácil: Un par de pasos.
Nivel Medio: Un poco más de lógica.
Nivel Difícil: Los problemas de olimpiadas reales.

La IA empieza en el nivel trivial, gana muchas "estrellas" (recompensas), aprende los conceptos básicos y gana confianza. Luego, el sistema le va subiendo la dificultad poco a poco.

3. El Truco Maestro: El "Programador de Entrenamiento"

Aquí está la parte genial. No basta con hacer los niveles fáciles primero y luego cambiar a los difíciles de golpe. Si haces eso, la IA podría olvidar lo fácil o volverse "vaga" y solo buscar soluciones cortas.

Los autores crearon dos formas inteligentes de mezclar los niveles, como un entrenador personal que sabe cuándo empujar al atleta:

El Método Cosina (E2H-C): Imagina una curva suave. Empieza con muchos problemas fáciles, y poco a poco, muy suavemente, va introduciendo los difíciles. Es como subir una rampa gradual. Funciona bien cuando la IA ya tiene una base decente.
El Método Gaussiano (E2H-G): Este es más agresivo. Imagina que la IA necesita un "choque" rápido. Este método le da muchos problemas fáciles al principio para que aprenda rápido, pero luego reduce muy rápido la cantidad de problemas fáciles y se enfoca intensamente en los difíciles. Es como decir: "Ya sabes lo básico, ¡ahora vamos a entrenar duro!". Esto evita que la IA se vuelva perezosa y se quede atascada en lo fácil.

4. ¿Por qué funciona? (La Teoría en palabras simples)

El paper demuestra matemáticamente que este método es más eficiente.

Aprendizaje Directo (El método viejo): Intentar aprender todo de golpe requiere miles de intentos fallidos. Es como intentar aprender a conducir en una autopista llena de tráfico sin haber practicado antes en un parque de estacionamiento.
Aprendizaje Curricular (E2H): Al ir paso a paso, la IA necesita menos intentos totales para llegar a ser experta. Aprende las reglas del juego en los niveles bajos y las aplica en los altos.

5. Los Resultados

Probaron esto con modelos de IA pequeños (como un "niño" de 1.5 o 3 mil millones de parámetros, que son pequeños comparados con los gigantes actuales).

Sin E2H: Estos modelos pequeños fallaban estrepitosamente en problemas difíciles.
Con E2H: ¡De repente, empezaron a resolver problemas que antes ni siquiera podían intentar! Incluso superaron a modelos más grandes que no usaron este método.

En resumen

Imagina que quieres que tu perro aprenda trucos.

Método antiguo: Le gritas "¡Haz un salto mortal!" y si no lo hace, no le das premio. El perro se confunde y no aprende.
Método E2H: Primero le das un premio por sentarse. Luego por dar la mano. Luego por dar la vuelta. Y finalmente, cuando ya es un experto, le pides el salto mortal. Y lo mejor: el entrenador sabe exactamente cuándo dejar de darle premios por sentarse para que no se aburra y empiece a practicar el salto.

Conclusión: Este paper nos dice que para que las IAs sean más inteligentes y racionales, no hay que lanzarlas al fuego. Hay que enseñarles con paciencia, desde lo más simple hasta lo más complejo, usando un "entrenador" inteligente que sabe cuándo cambiar el ritmo. ¡Y funciona incluso con modelos pequeños!

Each language version is independently generated for its own context, not a direct translation.

1. El Problema

El artículo aborda las limitaciones actuales de los Modelos de Lenguaje Grande (LLM) en tareas de razonamiento complejo (matemáticas, codificación, planificación). Aunque técnicas como el Fine-Tuning Supervisado (SFT) y el Aprendizaje por Refuerzo (RL) post-entrenamiento (ej. DeepSeek-R1, OpenAI o1) han mostrado mejoras, existen desafíos críticos:

Señales de recompensa dispersas: En RL, la recompensa suele otorgarse solo si la respuesta final es correcta. Para tareas difíciles donde el modelo tiene un rendimiento cero-shot bajo, esto genera señales de aprendizaje muy escasas, dificultando la convergencia.
Brecha de distribución: Existe una gran diferencia entre la distribución de datos de pre-entrenamiento y las tareas objetivo complejas, lo que lleva a un mal rendimiento y sobreajuste.
Falta de generalización: Los métodos de RL tradicionales a menudo fallan al intentar aprender directamente tareas difíciles sin una progresión adecuada, o bien se sobreajustan a patrones superficiales de tareas fáciles si no se gestionan bien.
Definición vaga del razonamiento: El papel redefine el razonamiento no como la generación de pasos intermedios, sino como la capacidad de generalizar: extraer principios de tareas simples y aplicarlos a problemas más complejos.

2. Metodología: E2H Reasoner

Los autores proponen E2H Reasoner, un enfoque de Aprendizaje por Refuerzo con Currículo (CRL) que estructura el entrenamiento desde tareas fáciles hasta difíciles.

A. Descomposición de Tareas (Task Decomposition)

El conjunto de datos de entrenamiento se divide en cuatro niveles de dificultad:

Trivial: Pasos mínimos, recompensas densas.
Fácil: Requiere habilidades básicas.
Medio: Combina múltiples habilidades.
Difícil: Tareas complejas que requieren razonamiento profundo.
OOD (Out-of-Distribution): Para evaluar la generalización.

La dificultad se determina mediante anotaciones humanas (longitud del plan, número de operandos, nivel del problema) o estimada automáticamente mediante tasas de error del modelo base con Chain of Thought (CoT).

B. Programadores de Entrenamiento (Training Schedulers)

Para evitar el olvido de tareas anteriores (task forgetting) y el sobreajuste a tareas fáciles (reward hacking), se proponen dos estrategias de muestreo probabilístico:

Programación Cosínica (E2H-C): Utiliza una función coseno para interpolar suavemente la probabilidad de muestreo de tareas fáciles a difíciles. Comienza con alta probabilidad en tareas fáciles y termina enfocándose en las difíciles. Es ideal para tareas donde el modelo ya tiene un rendimiento razonable en todos los niveles.
Programación Gaussiana (E2H-G): Inspirada en modelos de mezcla gaussiana. Permite un control más fino mediante hiperparámetros ( $\sigma$ $σ$ y $\beta$ $β$ ).
- Permite una exposición inicial rápida a tareas fáciles para aprender principios básicos.
- Decae rápidamente la probabilidad de tareas triviales para evitar el sobreajuste y forzar el aprendizaje de tareas difíciles con recompensas dispersas.
- Es más efectiva en escenarios de recompensas muy dispersas (como Blocksworld).

C. Marco Teórico

El método se enmarca dentro de la Iteración de Política Aproximada (API). Los autores demuestran teóricamente que:

El enfoque de currículo garantiza la convergencia del rendimiento final.
Se derivan límites de complejidad de muestra finita, demostrando que el aprendizaje con currículo requiere menos muestras totales que el aprendizaje directo en la tarea final, siempre que las etapas intermedias estén bien diseñadas y las distribuciones se interpolen suavemente.

3. Contribuciones Clave

E2H Reasoner: Un marco de CRL que supera las limitaciones del RL directo y del currículo estático tradicional, permitiendo a modelos pequeños (1.5B - 3B parámetros) aprender tareas que inicialmente no podían resolver.
Análisis Teórico Riguroso: Establecimiento de garantías de convergencia y límites de complejidad de muestra que validan por qué el enfoque "de fácil a difícil" es más eficiente en muestras que el aprendizaje directo.
Estrategias de Programación Adaptativa: Introducción de schedulers cosinicos y gaussianos que equilibran la exploración de tareas fáciles (para densidad de recompensa) y la explotación de tareas difíciles (para generalización), mitigando el olvido y el sobreajuste.
Evidencia Empírica: Demostración de que pequeños LLMs pueden adquirir capacidades de razonamiento robustas mediante este enfoque, superando a modelos base y a otros métodos de RL.

4. Resultados Experimentales

Los experimentos se realizaron en múltiples modelos (Qwen 1.5B, LLaMA 3.2 3B) y benchmarks de razonamiento: Blocksworld, Countdown, MATH, GSM8K y AQuA.

Rendimiento Superior: E2H Reasoner alcanzó el estado del arte (SOTA) en cinco tareas de razonamiento. En Blocksworld y Countdown, superó significativamente a los modelos base y a las variantes de RL sin currículo.
Generalización (OOD): El método mostró una mejora notable en la capacidad de generalización a tareas fuera de distribución (OOD), validando la hipótesis de que el currículo enseña principios fundamentales en lugar de memorizar patrones.
Comparación con Baselines:
- Superó al RL directo (entrenado solo en tareas difíciles), que a menudo fallaba o tenía un rendimiento peor que el baseline CoT.
- Superó al Curriculum Learning tradicional (cambio fijo de tareas), que sufría de olvido de tareas anteriores.
- Superó a Self-Evolve (que muestrea problemas con 50% de tasa de éxito), mostrando que la progresión estructurada es más efectiva que solo maximizar la "aprendibilidad" momentánea.
Eficiencia de Muestras: Los resultados empíricos confirmaron la teoría: los métodos CRL necesitaron entre 2.5 y 3 veces menos muestras "duras" para alcanzar un rendimiento comparable al entrenamiento exclusivo en tareas difíciles.
Complementariedad: La combinación de E2H con DAPO (un sistema de RL escalable) redujo la fracción de lotes con ventaja cero, mejorando aún más el rendimiento.

5. Significado e Impacto

Democratización del Razonamiento: El trabajo demuestra que no es necesario escalar masivamente los parámetros del modelo para lograr un razonamiento avanzado; una estrategia de entrenamiento adecuada (currículo) en modelos pequeños es suficiente.
Validación Teórica-Práctica: Rara vez se logra una alineación tan fuerte entre la teoría (garantías de convergencia y complejidad de muestra) y los resultados empíricos en el campo del RL para LLMs.
Nueva Dirección para el Post-Entrenamiento: Sugiere que el futuro del entrenamiento de LLMs para razonamiento no reside solo en algoritmos de optimización más complejos, sino en la arquitectura del flujo de datos (cómo se presentan las tareas).
Aplicabilidad: El método es escalable y se puede aplicar a diversos dominios (matemáticas, planificación, código) sin necesidad de recompensas de paso a paso manualmente diseñadas, utilizando únicamente la dificultad de la tarea como señal de currículo.

En conclusión, E2H Reasoner establece que el camino hacia un razonamiento robusto en LLMs pasa por una progresión estructurada y probabilística de la dificultad, permitiendo a los modelos construir habilidades fundamentales antes de enfrentar desafíos complejos.