DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

El artículo presenta DeReason, una estrategia de curriculum basada en la dificultad que mejora el entrenamiento post-SFT mediante RL para el razonamiento general en STEM, al asignar problemas no intensivos en razonamiento a la fase de ajuste supervisado y reservar los más complejos para la fase de aprendizaje por refuerzo, logrando un rendimiento superior frente a enfoques convencionales.

Hanxu Hu, Yuxuan Wang, Maggie Huan, Jannis Vamvas, Yinya Huang, Zhijiang Guo, Rico Sennrich

Publicado 2026-03-13
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres entrenar a un estudiante muy inteligente (pero aún inexperto) para que se convierta en un genio de las ciencias y las matemáticas. El artículo que hemos leído, llamado DeReason, nos cuenta una historia fascinante sobre cómo hacerlo de la manera más eficiente posible.

Aquí tienes la explicación, traducida a un lenguaje sencillo y con algunas analogías divertidas:

🧠 El Problema: ¿Cómo entrenar a un genio?

Hasta hace poco, la gente pensaba que la mejor forma de enseñar a una Inteligencia Artificial (IA) a razonar era simplemente lanzarla a la piscina profunda y dejar que aprendiera a nadar sola mediante prueba y error (esto se llama Refuerzo con Recompensas Verificables o RLVR).

Pero los autores de este paper descubrieron algo sorprendente: Si lanzas a un principiante directamente a la piscina profunda, se ahoga.

  • La analogía: Imagina que le das a un niño de 5 años un problema de física cuántica y le dices: "Si lo resuelves, te doy una estrella; si no, no". El niño intentará adivinar, fallará miles de veces y probablemente nunca aprenderá nada útil. Es ineficiente y frustrante.
  • El hallazgo: Descubrieron que es mucho mejor primero darle al niño un libro de texto con las respuestas correctas y explicaciones claras (esto se llama Ajuste Fino Supervisado o SFT). El niño aprende los conceptos básicos y la "gramática" de la ciencia mucho más rápido.

🚀 La Solución: DeReason (El Plan de Entrenamiento Inteligente)

El equipo propuso una estrategia llamada DeReason. En lugar de mezclar todo el material de estudio al azar, proponen dividir el entrenamiento en dos fases muy claras, basándose en la dificultad de los problemas.

Piensa en esto como un plan de estudios escolar:

1. Fase 1: La Escuela Primaria (SFT - Ajuste Fino)

  • ¿Qué hacemos? Tomamos los problemas "fáciles" y de "conocimiento general" (como recordar fórmulas, hechos históricos o definiciones).
  • La analogía: Es como si el maestro le diera al estudiante un manual de instrucciones. "Para sumar, haz esto. Para recordar el año de la Revolución Francesa, es 1789".
  • El objetivo: Que el modelo aprenda los fundamentos y no se pierda. Aquí, el modelo imita las respuestas correctas de un profesor. Es la base sólida.

2. Fase 2: La Universidad de Elite (RL - Refuerzo)

  • ¿Qué hacemos? Tomamos solo los problemas muy difíciles y complejos (los que requieren varios pasos de lógica, deducción y creatividad).
  • La analogía: Ahora que el estudiante ya sabe sumar y conoce la historia, lo enviamos a un laboratorio de investigación donde debe resolver problemas que ni el profesor tenía la respuesta inmediata. Si acierta, recibe una medalla de oro; si falla, intenta de nuevo.
  • El objetivo: Aquí es donde el modelo desarrolla su propio "sentido común" y capacidad de razonamiento profundo. No está copiando al profesor, está explorando soluciones nuevas.

🎯 ¿Por qué es mejor que el método anterior?

Antes, la gente mezclaba los problemas fáciles y difíciles al azar y los lanzaba a las dos fases.

  • El error: Si le das problemas de física cuántica a un niño que apenas está aprendiendo a leer (Fase 1), se abruma. Si le das problemas de "¿cuánto es 2+2?" a un investigador de elite (Fase 2), se aburre y no aprende nada nuevo.

DeReason dice: "¡Espera! Separemos el material".

  • Problemas fáciles y de memoria ➡️ Para la Fase 1 (SFT).
  • Problemas difíciles y de lógica ➡️ Para la Fase 2 (RL).

📊 Los Resultados: ¡Funciona!

Cuando probaron esta estrategia en matemáticas y ciencias generales:

  1. Mejor que solo leer: El modelo que solo estudió el libro (SFT) era bueno, pero no excelente en problemas nuevos.
  2. Mejor que solo saltar: El modelo que solo saltó a la piscina (RL) aprendió muy poco y muy lento.
  3. El ganador: El modelo que primero estudió los fundamentos (Fase 1) y luego practicó con los problemas difíciles (Fase 2) se convirtió en el campeón indiscutible.

💡 En resumen

Imagina que quieres entrenar a un atleta olímpico:

  1. No le pides que corra una maratón el primer día (eso es RL directo en un modelo base: ineficiente).
  2. Primero le enseñas la técnica de carrera, la dieta y los ejercicios básicos (SFT en problemas fáciles).
  3. Luego, lo pones a competir en las carreras más duras para pulir su resistencia y estrategia (RL en problemas difíciles).

DeReason es simplemente la regla de oro: "Entrena lo básico con explicaciones, y entrena lo difícil con desafíos". Esta separación inteligente de los datos es la clave para crear IAs que piensen mejor en cualquier tema, desde biología hasta física.