DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres entrenar a un estudiante muy inteligente (pero aún inexperto) para que se convierta en un genio de las ciencias y las matemáticas. El artículo que hemos leído, llamado DeReason, nos cuenta una historia fascinante sobre cómo hacerlo de la manera más eficiente posible.

Aquí tienes la explicación, traducida a un lenguaje sencillo y con algunas analogías divertidas:

🧠 El Problema: ¿Cómo entrenar a un genio?

Hasta hace poco, la gente pensaba que la mejor forma de enseñar a una Inteligencia Artificial (IA) a razonar era simplemente lanzarla a la piscina profunda y dejar que aprendiera a nadar sola mediante prueba y error (esto se llama Refuerzo con Recompensas Verificables o RLVR).

Pero los autores de este paper descubrieron algo sorprendente: Si lanzas a un principiante directamente a la piscina profunda, se ahoga.

La analogía: Imagina que le das a un niño de 5 años un problema de física cuántica y le dices: "Si lo resuelves, te doy una estrella; si no, no". El niño intentará adivinar, fallará miles de veces y probablemente nunca aprenderá nada útil. Es ineficiente y frustrante.
El hallazgo: Descubrieron que es mucho mejor primero darle al niño un libro de texto con las respuestas correctas y explicaciones claras (esto se llama Ajuste Fino Supervisado o SFT). El niño aprende los conceptos básicos y la "gramática" de la ciencia mucho más rápido.

🚀 La Solución: DeReason (El Plan de Entrenamiento Inteligente)

El equipo propuso una estrategia llamada DeReason. En lugar de mezclar todo el material de estudio al azar, proponen dividir el entrenamiento en dos fases muy claras, basándose en la dificultad de los problemas.

Piensa en esto como un plan de estudios escolar:

1. Fase 1: La Escuela Primaria (SFT - Ajuste Fino)

¿Qué hacemos? Tomamos los problemas "fáciles" y de "conocimiento general" (como recordar fórmulas, hechos históricos o definiciones).
La analogía: Es como si el maestro le diera al estudiante un manual de instrucciones. "Para sumar, haz esto. Para recordar el año de la Revolución Francesa, es 1789".
El objetivo: Que el modelo aprenda los fundamentos y no se pierda. Aquí, el modelo imita las respuestas correctas de un profesor. Es la base sólida.

2. Fase 2: La Universidad de Elite (RL - Refuerzo)

¿Qué hacemos? Tomamos solo los problemas muy difíciles y complejos (los que requieren varios pasos de lógica, deducción y creatividad).
La analogía: Ahora que el estudiante ya sabe sumar y conoce la historia, lo enviamos a un laboratorio de investigación donde debe resolver problemas que ni el profesor tenía la respuesta inmediata. Si acierta, recibe una medalla de oro; si falla, intenta de nuevo.
El objetivo: Aquí es donde el modelo desarrolla su propio "sentido común" y capacidad de razonamiento profundo. No está copiando al profesor, está explorando soluciones nuevas.

🎯 ¿Por qué es mejor que el método anterior?

Antes, la gente mezclaba los problemas fáciles y difíciles al azar y los lanzaba a las dos fases.

El error: Si le das problemas de física cuántica a un niño que apenas está aprendiendo a leer (Fase 1), se abruma. Si le das problemas de "¿cuánto es 2+2?" a un investigador de elite (Fase 2), se aburre y no aprende nada nuevo.

DeReason dice: "¡Espera! Separemos el material".

Problemas fáciles y de memoria ➡️ Para la Fase 1 (SFT).
Problemas difíciles y de lógica ➡️ Para la Fase 2 (RL).

📊 Los Resultados: ¡Funciona!

Cuando probaron esta estrategia en matemáticas y ciencias generales:

Mejor que solo leer: El modelo que solo estudió el libro (SFT) era bueno, pero no excelente en problemas nuevos.
Mejor que solo saltar: El modelo que solo saltó a la piscina (RL) aprendió muy poco y muy lento.
El ganador: El modelo que primero estudió los fundamentos (Fase 1) y luego practicó con los problemas difíciles (Fase 2) se convirtió en el campeón indiscutible.

💡 En resumen

Imagina que quieres entrenar a un atleta olímpico:

No le pides que corra una maratón el primer día (eso es RL directo en un modelo base: ineficiente).
Primero le enseñas la técnica de carrera, la dieta y los ejercicios básicos (SFT en problemas fáciles).
Luego, lo pones a competir en las carreras más duras para pulir su resistencia y estrategia (RL en problemas difíciles).

DeReason es simplemente la regla de oro: "Entrena lo básico con explicaciones, y entrena lo difícil con desafíos". Esta separación inteligente de los datos es la clave para crear IAs que piensen mejor en cualquier tema, desde biología hasta física.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning", presentado en español:

1. El Problema

El aprendizaje por refuerzo con recompensas verificables (RLVR) ha demostrado ser extremadamente efectivo para mejorar las capacidades de razonamiento en modelos de lenguaje grandes (LLM), especialmente en matemáticas y codificación. Sin embargo, su aplicación a dominios científicos generales (STEM) presenta desafíos significativos:

Ineficiencia de Muestras: Aplicar RL directamente a modelos base en dominios STEM generales es altamente ineficiente en términos de muestras y a menudo es superado por el Ajuste Fino Supervisado (SFT) con respuestas de calidad moderada.
Falta de Conocimiento de Dominio: El razonamiento científico general requiere un amplio conocimiento de dominio (fórmulas de física, identidades algebraicas) que es difícil de adquirir solo mediante exploración por ensayo y error (RL), a diferencia de la imitación directa (SFT).
Asignación de Datos Subóptima: Aunque se sabe que SFT y RL tienen roles complementarios, la forma óptima de asignar los datos de entrenamiento entre estas dos etapas (SFT primero, luego RL) en dominios generales no está bien explorada. La mayoría de los enfoques actuales utilizan divisiones aleatorias o se centran puramente en RL.

2. Metodología: DeReason

Los autores proponen DeReason, una estrategia de entrenamiento curricular basada en la dificultad que desacopla la asignación de datos entre las etapas de SFT y RL. En lugar de modificar los algoritmos de entrenamiento, la innovación radica en la selección de datos.

El flujo de trabajo consta de tres etapas principales:

Estimación de Dificultad (Scoring):
- Se utiliza un modelo LLM instructivo (del mismo tamaño que el modelo objetivo, ej. Qwen3-4B-Instruct) para evaluar cada problema de entrenamiento.
- Se asigna una puntuación de dificultad de 1 a 5 basada en factores como el número de pasos de razonamiento, el conocimiento de dominio previo necesario y el potencial de error.
- Criterio: Los problemas que requieren principalmente recuperación de conocimientos o aplicación directa de hechos reciben puntuaciones bajas (1-3). Los problemas que exigen derivación multi-paso y razonamiento complejo reciben puntuaciones altas (4-5).
Desacoplamiento de Datos (Partitioning):
- El conjunto de datos completo se divide en dos subconjuntos basados en un umbral de dificultad ( $\tau$ $τ$ ):
  - Subconjunto SFT ( $D_{SFT}$ ): Contiene problemas de baja dificultad (fáciles y de amplio cobertura). Aquí se generan respuestas de referencia utilizando un modelo "maestro" moderado. El objetivo es establecer el conocimiento fundamental del dominio y habilidades básicas mediante imitación eficiente.
  - Subconjunto RL ( $D_{RL}$ ): Contiene problemas de alta dificultad (difíciles y enfocados). Estos se reservan para la fase de RL.
Entrenamiento Curricular (Pipeline):
- Fase 1 (SFT): Se entrena el modelo base en $D_{SFT}$ para obtener una política inicial ( $\pi_{SFT}$ ).
- Fase 2 (RL): Se aplica RL (específicamente GRPO - Group Relative Policy Optimization) inicializando desde $\pi_{SFT}$ y utilizando solo $D_{RL}$ . Esto permite que el modelo explore caminos de razonamiento complejos más allá de lo que el maestro puede demostrar, sin perder el conocimiento base adquirido.

3. Contribuciones Clave

Análisis Sistemático de SFT vs. RL: Demuestran experimentalmente que, para modelos pequeños en dominios STEM generales, el SFT puro supera consistentemente al RL puro cuando se entrena en los mismos datos. El RL directo desde el modelo base es ineficiente sin un "arranque en frío" (cold-start) mediante SFT.
Estrategia de Desacoplamiento (DeReason): Proponen que la división de datos por dificultad es superior a las divisiones aleatorias. Asignar datos "fáciles" a SFT y datos "difíciles" a RL maximiza la eficiencia de ambas etapas.
Análisis de Comportamiento Detallado: Proporcionan una caracterización fina de la dinámica de entrenamiento, mostrando cómo SFT y RL afectan diferencialmente a la entropía de la política, la longitud de las respuestas y la optimización de recompensas.

4. Resultados

Los experimentos se realizaron en modelos de 4B (Qwen3-4B) y 7B, utilizando conjuntos de datos como WebInstruct-Verified y Webscale-RL, evaluados en benchmarks de razonamiento general (GPQA-Diamond, SuperGPQA, MMLU-Pro, BBEH) y matemáticos (AIME, MATH500).

Rendimiento Superior: La estrategia DeReason (SFT en datos fáciles + RL en datos difíciles) superó consistentemente a:
- SFT puro.
- RL puro (desde modelo base).
- Baselines de SFT-then-RL con división aleatoria de datos.
Resultados Específicos:
- En benchmarks de razonamiento general (GPQA-Diamond), el modelo DeReason alcanzó un 50.0% de precisión, superando al SFT puro (46.8%) y al RL puro (42.9%).
- En matemáticas, la combinación también mostró mejoras, alcanzando un 88.1% en MATH500 (vs 87.5% de SFT puro).
Análisis de Comportamiento:
- Longitud de Respuesta: El RL desde un checkpoint de SFT actúa como un mecanismo de compresión, acortando respuestas verbose mientras mantiene la calidad. Desde el modelo base, el RL tiende a divergir más drásticamente en longitud según la dificultad.
- Entropía: El modelo inicializado con SFT comienza con una entropía más baja y estable, mientras que el RL desde el modelo base reduce la entropía de manera más agresiva, convergiendo a una política más determinista.

5. Significado e Impacto

El trabajo de DeReason es significativo por varias razones:

Validación de la Sinergia SFT-RL: Confirma que para el razonamiento general, el SFT no es solo un paso opcional, sino un mecanismo indispensable para la adquisición eficiente de conocimiento de dominio, mientras que el RL es necesario para empujar los límites del razonamiento en problemas complejos.
Independencia Algorítmica: Al operar a nivel de selección de datos y no de modificación de algoritmos, DeReason es ortogonal a las mejoras algorítmicas existentes (como nuevas variantes de GRPO o PPO). Esto significa que puede integrarse fácilmente en cualquier pipeline de entrenamiento existente.
Escalabilidad: Ofrece una "receta" post-entrenamiento generalizada y altamente efectiva para dominios STEM, resolviendo la ineficiencia de escalar RL puro en tareas que requieren tanto conocimiento factual como razonamiento lógico.

En resumen, DeReason demuestra que la calidad y dificultad de los datos son tan críticas como el algoritmo de entrenamiento, y que una asignación curricular inteligente (fáciles para imitación, difíciles para exploración) es la clave para desbloquear capacidades de razonamiento general en modelos de lenguaje.

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

🧠 El Problema: ¿Cómo entrenar a un genio?

🚀 La Solución: DeReason (El Plan de Entrenamiento Inteligente)

1. Fase 1: La Escuela Primaria (SFT - Ajuste Fino)

2. Fase 2: La Universidad de Elite (RL - Refuerzo)

🎯 ¿Por qué es mejor que el método anterior?

📊 Los Resultados: ¡Funciona!

💡 En resumen

1. El Problema

2. Metodología: DeReason

3. Contribuciones Clave

4. Resultados

5. Significado e Impacto

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models

Artificial Intelligence for Sentiment Analysis of Persian Poetry