NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un estudiante muy inteligente, pero que a veces se equivoca al resolver problemas de matemáticas. Tradicionalmente, para enseñarle, los profesores (o los algoritmos de Inteligencia Artificial) le daban solo las respuestas correctas y le decían: "Mira, así se hace". Esto es como Aprendizaje Supervisado (SL): copiar el ejemplo perfecto.

Pero, ¿qué pasa si el estudiante intenta resolver el problema, se equivoca, y en lugar de tirar ese papel a la basura, le decimos: "Mira, aquí fallaste, ¿por qué crees que pasó?"?

Aquí es donde entra el nuevo método que presentan en este paper, llamado NFT (no, no son los "tokens" digitales de arte, sino Ajuste Fino Consciente de lo Negativo).

Aquí te lo explico con una analogía sencilla:

1. El Problema: El "Entrenador" que solo ve lo bueno

Antes, los métodos de aprendizaje (como el Rejection Fine-Tuning o RFT) funcionaban así:

El estudiante (la IA) intenta resolver 10 problemas.
El entrenador revisa las respuestas.
Si la respuesta es correcta, la guarda en un cuaderno de "Éxitos".
Si la respuesta es incorrecta, la tira a la papelera.
Luego, el estudiante solo estudia el cuaderno de éxitos.

El problema: El estudiante se vuelve muy bueno haciendo lo que ya sabe hacer, pero nunca aprende de sus errores. Es como un atleta que solo entrena cuando gana, pero nunca analiza por qué perdió un partido.

2. La Solución: NFT (El Entrenador que analiza los errores)

Los autores de este paper dicen: "¡Esperen! No tiremos esas respuestas malas. Podemos usarlas".

Imagina que el estudiante tiene un doble (un gemelo) que actúa como un "espejo de los errores".

Cuando el estudiante falla, en lugar de borrar el error, el sistema le dice al gemelo: "Anota cómo fallaste".
Pero aquí está la magia: El gemelo y el estudiante son la misma persona.
El sistema usa la lógica matemática para decir: "Si sé cómo te comportaste cuando ganaste, y sé cómo te comportaste cuando perdiste, puedo deducir exactamente qué debes cambiar para mejorar".

En lugar de tener dos modelos separados (uno para ganar y otro para perder), NFT usa un solo modelo que aprende de ambos lados:

Refuerza lo bueno: "¡Bien hecho, sigue así!"
Aprende de lo malo: "¡Ouch, esa respuesta era incorrecta! Si la hubiera hecho así, habría fallado menos. ¡Cámbiala!"

3. La Gran Sorpresa: ¿Es Magia o es Matemática?

Lo más increíble del paper es que descubrieron algo que parecía imposible.

Existe un método muy famoso y complejo llamado RL (Aprendizaje por Refuerzo), que es como un videojuego donde la IA recibe "puntos" por acertar y "castigos" por fallar. Es muy potente, pero difícil de entender.
NFT es un método "simple" (basado en Supervisión), pero resulta ser matemáticamente idéntico al método complejo de los videojuegos cuando el entrenamiento es perfecto.

La analogía: Es como si descubrieras que, para llegar a la cima de una montaña, no necesitas un helicóptero costoso (RL complejo), sino que si caminas con el mapa correcto (NFT), llegas exactamente al mismo lugar, paso a paso, pero usando una ruta más simple y eficiente.

4. ¿Qué lograron?

Mejor rendimiento: En pruebas de matemáticas (como olimpiadas de matemáticas), este método "NFT" funcionó tan bien o incluso mejor que los métodos más avanzados y costosos.
Ahorro de recursos: No necesitan guardar dos modelos gigantes en la memoria de la computadora, solo uno. Es como tener un solo cuaderno de notas que contiene tanto los aciertos como los análisis de los errores, en lugar de tener dos libros separados.
Inteligencia real: Al obligar a la IA a mirar sus propios errores, la hacen más inteligente y capaz de "reflexionar", no solo de memorizar respuestas.

En resumen

Este paper nos dice que no necesitamos ser "mágicos" ni usar algoritmos de videojuegos supercomplicados para que una IA aprenda de sus errores. Solo necesitamos ser lo suficientemente inteligentes para no tirar la basura (las respuestas incorrectas) y usarla como combustible para mejorar.

Es como decirle a un niño: "No te preocupes por la mala nota, úsala para entender qué no estudiaste bien, y así la próxima vez serás un genio". Y lo mejor: ¡funciona!

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning" (NFT: Uniendo el Aprendizaje Supervisado y el Aprendizaje por Refuerzo en el Razonamiento Matemático), publicado en ICLR 2026.

1. El Problema

El reciente avance en las capacidades de razonamiento matemático de los Modelos de Lenguaje Grande (LLMs) se ha impulsado principalmente por el Aprendizaje por Refuerzo (RL), específicamente mediante entrenamiento guiado por verificadores binarios (correcto/incorrecto). Sin embargo, el Aprendizaje Supervisado (SL) ha sido relegado en este contexto debido a una percepción común: se cree que el SL está diseñado únicamente para memorizar respuestas correctas (datos positivos) y es incapaz de aprender de los errores (datos negativos) o de reflexionar sobre sus propias fallas sin un "maestro" externo.

Los métodos basados en SL, como el Rejection Fine-Tuning (RFT), descartan las respuestas incorrectas generadas por el modelo, perdiendo así la oportunidad de que el modelo aprenda de sus propios fallos. Esto limita su capacidad de auto-mejora y generalización en comparación con los algoritmos de RL como PPO o GRPO.

2. Metodología: Negative-aware Fine-Tuning (NFT)

Los autores proponen NFT, un enfoque de ajuste fino supervisado que desafía la noción de que el aprendizaje reflexivo es exclusivo del RL. La metodología se basa en los siguientes pilares:

Política Negativa Implícita: En lugar de descartar las respuestas negativas (incorrectas), NFT construye una "política negativa implícita" ( $\pi^-$ ) para modelarlas. Esta política se parametriza utilizando el mismo modelo LLM positivo ( $\pi^+_\theta$ ) que se está optimizando.
Relación Teórica: Utilizando la regla de Bayes, los autores demuestran que la distribución de respuestas correctas ( $\pi^+$ ) y la de respuestas incorrectas ( $\pi^-$ ) están acopladas linealmente con la política de generación original ( $\pi_{old}$ ):
$\pi_{old}(a|q) = r_q \pi^+(a|q) + (1 - r_q) \pi^-(a|q)$
Donde $r_q$ es la tasa de acierto.
Optimización Directa: Al reparametrizar la política negativa en función de la positiva, el algoritmo puede optimizar directamente la política objetivo ( $\pi^+_\theta$ ) utilizando tanto los datos positivos como los negativos mediante una función de pérdida de verosimilitud máxima (Maximum Likelihood).
Función de Pérdida: La pérdida combina el log-likelihood de las respuestas correctas y un término modificado para las incorrectas, donde la probabilidad de la respuesta incorrecta se expresa en función de la probabilidad de la respuesta correcta.
Eficiencia de Memoria: A diferencia de los métodos de RL que a menudo requieren mantener múltiples copias de modelos (política actual, antigua, etc.), NFT mantiene una sola copia del modelo en memoria, calculando las probabilidades de la política antigua ( $\pi_{old}$ ) durante la generación de datos.

3. Contribuciones Clave

Puente entre SL y RL: NFT demuestra que el aprendizaje supervisado puede lograr el mismo rendimiento que el RL en tareas de razonamiento con verificación binaria, desafiando la idea de que el SL no puede manejar retroalimentación negativa.
Equivalencia Teórica: Los autores prueban teóricamente que, en condiciones estrictas de entrenamiento on-policy (cuando la política actual es idéntica a la antigua), NFT y GRPO (Group Relative Policy Optimization) son equivalentes. Sus gradientes son idénticos, revelando que la "normalización de ventaja" de GRPO está implícita en la función de pérdida de NFT.
Aprovechamiento de Datos Negativos: Demuestran que el uso de datos negativos (respuestas incorrectas) es crucial para el rendimiento, especialmente en modelos grandes, permitiendo que el modelo reflexione sobre sus errores en lugar de solo reforzar lo que ya sabe.
Algoritmo Eficiente: NFT ofrece una alternativa de bajo costo computacional y de memoria a los complejos pipelines de RL, manteniendo la estabilidad y la eficacia.

4. Resultados Experimentales

Los experimentos se realizaron en modelos Qwen2.5-Math de 7B y 32B utilizando el conjunto de datos DAPO-Math-17k.

Rendimiento vs. RL: NFT iguala o supera a algoritmos de RL de vanguardia como GRPO, DAPO y Dr. GRPO en múltiples benchmarks (AIME 2024/2025, MATH500, OlympiadBench, Minerva Math).
- En el modelo de 7B, NFT superó a DAPO y GRPO en promedio.
- En el modelo de 32B, NFT logró un rendimiento comparable a DAPO, superando significativamente a las líneas base de SL puro (RFT).
Impacto de los Datos Negativos:
- NFT superó consistentemente al RFT (que solo usa datos positivos), demostrando que el aprendizaje de los errores es vital.
- Se observó que la brecha de rendimiento entre RFT y NFT se amplía en modelos más grandes (32B), sugiriendo que la capacidad de reflexionar sobre errores se vuelve más crítica a medida que el modelo ya ha memorizado gran parte del conocimiento.
Análisis de Entropía: Mientras que RFT tiende a reducir la entropía (exploración) con el tiempo, NFT y los métodos de RL mantienen o aumentan la entropía, lo que indica una mayor capacidad de exploración y robustez.

5. Significado e Impacto

Este trabajo tiene implicaciones profundas para el futuro del entrenamiento de LLMs:

Democratización del Entrenamiento: NFT sugiere que no es estrictamente necesario utilizar algoritmos complejos de RL (como PPO o GRPO) para lograr auto-mejora en razonamiento matemático. Un enfoque supervisado bien diseñado puede lograr resultados de clase mundial con una infraestructura más simple.
Unificación de Paradigmas: Al demostrar la equivalencia teórica entre NFT y GRPO en escenarios on-policy, el artículo unifica conceptualmente dos campos que se consideraban distintos, sugiriendo que las diferencias de rendimiento en escenarios off-policy se deben más a estrategias de recorte (clipping) que a la naturaleza fundamental de los algoritmos.
Escalabilidad: La eficiencia de memoria de NFT lo hace altamente escalable para modelos masivos, eliminando la necesidad de mantener múltiples copias de modelos para el cálculo de ventajas o políticas antiguas.

En resumen, NFT redefine el papel del Aprendizaje Supervisado en el entrenamiento de LLMs, demostrando que, con la correcta incorporación de retroalimentación negativa, el SL puede ser tan efectivo como el RL para el razonamiento matemático, ofreciendo una ruta más simple y eficiente hacia la inteligencia general.

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

1. El Problema: El "Entrenador" que solo ve lo bueno

2. La Solución: NFT (El Entrenador que analiza los errores)

3. La Gran Sorpresa: ¿Es Magia o es Matemática?

4. ¿Qué lograron?

En resumen

1. El Problema

2. Metodología: Negative-aware Fine-Tuning (NFT)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models