NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Este trabajo presenta la Ajuste Fino Consciente de lo Negativo (NFT), un enfoque de aprendizaje supervisado que permite a los modelos de lenguaje mejorar autónomamente en razonamiento matemático mediante el aprovechamiento de sus propios errores, logrando un rendimiento comparable o superior a los métodos de aprendizaje por refuerzo y demostrando teóricamente la equivalencia entre ambos paradigmas en entornos de entrenamiento estrictamente en política.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Lifan Yuan, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un estudiante muy inteligente, pero que a veces se equivoca al resolver problemas de matemáticas. Tradicionalmente, para enseñarle, los profesores (o los algoritmos de Inteligencia Artificial) le daban solo las respuestas correctas y le decían: "Mira, así se hace". Esto es como Aprendizaje Supervisado (SL): copiar el ejemplo perfecto.

Pero, ¿qué pasa si el estudiante intenta resolver el problema, se equivoca, y en lugar de tirar ese papel a la basura, le decimos: "Mira, aquí fallaste, ¿por qué crees que pasó?"?

Aquí es donde entra el nuevo método que presentan en este paper, llamado NFT (no, no son los "tokens" digitales de arte, sino Ajuste Fino Consciente de lo Negativo).

Aquí te lo explico con una analogía sencilla:

1. El Problema: El "Entrenador" que solo ve lo bueno

Antes, los métodos de aprendizaje (como el Rejection Fine-Tuning o RFT) funcionaban así:

  • El estudiante (la IA) intenta resolver 10 problemas.
  • El entrenador revisa las respuestas.
  • Si la respuesta es correcta, la guarda en un cuaderno de "Éxitos".
  • Si la respuesta es incorrecta, la tira a la papelera.
  • Luego, el estudiante solo estudia el cuaderno de éxitos.

El problema: El estudiante se vuelve muy bueno haciendo lo que ya sabe hacer, pero nunca aprende de sus errores. Es como un atleta que solo entrena cuando gana, pero nunca analiza por qué perdió un partido.

2. La Solución: NFT (El Entrenador que analiza los errores)

Los autores de este paper dicen: "¡Esperen! No tiremos esas respuestas malas. Podemos usarlas".

Imagina que el estudiante tiene un doble (un gemelo) que actúa como un "espejo de los errores".

  • Cuando el estudiante falla, en lugar de borrar el error, el sistema le dice al gemelo: "Anota cómo fallaste".
  • Pero aquí está la magia: El gemelo y el estudiante son la misma persona.
  • El sistema usa la lógica matemática para decir: "Si sé cómo te comportaste cuando ganaste, y sé cómo te comportaste cuando perdiste, puedo deducir exactamente qué debes cambiar para mejorar".

En lugar de tener dos modelos separados (uno para ganar y otro para perder), NFT usa un solo modelo que aprende de ambos lados:

  1. Refuerza lo bueno: "¡Bien hecho, sigue así!"
  2. Aprende de lo malo: "¡Ouch, esa respuesta era incorrecta! Si la hubiera hecho así, habría fallado menos. ¡Cámbiala!"

3. La Gran Sorpresa: ¿Es Magia o es Matemática?

Lo más increíble del paper es que descubrieron algo que parecía imposible.

  • Existe un método muy famoso y complejo llamado RL (Aprendizaje por Refuerzo), que es como un videojuego donde la IA recibe "puntos" por acertar y "castigos" por fallar. Es muy potente, pero difícil de entender.
  • NFT es un método "simple" (basado en Supervisión), pero resulta ser matemáticamente idéntico al método complejo de los videojuegos cuando el entrenamiento es perfecto.

La analogía: Es como si descubrieras que, para llegar a la cima de una montaña, no necesitas un helicóptero costoso (RL complejo), sino que si caminas con el mapa correcto (NFT), llegas exactamente al mismo lugar, paso a paso, pero usando una ruta más simple y eficiente.

4. ¿Qué lograron?

  • Mejor rendimiento: En pruebas de matemáticas (como olimpiadas de matemáticas), este método "NFT" funcionó tan bien o incluso mejor que los métodos más avanzados y costosos.
  • Ahorro de recursos: No necesitan guardar dos modelos gigantes en la memoria de la computadora, solo uno. Es como tener un solo cuaderno de notas que contiene tanto los aciertos como los análisis de los errores, en lugar de tener dos libros separados.
  • Inteligencia real: Al obligar a la IA a mirar sus propios errores, la hacen más inteligente y capaz de "reflexionar", no solo de memorizar respuestas.

En resumen

Este paper nos dice que no necesitamos ser "mágicos" ni usar algoritmos de videojuegos supercomplicados para que una IA aprenda de sus errores. Solo necesitamos ser lo suficientemente inteligentes para no tirar la basura (las respuestas incorrectas) y usarla como combustible para mejorar.

Es como decirle a un niño: "No te preocupes por la mala nota, úsala para entender qué no estudiaste bien, y así la próxima vez serás un genio". Y lo mejor: ¡funciona!