ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder es un nuevo marco de aprendizaje por refuerzo que entrena a modelos de lenguaje grandes para internalizar la capacidad de autocrítica y autocorrección de código de forma autónoma durante la inferencia, logrando un rendimiento de vanguardia en múltiples benchmarks sin depender de oráculos externos ni motores de ejecución.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim

Publicado Mon, 09 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que estás aprendiendo a cocinar un plato muy complejo, como un soufflé de chocolate.

El Problema: El Chef que no se detiene a probar

Hasta ahora, los "chefs" de inteligencia artificial (llamados Modelos de Lenguaje Grandes o LLMs) funcionaban como un cocinero muy rápido pero un poco nervioso: le dabas una receta, él escribía el código (el plato) de un solo tirón y lo servía inmediatamente.

El problema es que si el plato tenía un error (un poco de sal de más, o el horno estaba muy caliente), el chef no se daba cuenta hasta que el cliente (el usuario) lo devolvía. Si el cliente no podía devolverlo (porque no tenía un "sabor" o prueba automática), el plato quedaba mal.

Para arreglar esto, los métodos anteriores hacían algo así como:

  1. El chef cocinaba.
  2. Llamaba a un sommelier externo (un compilador o un humano) para que probara el plato.
  3. Si el sommelier decía "está salado", el chef lo volvía a cocinar.
  4. Repetían esto muchas veces.

El problema de este método: Es lento, costoso y, lo peor de todo, el chef nunca aprende a probarse a sí mismo. Siempre depende del sommelier.

La Solución: ReflexiCoder, el Chef que tiene "Conciencia"

Los autores de este paper crearon ReflexiCoder. Imagina que en lugar de entrenar al chef solo a cocinar rápido, le enseñamos a pensar, cocinar, probar su propio plato y corregirlo antes de servirlo, todo en su propia mente.

No necesita llamar a un sommelier externo. El chef ha desarrollado una "voz interior" (un monólogo interno) que le dice: "Oye, esta parte de la receta no tiene sentido, voy a cambiarla".

¿Cómo lo hicieron? (La Analogía del Entrenamiento)

En lugar de darle al chef una lista de recetas perfectas para copiar (lo que se llama "aprendizaje supervisado"), usaron un sistema de Recompensas y Castigos (Aprendizaje por Refuerzo), como si fuera un videojuego:

  1. La Regla de Oro (Formato): El chef debe seguir un guion estricto: Pensar -> Escribir -> Reflexionar -> Corregir. Si no sigue el guion, no gana puntos.
  2. El Castigo por Exceso (Eficiencia): Si el chef reflexiona 10 veces por un error tonto, pierde puntos. El sistema le enseña: "¡Basta! Si ya lo arreglaste, sirve el plato". Esto evita que pierda tiempo dando vueltas en círculos.
  3. La Recompensa por Mejora: Si el chef detecta un error y lo arregla, gana muchos puntos. Si el primer intento fue perfecto, gana el máximo.

Los Resultados: ¡El Chef más rápido y listo!

Lo increíble de este paper es que, al entrenar al chef para que sea tan bueno pensando y corrigiendo por sí mismo, se volvió mejor incluso cuando no le permitían usar ese tiempo extra de reflexión.

  • El resultado: Un modelo de tamaño mediano (ReflexiCoder-8B) logró resultados que superan a modelos privados gigantes (como GPT-5.1) en pruebas de programación difíciles.
  • La eficiencia: Aunque parece que reflexionar consume más tiempo, en realidad el chef aprendió a ser tan eficiente que usa menos "palabras" (tokens) que los chefs tradicionales. Es como si aprendiera a pensar de forma tan clara que no necesita divagar.

En resumen

ReflexiCoder es como enseñar a un estudiante a estudiar para un examen no solo memorizando respuestas, sino aprendiendo a detectar sus propios errores, dudar de su lógica y corregirse antes de entregar la hoja.

Ya no necesita un profesor que le diga "esto está mal" en cada paso. Ha internalizado la habilidad de ser su propio crítico y editor, lo que lo hace más rápido, más barato de usar y, sobre todo, mucho más inteligente.

La lección clave: La verdadera inteligencia no es solo generar respuestas rápidas, sino tener la capacidad de detenerse, mirarse al espejo y decir: "Espera, esto no está bien, voy a arreglarlo".