ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
ReflexiCoder es un nuevo marco de aprendizaje por refuerzo que entrena a modelos de lenguaje grandes para internalizar la capacidad de autocrítica y autocorrección de código de forma autónoma durante la inferencia, logrando un rendimiento de vanguardia en múltiples benchmarks sin depender de oráculos externos ni motores de ejecución.