ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
Die Arbeit stellt ReflexiCoder vor, ein Reinforcement-Learning-Framework, das Large Language Models befähigt, Code autonom durch internalisierte Selbstreflexion und Selbstkorrektur zu verbessern, wodurch sie bei algorithmischen Aufgaben neue State-of-the-Art-Ergebnisse erzielen und dabei deutlich token-effizienter sind als herkömmliche Ansätze.