ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
Il paper introduce ReflexiCoder, un nuovo framework di apprendimento per rinforzo che addestra i modelli linguistici a internalizzare capacità autonome di auto-riflessione e auto-correzione del codice, ottenendo risultati all'avanguardia su diversi benchmark senza dipendere da oracoli esterni o feedback di esecuzione durante l'inferenza.