ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
ReflexiCoder is een nieuw reinforcement learning-framework dat grote taalmodellen leert om code autonoom te genereren, te reflecteren op fouten en zichzelf te corrigeren zonder externe hulp, wat leidt tot state-of-the-art prestaties en een aanzienlijke vermindering van de inferentie-overhead.