ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
Le papier présente ReflexiCoder, un cadre d'apprentissage par renforcement qui intègre des capacités intrinsèques d'autoréflexion et d'autocorrection dans les poids des modèles de langage, leur permettant d'atteindre des performances de pointe sur des tâches de codage complexes sans dépendre de retours externes ou d'exécution de code lors de l'inférence.