ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
이 논문은 외부 오라클이나 실행 피드백 없이도 강화 학습을 통해 생성된 코드에 대한 자기 성찰과 자기 수정 능력을 내재화한 새로운 프레임워크 'ReflexiCoder'를 제안하며, 이를 통해 1.5B~14B 크기의 오픈소스 모델 중 최고 성능을 달성하고 추론 시 토큰 효율성을 40% 향상시켰음을 보여줍니다.