ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
本論文は、外部オラクルや実行フィードバックに依存せず、強化学習を用いてモデルの重み自体にコード生成・自己反省・自己修正の能力を内蔵させる新たなフレームワーク「ReflexiCoder」を提案し、小規模なオープンソースモデルでも GPT-5.1 などのプロプライエタリモデルに匹敵する性能を達成したことを報告しています。