ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
ReflexiCoder 提出了一种基于强化学习的框架,通过将生成、反思与自修正的完整轨迹内化至模型权重中,使大语言模型能够在无需外部反馈或执行引擎的情况下实现自主代码调试,从而在多项基准测试中达到甚至超越 GPT-5.1 的性能,同时显著降低了推理计算开销。