Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
Este artigo propõe o Fine-grained Group Policy Optimization (FGO), um algoritmo de Aprendizado por Reforço que comprime de forma eficiente o raciocínio passo a passo (Chain-of-Thought) de Grandes Modelos de Linguagem, superando limitações de eficiência de dados e colapso de entropia do GRPO sem degradar o desempenho em benchmarks de raciocínio.