Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
Este artículo presenta FGO, un algoritmo de aprendizaje por refuerzo que comprime eficazmente el razonamiento de cadena de pensamiento en modelos de lenguaje grandes mediante la subdivisión y ponderación de respuestas, resolviendo al mismo tiempo las limitaciones de ineficiencia en el uso de datos y colapso de entropía del método GRPO sin degradar el rendimiento.