Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
Questo articolo presenta FGO, un algoritmo di apprendimento per rinforzo che comprime in modo efficiente il ragionamento a catena di pensiero (CoT) nei modelli linguistici di grandi dimensioni, risolvendo al contempo le limitazioni di GRPO relative all'uso dei dati e al collasso dell'entropia senza compromettere le prestazioni.