Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
Die Arbeit stellt Fine-grained Group Policy Optimization (FGO) vor, einen Reinforcement-Learning-Algorithmus, der als effiziente Weiterentwicklung von GRPO übermäßige Chain-of-Thought-Verläufe in großen Sprachmodellen komprimiert und dabei gleichzeitig die Probleme der ineffizienten Datennutzung sowie des Entropie-Kollapses löst, ohne die Leistungsfähigkeit zu beeinträchtigen.