Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO
Cette étude propose un cadre d'apprentissage par curriculum en trois étapes, combinant un masquage structurel et l'optimisation par politique de groupe relative (GRPO), pour distiller efficacement le raisonnement par chaîne de pensée dans des modèles compacts, permettant ainsi d'améliorer la précision tout en réduisant la longueur des réponses.