Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO
이 논문은 구조 인식 마스킹과 GRPO 를 활용한 3 단계 커리큘럼 학습 프레임워크를 제안하여, Qwen2.5-3B-Base 모델이 GSM8K 에서 정확도를 11.29% 향상시키면서 동시에 출력 길이를 27.4% 단축하는 효율적인 체인 오브 씽킹 증류 방법을 제시합니다.