Entropy-Aware On-Policy Distillation of Language Models
Cet article propose une distillation en ligne consciente de l'entropie qui améliore la diversité de génération et l'alignement élève-enseignant en adaptant dynamiquement l'objectif de divergence KL en fonction de l'incertitude du modèle enseignant, ce qui se traduit par des gains significatifs de performance sur des benchmarks de raisonnement mathématique.