Distillation of Large Language Models via Concrete Score Matching
Il paper propone la Concrete Score Distillation (CSD), un nuovo obiettivo di distillazione basato sul score matching discreto che supera i limiti delle tecniche esistenti eliminando l'effetto di smoothing del softmax e le restrizioni sull'invarianza dello shift dei logit, ottenendo così risultati superiori nella fedeltà e nella diversità durante la distillazione di grandi modelli linguistici.