AMiD: Knowledge Distillation for LLMs with -mixture Assistant Distribution
Das Paper stellt AMiD vor, ein einheitliches Framework für das Wissenstransfer von großen auf kleine Sprachmodelle, das durch eine neuartige, parametrisierbare -Mischungs-Assistentenverteilung und eine generalisierte Divergenzfamilie die Stabilität und Leistung gegenüber bisherigen Ansätzen verbessert.