AMiD: Knowledge Distillation for LLMs with -mixture Assistant Distribution
O artigo propõe o AMiD, um novo framework unificado para destilação de conhecimento em LLMs que introduz uma distribuição de assistente baseada em mistura- e uma família generalizada de divergências, superando as limitações de estabilidade e desempenho dos métodos anteriores ao explorar sistematicamente o espaço de interpolação e otimização.