EvoESAP: Non-Uniform Expert Pruning for Sparse MoE
O artigo apresenta o EvoESAP, um método de poda de especialistas não uniforme para modelos MoE esparsos que utiliza uma métrica baseada em aceitação especulativa (ESAP) e busca evolutiva para otimizar a alocação de orçamento entre camadas, resultando em ganhos significativos de desempenho na geração de texto aberto sem comprometer a precisão em tarefas de múltipla escolha.