Optimal Transport Aggregation for Distributed Mixture-of-Experts
Este artigo propõe um framework de agregação baseado em transporte ótimo para modelos de mistura de especialistas (MoE) distribuídos, permitindo a combinação eficiente de modelos locais em um estimador global com apenas uma etapa de comunicação, preservando a estrutura do MoE e garantindo desempenho comparável ao treinamento centralizado.