Optimal Transport Aggregation for Distributed Mixture-of-Experts
Este artículo propone un marco de agregación basado en transporte óptimo para combinar modelos de Mezcla de Expertos (MoE) distribuidos en un estimador global coherente, logrando un rendimiento comparable al entrenamiento centralizado con un único paso de comunicación y menores costos computacionales.