Optimal Transport Aggregation for Distributed Mixture-of-Experts
Cet article propose une méthode d'agrégation de modèles de mélanges d'experts distribués basée sur le transport optimal, qui permet de reconstruire un estimateur global cohérent avec une seule étape de communication tout en garantissant des performances comparables à un entraînement centralisé.