Optimal Transport Aggregation for Distributed Mixture-of-Experts
Questo articolo propone un metodo di aggregazione basato sul trasporto ottimo per combinare modelli Mixture-of-Experts distribuiti in un unico stimatore globale, garantendo efficienza computazionale, bassi costi di comunicazione e prestazioni statistiche comparabili all'addestramento centralizzato.