Optimal Transport Aggregation for Distributed Mixture-of-Experts
Deze paper introduceert een efficiënt, op optimale transport gebaseerd aggregatiekader voor het combineren van lokaal getrainde Mixture-of-Experts-modellen in een decentrale omgeving, waarbij met slechts één communicatiestap een globaal model wordt verkregen dat prestaties vergelijkbaar met centrale training bereikt.