Optimal Transport Aggregation for Distributed Mixture-of-Experts
Der Artikel stellt ein effizientes, auf Optimaler Transport basierendes Aggregationsverfahren für verteilte Mixture-of-Experts-Modelle vor, das durch Minimierung einer Transportdivergenz eine globale Schätzung mit nur einem Kommunikationsschritt ermöglicht und dabei statistische Konsistenz sowie eine dem zentralen Training vergleichbare Leistung bei deutlich reduzierter Rechenzeit garantiert.