Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers
Dit paper introduceert VMoER, een schaalbaar Bayesiaans framework dat variational inference toepast op de routering in Mixture-of-Experts Transformers om zo met minimale rekentijd gecalibreerde onzekerheidsschattingen te bieden voor foundation modellen.