Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers
Il paper introduce VMoER, un approccio bayesiano strutturato che applica l'inferenza variazionale alla fase di routing nelle architetture Mixture-of-Experts, consentendo una quantificazione dell'incertezza calibrata e scalabile per i modelli foundation con un costo computazionale trascurabile.