Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers
Este trabajo demuestra que los mecanismos de enrutamiento en los modelos Sparse Mixture-of-Experts (MoE) exhiben una estructura sensible a la tarea, donde las "firmas de enrutamiento" permiten clasificar con alta precisión la categoría de una tarea basándose únicamente en los patrones de activación de los expertos, lo que sugiere que el enrutamiento es un componente funcional y medible más allá de un simple mecanismo de equilibrio.