Swimba: Switch Mamba Model Scales State Space Models
Ce papier présente Swimba, une méthode qui intègre des experts dans les modèles d'espace d'état sélectifs via un mélange de paramètres plutôt que de trajectoires d'état, permettant ainsi d'augmenter la capacité du modèle tout en maintenant un coût de récurrence dominant fixe.