Invariance-Based Dynamic Regret Minimization
Cet article propose l'algorithme ISD-linUCB pour les bandits linéaires stochastiques non stationnaires, qui améliore la minimisation du regret dynamique en exploitant les données historiques pour identifier et tirer parti des invariances dans la décomposition stationnaire et non stationnaire du modèle de récompense.