Invariance-Based Dynamic Regret Minimization
Il paper propone l'algoritmo ISD-linUCB per i banditi lineari stocastici non stazionari, il quale migliora le prestazioni riducendo la dimensionalità del problema sfruttando le invarianze nei dati storici decomponendo il modello di ricompensa in componenti stazionarie e non stazionarie.