Invariance-Based Dynamic Regret Minimization
O artigo propõe o algoritmo ISD-linUCB para banditos lineares não estacionários, que melhora o desempenho ao decompor o modelo de recompensa em componentes estacionários e não estacionários, permitindo o aproveitamento de dados históricos para identificar invariâncias e reduzir a dimensionalidade do problema.