Invariance-Based Dynamic Regret Minimization
Este artículo presenta ISD-linUCB, un algoritmo para banditos lineales estocásticos no estacionarios que minimiza el arrepentimiento dinámico al descomponer el modelo de recompensa en componentes estacionarios y no estacionarios, aprovechando así los datos históricos para identificar invariancias y reducir la dimensionalidad del problema en entornos de cambio rápido.