Invariance-Based Dynamic Regret Minimization
Die Arbeit stellt ISD-linUCB vor, einen Algorithmus für stochastische nicht-stationäre lineare Banditen, der durch die Annahme einer Zerlegung des Belohnungsmodells in stationäre und nicht-stationäre Komponenten historische Daten nutzt, um Invarianzen zu lernen und so die Problemdimensionalität zu reduzieren sowie das dynamische Regret in sich schnell verändernden Umgebungen signifikant zu verbessern.