Invariance-Based Dynamic Regret Minimization
Dit paper introduceert ISD-linUCB, een algoritme dat dynamische spijt minimaliseert in niet-stationaire lineaire bandietenproblemen door historische data te benutten om stationaire invarianties in het beloningsmodel te leren en zo de probleemdimensie te reduceren.