Inverse Contextual Bandits without Rewards: Learning from a Non-Stationary Learner via Suffix Imitation
Cet article propose un cadre d'imitation par suffixe en deux phases pour résoudre le problème des bandits contextuels inverses sans récompenses, permettant à un observateur passif de retrouver la politique optimale avec une efficacité asymptotique équivalente à celle d'un apprenant disposant des récompenses, malgré la non-stationnarité des données d'actions.