Inverse Contextual Bandits without Rewards: Learning from a Non-Stationary Learner via Suffix Imitation
Este artigo propõe o framework "Two-Phase Suffix Imitation" para resolver o problema de Bandit Contextual Inverso sem recompensas, demonstrando que um observador passivo pode recuperar a política ótima com a mesma eficiência assintótica que um agente que tem acesso às recompensas, apesar da não estacionariedade dos dados.