Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation
Este artigo propõe um método de aprendizado TD cooperativo em tempo único para agentes personalizados que compartilham uma representação linear, demonstrando que a decomposição em um subespaço comum e cabeças locais mitiga conflitos de sinais heterogêneos, alcança aceleração linear e supera desafios analíticos decorrentes de amostragem de Markov e dinâmicas de erro interconectadas.