Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation
Diese Arbeit untersucht personalisierte Multi-Agenten-TD-Lernverfahren mit durchschnittlicher Belohnung, bei denen Agenten durch die gemeinsame Schätzung eines linearen Unterraums und lokaler Köpfe trotz heterogener Umgebungen und Markov-Sampling eine lineare Beschleunigung erreichen und negative Signaleffekte minimieren.