Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation
Este artículo presenta un algoritmo de aprendizaje TD multiagente con recompensa promedio que, mediante la estimación conjunta de un subespacio lineal compartido y cabezales locales, logra una aceleración lineal al filtrar señales conflictivas en entornos heterogéneos, superando desafíos analíticos derivados del muestreo markoviano y la interconexión de errores.