Stochastic Resetting Accelerates Policy Convergence in Reinforcement Learning
El artículo demuestra que el reinicio estocástico acelera la convergencia de políticas en el aprendizaje por refuerzo al truncar trayectorias largas e improductivas, mejorando la propagación de valores y la exploración en entornos con recompensas escasas sin alterar la política óptima.