Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking
Este artículo presenta un controlador híbrido que combina el aprendizaje por refuerzo profundo (DRL) con la búsqueda de extremos acotada (ES) para mejorar la robustez y el rendimiento de sistemas no lineales variantes en el tiempo, demostrando su eficacia mediante una simulación general y la sintonización automática de un acelerador de partículas.