Applying reinforcement learning to optical cavity locking tasks: considerations on actor-critic architectures and real-time hardware implementation
Este artículo presenta un estudio sobre la aplicación del aprendizaje por refuerzo profundo, específicamente el Gradiente de Política Determinística Profunda dentro de un entorno Gymnasium personalizado, para lograr el bloqueo autónomo de cavidades ópticas Fabry-Perot en regímenes no lineales para detectores de ondas gravitacionales, al tiempo que analiza mejoras arquitectónicas y estrategias para la implementación de hardware en tiempo real.