Optimizing Mission Planning for Multi-Debris Rendezvous Using Reinforcement Learning with Refueling and Adaptive Collision Avoidance
Este estudio propone un marco de aprendizaje por refuerzo de Optimización de Política de Proximidad (PPO) enmascarado que optimiza estrategias de reabastecimiento y evasión de colisiones adaptativas y de bajo consumo de combustible para pequeños satélites que realizan misiones de eliminación activa de múltiples escombros, demostrando un rendimiento superior sobre los enfoques heurísticos tradicionales en entornos orbitales complejos.