Optimizing Mission Planning for Multi-Debris Rendezvous Using Reinforcement Learning with Refueling and Adaptive Collision Avoidance
Este estudo propõe uma estrutura de aprendizado por reforço de Otimização de Política Próxima (PPO) mascarada que otimiza estratégias de reabastecimento e de evasão de colisões adaptativas e eficientes em termos de combustível para pequenos satélites realizando missões de remoção ativa de múltiplos detritos, demonstrando desempenho superior em relação às abordagens heurísticas tradicionais em ambientes orbitais complexos.