Optimizing Mission Planning for Multi-Debris Rendezvous Using Reinforcement Learning with Refueling and Adaptive Collision Avoidance
Cette étude propose un cadre d'apprentissage par renforcement PPO (Proximal Policy Optimization) masqué qui optimise des stratégies d'évitement de collision et de ravitaillement adaptatives et économes en carburant pour les petits satellites effectuant des missions de retrait actif de débris multiples, démontrant une performance supérieure aux approches heuristiques traditionnelles dans des environnements orbitaux complexes.