When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift
Questo studio dimostra che l'integrazione di modelli sequenziali temporali, in particolare i Transformer, nell'algoritmo PPO migliora significativamente la robustezza dei sistemi di apprendimento per rinforzo contro la deriva dei sensori e la parzialità delle osservazioni, garantendo prestazioni elevate anche in scenari di guasto estremo.