Beyond Reward: A Bounded Measure of Agent Environment Coupling
Il paper introduce la "bipredicibilità" (P) e il suo monitor "Information Digital Twin" (IDT) come una misura informativa in tempo reale e provatamente limitata per rilevare precocemente il degrado dell'interazione agente-ambiente in sistemi RL, superando i limiti delle metriche basate sulla ricompensa.