The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift
この論文は、強化学習エージェントが世界モデルに基づく自己監視を行う際、観測の漸進的なドリフトに対して検知閾値が普遍的存在し、その検知能力がノイズフロア、検出器、環境ダイナミクスという 3 者の相互作用によって決定されることを実証的に明らかにし、特に脆弱な環境ではエージェントが検知前に崩壊する「無自覚な破綻」モードが存在することを示しています。