The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

Each language version is independently generated for its own context, not a direct translation.

De Kikker in de Kookpan: Waarom AI soms te laat wakker wordt

Stel je voor dat je een robot hebt die leert lopen, zoals een kind dat leert fietsen. Deze robot heeft een "intern brein" (een wereldmodel) dat voorspelt wat er als volgende gaat gebeuren. Als de robot een been optilt, verwacht hij dat hij vooruit komt. Als hij struikelt, is dat een voorspelling die niet uitkomt. Normaal gesproken gebruiken robots deze fouten om te leren of om te zien of er iets mis is met hun zintuigen.

Maar wat gebeurt er als de zintuigen van de robot langzaam beginnen te verslechteren? Denk aan een camera die langzaam beslaat door mist, of een sensor die heel traag gaat "drijven". Dit noemen onderzoekers het "kookende kikker"-effect: als je een kikker in koud water doet en het vuur heel langzaam aan zet, merkt hij de hitte niet en kookt hij dood.

Deze paper onderzoekt precies dit: Op welk punt merkt een AI-agent dat er iets mis is, en waarom kan hij soms helemaal niets merken?

Hier zijn de belangrijkste ontdekkingen, vertaald naar alledaagse taal:

1. Er is een "Wakkerwordt-Drempel" (De Kookpan-Drempel)

De onderzoekers ontdekten dat er een heel scherpe grens is.

Onder de grens: De robot denkt dat de langzame verandering gewoon "ruis" is, zoals een beetje ruis op de radio. Hij slaapt door.
Boven de grens: Zodra de verandering net iets sneller gaat, schiet de robot plotseling wakker en roept: "Er is iets mis!"

Het interessante is: deze grens bestaat altijd, ongeacht hoe slim de robot is of welk alarmstelsel hij gebruikt. Maar waar die grens ligt, hangt af van drie dingen die met elkaar spelen: hoe ruisig de robot's wereld is, hoe gevoelig zijn alarm is, en hoe moeilijk het is om in die specifieke omgeving te bewegen.

2. De "Zingende Kikker" (De Sinusgolf-Blindheid)

Dit is misschien wel het gekste deel van het onderzoek. De onderzoekers testten een heel specifieke manier van bederf: een sinusgolf.
Stel je voor dat de robot's zintuigen heen en weer bewegen, net als een trillende telefoon. Eerst iets naar links, dan iets naar rechts, en dan weer terug. Het gemiddelde is nul.

Het resultaat: De robot merkt dit helemaal niet. Geen enkel alarmstelsel, hoe slim ook, ziet dit.
De analogie: Het is alsof je in een bad zit en het water heel zachtjes op en neer beweegt. Je voelt de beweging, maar omdat het heen en weer gaat, denk je dat het gewoon normaal is. De robot's brein "droomt" deze beweging weg en denkt: "Oh, dit is gewoon de normale trilling van de wereld." Zelfs als de trilling enorm groot is, ziet de robot het niet als een probleem.

3. "Vallen voordat je wakker wordt" (De Hopper-Val)

Bij sommige robots, zoals de "Hopper" (een robot die op één been hopt), is het gevaarlijk.

Het probleem: Als de zintuigen van deze robot langzaam verslechteren, kan het zijn dat de robot valt en crasht voordat zijn alarmstelsel überhaupt kan piepen.
De analogie: Stel je voor dat je op een dunne ijslaag loopt. Als het ijs heel langzaam dunner wordt, zak je misschien door voordat je merkt dat het ijs kraakt. De robot sterft (valt) voordat hij wakker wordt. Dit is een gevaarlijke "blinde vlek" voor veilige AI: er zijn situaties waar de fout dodelijk is, maar te subtiel om tijdig te detecteren.

4. Waarom een betere camera niet altijd helpt

Je zou denken: "Als we een slimmere robot bouwen, ziet hij het dan wel?"
Het antwoord is: Nee, niet per se.
De onderzoekers lieten zien dat het niet uitmaakt of de robot een klein of groot brein heeft. Als de veranderingen in de wereld (de "ruis") en de fouten van de robot op dezelfde manier groeien, blijft de drempel om wakker te worden hetzelfde. Het is niet een gebrek aan rekenkracht; het is een fundamenteel probleem van hoe de robot de wereld interpreteert.

Wat betekent dit voor de toekomst?

Pas op voor "zachte" aanvallen: Als je een AI wilt misleiden, hoef je niet hard te slaan. Als je de signalen heel langzaam en symmetrisch verandert (zoals de sinusgolf), kan de AI het nooit zien.
Niet alleen op interne alarmen vertrouwen: Voor robots die in gevaarlijke situaties werken (zoals een robot die op één been hopt), kan interne zelf-monitoring falen. Je hebt een externe "wacht" nodig die kijkt of de robot nog staat.
De omgeving is koning: Je kunt niet zomaar zeggen "deze AI is goed". Je moet weten waar hij werkt. In een chaotische omgeving (veel ruis) is het heel moeilijk om kleine veranderingen te zien, ongeacht hoe goed de AI is.

Kortom:
Deze paper leert ons dat AI-agenten niet altijd wakker worden als ze langzaam "koken". Ze hebben een scherpe grens, maar die grens is een samenspel tussen hun eigen brein, hun alarmstelsel en de omgeving. En soms, vooral bij fragiele robots, vallen ze dood voordat ze merken dat het vuur aan staat.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Reinforcement Learning (RL) agents vertrouwen steeds vaker op geleerde wereldmodellen voor planning. Een onderbelichte capaciteit van deze modellen is zelfbewaking (self-monitoring): het vermogen om te detecteren wanneer de omgeving verandert of wanneer de agent's waarneming gecorrumpeerd raakt.

Bestaand onderzoek richt zich voornamelijk op het detecteren van plotselinge omgevingsveranderingen. In de praktijk zijn sensordegradaties echter vaak gradueel (bijv. langzaam vagen van camera's, imperceptibele drift in LiDAR-calibratie). De centrale vraag van dit paper is: Bij welke driftsnelheid "ontwaakt" een agent uit een "kikkervogel"-scenario, en wat bepaalt deze grens? Het paper onderzoekt of agents geleidelijke perceptuele corruptie kunnen detecteren en welke factoren de grens tussen bewustzijn en onwetendheid bepalen.

2. Methodologie

De auteurs voeren een systematische ablatiestudie uit over vier MuJoCo-omgevingen (HalfCheetah, Hopper, Walker2d, Ant) met PPO-agents.

Wereldmodel: Een simpel MLP (Multi-Layer Perceptron) dat de volgende toestand voorspelt ( $\hat{s}_{t+1}$ ) op basis van huidige staat en actie. De voorspellingsfout ( $e_t$ ) dient als signaal voor zelfbewaking.
Drift Injectie: Vanaf stap $t=300$ $t = 300$ wordt drift toegevoegd aan snelheidsgerelateerde observatiedimensies. Twee profielen worden getest:
- Lineair: Monotoon toenemende drift ( $g = \epsilon \cdot t$ ).
- Sinusvormig: Periodieke drift met gemiddelde nul ( $g = \epsilon \cdot \sin(...)$ ).
Detector Families: Drie fundamenteel verschillende families om artefacten te elimineren:
1. Doubt Index (DI): Exponentiële moving average van voorspellingsfouten, geanalyseerd via z-score tegen een baseline.
2. Variance Detector: Monitort de variantie van de fout binnen een venster (tweede moment).
3. Percentile Detector: Vergelijkt directe fouten met de baseline-verdeling (geen temporale smoothing).
Variabelen: Drie modelcapaciteiten (klein, medium, groot) en uitgebreide hyperparameter-zwepen voor de detectoren.

3. Belangrijkste Bijdragen en Resultaten

A. Het Bestaan van een Scherp Drempel ( $\epsilon^*$ )

Er bestaat een universele, scherpe sigmoïde drempel voor detectie.

Vorm-invariantie: Of de drift nu langzaam of snel is, de detectiegraad springt scherp van ~0% naar ~100% zodra de driftintensiteit een kritieke waarde ( $\epsilon^*$ ) overschrijdt. Deze vorm is invariant voor alle detectorfamilies en modelcapaciteiten.
Positie-variabiliteit: De exacte positie van $\epsilon^*$ hangt af van de interactie tussen de gevoeligheid van de detector, de structuur van het "ruisvloer" (noise floor) van het model, en de dynamiek van de omgeving.

B. Sinusvormige Blindheid (Fundamentele Limitatie)

Alle detectorfamilies zijn volledig blind voor sinusvormige (periodieke) drift, zelfs bij hoge intensiteiten.

Dit is geen artefact van temporale smoothing (zoals bij de Doubt Index), maar een eigenschap van het wereldmodel zelf.
Mechanisme: Omdat de drift symmetrisch om nul oscilleert, heffen positieve en negatieve afwijkingen elkaar op over een cyclus. De cumulatieve drift blijft binnen het ruisvloer. Het wereldmodel "absorbeert" deze variatie als normale ruis (optimalisatie van modelbewijs), waardoor er geen detecteerbaar signaal overblijft.

C. Collapse Before Awareness (CBA)

In fragiele omgevingen (met name Hopper) treedt een gevaarlijk fenomeen op: de agent stort fysiek in voordat de detector genoeg bewijs heeft verzameld om te alarmeren.

Er ontstaat een regime waar drift dodelijk is maar onzichtbaar voor interne monitors.
Dit creëert een fundamenteel niet-monitoreerbaar faalpatroon voor kwetsbare agents in veiligheidskritieke toepassingen.

D. Analytische Karakterisering van $\epsilon^*$

Krachtwet binnen omgevingen: Binnen één specifieke omgeving volgt $\epsilon^*$ een krachtwet in detectorparameters (bijv. $z$ -score en venstergrootte), met hoge $R^2$ waarden (0.89–0.97).
Mislukking in cross-omgeving: Een globaal model faalt om $\epsilon^*$ te voorspellen over verschillende omgevingen heen ( $R^2 = 0.45$ ).
Conclusie: De ontbrekende variabele is de omgevingsdynamiek ( $\partial P_E / \partial \epsilon$ ), oftewel hoe de voorspellingsfout reageert op drift. De basisvoorspellingsfout (MSE) is een onbetrouwbare voorspeller voor detectiecapaciteit.

E. Onafhankelijkheid van Modelcapaciteit

Het verhogen van de modelgrootte verlaagt de absolute voorspellingsfout, maar verandert de drempel $\epsilon^*$ niet. Omdat detectoren vaak werken met genormaliseerde scores (zoals z-scores), blijft de verhouding tussen signaal en ruis (en dus de detectiegrens) gelijk, ongeacht de modelgrootte.

4. Significantie en Implicaties

Theoretische Bijdrage:
Het paper reframet de detectiedrempel niet als een enkelvoudige emergente eigenschap van het wereldmodel, maar als een drie-weg interactie tussen:

De structuur van het ruisvloer (niet alleen MSE, maar de vorm van de foutverdeling).
De gevoeligheid van de detector.
De dynamische structuur van de omgeving.

Dit sluit aan bij theorieën van predictive processing (Friston): het wereldmodel optimaliseert zijn interne model door periodieke variatie als ruis te absorberen (vergelijkbaar met "dromen" om interne modellen te optimaliseren).

Praktische Implicaties:

Onzichtbare Aanvallen: Adversariale aanvallen met symmetrische, oscillerende patronen (sinusvormig) zullen door PE-gebaseerde monitors ongemerkt blijven.
Veiligheidsgaten: Voor kwetsbare agents bestaat er een "dodelijke blindvlek" waar storingen groot genoeg zijn om catastrofale storing te veroorzaken, maar te klein om tijdig te worden gedetecteerd. Externe monitoring is hier noodzakelijk.
Ontwerprichtlijn: De basisnauwkeurigheid (MSE) van een model is geen betrouwbare indicator voor de detectiegrens. Ontwikkelaars moeten de respons van de voorspellingsfout op drift ( $\partial PE / \partial \epsilon$ ) specifiek voor hun omgeving karakteriseren.

Beperkingen:
De studie is beperkt tot proprioceptieve locomotietaken met MLP-modellen. Generalisatie naar visuele observaties, transformer-architecturen of niet-locomotietaken is nog onbekend. Ook wordt aangegeven dat klassieke verandering-detectiemethoden (zoals CUSUM) ongeschikt zijn voor wereldmodel-voorspellingsfouten vanwege de inherente non-stationariteit.

Conclusie

Het paper levert een empirisch onderbouwde en theoretisch gefundeerde analyse van de grenzen van zelfbewaking in RL-agents. Het toont aan dat er een scherpe drempel bestaat voor het detecteren van graduele drift, maar dat deze drempel complex is bepaald door de interactie van model, detector en omgeving. Cruciaal is de ontdekking dat bepaalde vormen van drift (periodiek) fundamenteel ondetecteerbaar zijn en dat kwetsbare agents kunnen instorten voordat ze "wakker worden".

The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

1. Er is een "Wakkerwordt-Drempel" (De Kookpan-Drempel)

2. De "Zingende Kikker" (De Sinusgolf-Blindheid)

3. "Vallen voordat je wakker wordt" (De Hopper-Val)

4. Waarom een betere camera niet altijd helpt

Wat betekent dit voor de toekomst?

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen en Resultaten

A. Het Bestaan van een Scherp Drempel (ϵ∗\epsilon^*ϵ∗)

B. Sinusvormige Blindheid (Fundamentele Limitatie)

C. Collapse Before Awareness (CBA)

D. Analytische Karakterisering van ϵ∗\epsilon^*ϵ∗

E. Onafhankelijkheid van Modelcapaciteit

4. Significantie en Implicaties

Conclusie

Meer zoals dit

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions

A. Het Bestaan van een Scherp Drempel ( $\epsilon^*$ )

D. Analytische Karakterisering van $\epsilon^*$