Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je op zoek bent naar een verdwenen kind. De eerste 72 uur zijn cruciaal; elke minuut telt. Maar vaak hebben de rechercheurs te maken met een wirwar van losse stukjes papier, onduidelijke getuigenverklaringen en een enorme hoeveelheid informatie die niet direct te gebruiken is. Ze moeten een plan maken, maar weten niet precies waar het kind naartoe is gegaan.

Dit artikel introduceert Guardian, een slim digitaal assistent dat deze zoektocht helpt plannen. Het werkt als een drie-laags machine die een "risicokaart" maakt, zodat de zoekteams precies weten waar ze het eerst moeten kijken.

Hier is hoe Guardian werkt, uitgelegd in simpele termen:

1. De Vertaler (De Eerste Laag: Het Markov-model)

Stel je voor dat je een verdwaalde hond hebt. Je weet waar hij laatst gezien is. Maar waar gaat hij naartoe?
Guardian begint met een Markov-model. Dit is als een heel slimme, voorspellende kompasnaald.

Hoe het werkt: Het systeem kijkt niet alleen naar de plek waar het kind verdween, maar ook naar de omgeving. Kan het kind makkelijk over een snelweg lopen? Is er een bos waar het zich kan verstoppen? Is het dag of nacht?
De Analogie: Denk aan water dat uit een emmer stroomt. De emmer is de plek waar het kind verdween. Het water stroomt niet zomaar overal even snel naartoe. Het stroomt sneller over gladde wegen (snelwegen) en langzamer door struikgewas. 's Nachts stroomt het water misschien anders dan overdag (want mensen gedragen zich anders in het donker).
Het resultaat: Na 24, 48 en 72 uur heeft dit model een kaart gemaakt met kleuren. Rood betekent: "Hier is de kans het grootst dat het kind is." Blauw betekent: "Hier is de kans klein." Dit is de voorspelling.

2. De Strategist (De Tweede Laag: Reinforcement Learning)

Nu hebben we een kaart met rode plekken, maar de politie heeft niet genoeg mensen om overal tegelijk te zoeken. Ze moeten kiezen: "Waar zetten we onze zoekhonden in?"

Hoe het werkt: De tweede laag is een Reinforcement Learning-model (een AI die leert door te proberen). Dit is de strateeg. Hij kijkt naar de rode kaart van de eerste laag en bedenkt het beste plan.
De Analogie: Stel je voor dat je een spelletje Tetris speelt, maar dan met zoekgebieden. Je hebt een beperkt aantal puzzelstukken (zoekteams) en je moet ze zo leggen dat je de meeste rode plekken op de kaart bedekt, zonder dat de stukken elkaar overlappen. De AI probeert duizenden combinaties om het plan te vinden dat de meeste kans van slagen biedt in de kortst mogelijke tijd.
Het resultaat: Een lijst met prioriteiten: "Kijk eerst hier, dan daar, en zorg dat je binnen een straal van X kilometer bent."

3. De Controleur (De Derde Laag: LLM Kwaliteitscontrole)

Soms kan een computer een plan bedenken dat wiskundig perfect is, maar in de echte wereld belachelijk klinkt. Bijvoorbeeld: "Het plan zegt dat we moeten zoeken in een meer, terwijl het kind op een fiets is gezien."

Hoe het werkt: De derde laag is een LLM (een taalmodel, zoals een slimme chatbot). Deze leest het plan van de strateeg en de originele getuigenverklaringen.
De Analogie: Dit is als een ervaren rechercheur die het plan voor de laatste keer doorneemt. Hij zegt: "Wacht even, dit plan is slim, maar het klopt niet met wat de buurman zei. Het kind had geen fiets, dus die route langs de snelweg is onwaarschijnlijk." De AI past de prioriteiten dan iets aan om het plan realistischer te maken.
Het resultaat: Een veilig, gecontroleerd plan dat zowel slim als logisch is.

Waarom is dit belangrijk?

In het verleden moesten rechercheurs handmatig alle papieren lezen en zelf een plan schetsen. Dat kostte tijd en energie. Guardian doet dit in een handomdraai:

Het leest de saaie rapporten.
Het maakt een voorspellende kaart (waar is het kind waarschijnlijk?).
Het bedenkt het beste zoekplan.
Het laat een "digitale rechercheur" controleren of het plan klopt.

De conclusie: Guardian vervangt niet de mensen. Het is een hulpmiddel dat de mensen helpt om sneller en slimmer te beslissen. Het zorgt ervoor dat in die kritieke eerste 72 uur geen enkele minuut verloren gaat aan het uitzoeken van waar ze moeten zoeken, zodat ze zich kunnen focussen op het vinden van het kind.

Het systeem is getest met een nep-geval (om privacy te beschermen) en liet zien dat het de zoekgebieden heel goed kon voorspellen, vooral door rekening te houden met wegen, bossen en het tijdstip van de dag.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance", geschreven in het Nederlands.

Titel en Context

Het paper introduceert Guardian, een end-to-end besluitvormingssysteem voor het plannen van zoekacties bij vermiste kinderen. Het systeem is ontworpen om de kritieke eerste 72 uur van een onderzoek te optimaliseren door ongestructureerde data om te zetten in interpreteerbare, probabilistische zoekplannen. Het onderzoek combineert Markov-modellen, Versterkend Leren (RL) en Large Language Models (LLM) voor kwaliteitsborging.

1. Het Probleem

Zoekplanning bij vermiste kinderen is complex en multidisciplinair. Huidige uitdagingen omvatten:

Datafragmentatie: Informatie is verspreid over ongestructureerde bronnen (rapporten, PDF's, tips, kaartmateriaal).
Tijdsdruk: De eerste 72 uur zijn cruciaal, maar het omzetten van narratieve data naar een gecoördineerd, geografisch onderbouwd plan kost te veel tijd.
Gebrek aan dynamische tools: Traditionele methoden vertrouwen op menselijk oordeel en ruwe heuristieken, wat leidt tot gebrek aan gekalibreerde onzekerheid en actieerbare producten onder data-schaarste.
Behoefte aan interpreteerbaarheid: Bestaande AI-modellen zijn vaak "black boxes", wat problematisch is voor juridische en operationele besluitvorming in veiligheidscontexten.

2. Methodologie: De Guardian Architectuur

Guardian is opgebouwd als een tweestapsproces (Parser Pack en Core System) met een driedelige voorspellende architectuur binnen de Core System:

Stap 1: Data Pre-processing (Parser Pack)

Converteert ongestructureerde PDF-rapporten naar een gestructureerd schema (JSONL/CSV).
Gebruikt een hybride pipeline: regelgebaseerde parsing voor stabiele formaten en LLM-assistentie voor variabele narratieven.
Verrijkt data met geocoding, verkeerscontext en identificatie van transportknooppunten.

Stap 2: De Driedelige Voorspellende Architectuur

Laag 1: Interpreteerbare Markov Mobilitätsvoorspelling

Doel: Voorspellen van de waarschijnlijkheidsverdeling van de locatie van het vermiste kind over tijd (24, 48, 72 uur).
Mechanisme: Een eerste-orde Markov-keten op een geografisch rooster.
Input: Een "zaadverdeling" (Gaussisch rond de laatst bekende positie) gecombineerd met een historische "hotspot-prior" (via Kernel Density Estimation).
Transitiematrix:
- Gebaseerd op energiemodellen die rekening houden met: toegankelijkheid van wegen (lagere kosten = hogere kans), afzondering (hogere score = meer kans op verbergen), en corridor-bias (dichtbij snelwegen).
- Gebruikt aparte matrices voor dag en nacht om verschillende mobiliteitspatronen te modelleren.
Decay: Een "survival-style" halfwaardetijd-decay wordt toegepast om onzekerheid te laten toenemen naarmate de tijd vordert, zonder dat de waarschijnlijkheid in onmogelijke gebieden toeneemt.
Randvoorwaarden: Probabiliteit wordt beperkt tot geldige geografische grenzen (bijv. binnen de staat Virginia).

Laag 2: Versterkend Leren (RL) voor Zoekplanning

Doel: Vertaalt de probabilistische "belief maps" van de Markov-laag naar een compacte reeks actievere zoekzones.
Mechanisme: Formuleert zoekplanning als een sequentieel toewijzingsprobleem onder resource-beperkingen.
Beloningsfunctie (Reward Function):
1. Vroege vangst: Beloning voor het dekken van hoge waarschijnlijkheidsgebieden zo vroeg mogelijk.
2. Efficiëntie: Straff voor overlap en te grote zoekgebieden.
3. Plausibiliteit: Zachte beperkingen die overeenkomen met de Markov-voorspellingen (bijv. consistentie met transportcorridors).
Output: Gekwalificeerde sectoren, zoekzones en omhullende ringen (containment rings) voor 50%, 75% en 90% waarschijnlijkheid.

Laag 3: LLM-gebaseerde Kwaliteitsborging (QA)

Doel: Post-hoc validatie van de door RL gegenereerde zoekplannen.
Mechanisme: Een LLM (bijv. Qwen-2.5 of LLaMA-3.2) evalueert elke zoekzone in de context van het volledige dossier.
Functie: Controleert op semantische inconsistenties (bijv. een zone die onwaarschijnlijk is gezien het gedrag of de getuigenverklaringen, zelfs als de wiskundige kans hoog is).
Resultaat: De LLM past de prioriteitsscores van de zones aan (re-weighting) zonder de onderliggende probabilistische modellen te wijzigen, wat transparantie en traceerbaarheid waarborgt.

3. Belangrijkste Bijdragen

End-to-End Pipeline: Een volledig geïntegreerd systeem dat van ruwe PDF-rapporten naar operationele zoekplannen gaat.
Interpreteerbaarheid: In plaats van een black-box, biedt het systeem een transparante keten: Markov (waarom is de kans hier hoog?) -> RL (waar moeten we zoeken?) -> LLM (is dit logisch?).
Dynamische Modellering: Integratie van dag/nacht-cycli, vervoerskosten en seclusie in een probabilistisch model.
Human-in-the-Loop Validatie: Het gebruik van LLMs niet als voorspeller, maar als auditor voor semantische plausibiliteit, wat cruciaal is voor ethische en operationele acceptatie.
Synthetische Validatie: Het gebruik van een realistische, synthetische casus (GRD-2025-001541) om privacy te beschermen terwijl het systeem wordt getest onder operationele omstandigheden.

4. Resultaten (Casestudy GRD-2025-001541)

Het systeem werd getest op een synthetisch geval van een 15-jarig meisje dat 's nachts in York, Virginia, vermist raakte.

Ruimtelijke Concentratie: De waarschijnlijkheid bleef sterk geconcentreerd in de Tidewater-regio (>50% van de totale kans), ondanks de uitbreiding over 72 uur. Dit komt door lokale mobiliteitspatronen en historische hotspots.
Corridor-invloed: Noord-Virginia emergeerde als een secundaire regio (24-30% kans), gedreven door de connectiviteit van verkeerscorridors in plaats van simpele afstand.
Tijdsverloop:
- De onzekerheid nam toe met de tijd (de "containment ring" voor 50% kans groeide van ~20 mijl naar de midden-20 mijl).
- De hotspots werden minder scherp en breder naarmate de tijd vorderde, wat de overgang van lokale pieken naar bredere plausibele gebieden weerspiegelt.
Sensitiviteit: Het systeem is gevoelig voor de instelling van de prior-gewichten ( $\alpha_{prior}$ ), de weging van corridors vs. seclusie, en de dag/nacht-schakeling.
Foutpatronen: De belangrijkste oorzaken voor falen zijn onjuiste coördinaten van de laatst bekende positie, verkeerde profielclassificatie (te voet vs. voertuig) en hallucinaties in de data-extractie.

5. Betekenis en Conclusie

Guardian demonstreert hoe AI kan worden ingezet voor humanitaire doeleinden zonder de menselijke besluitvorming te vervangen, maar te versterken.

Operationele Impact: Het systeem verkort de tijd om van data naar actie te gaan en biedt gekalibreerde onzekerheidsmetingen die helpen bij het prioriteren van beperkte hulpbronnen.
Verantwoord AI: Door de scheiding tussen voorspelling (Markov), optimalisatie (RL) en validatie (LLM), en door het systeem als "advies"而非 "autonoom commando" te positioneren, worden ethische risico's geminimaliseerd.
Toekomstperspectief: Het framework is schaalbaar naar andere populaties (bijv. ouderen) en kan worden verfijnd met meer geavanceerde Markov-dynamica en real-world data-validatie onder privacy-waakhonden.

Kortom, het paper biedt een robuust, interpreteerbaar raamwerk dat de kloof overbrugt tussen ongestructureerd onderzoeksmateriaal en operationeel haalbare zoekstrategieën.

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

1. De Vertaler (De Eerste Laag: Het Markov-model)

2. De Strategist (De Tweede Laag: Reinforcement Learning)

3. De Controleur (De Derde Laag: LLM Kwaliteitscontrole)

Waarom is dit belangrijk?

Titel en Context

1. Het Probleem

2. Methodologie: De Guardian Architectuur

Stap 1: Data Pre-processing (Parser Pack)

Stap 2: De Driedelige Voorspellende Architectuur

3. Belangrijkste Bijdragen

4. Resultaten (Casestudy GRD-2025-001541)

5. Betekenis en Conclusie

Meer zoals dit

PnLCalib: Sports Field Registration via Points and Lines Optimization

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

DRUPI: Dataset Reduction Using Privileged Information