Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous cherchez un enfant disparu. Les premières 72 heures sont cruciales, comme une course contre la montre où chaque minute compte. Mais souvent, les policiers sont submergés par des documents éparpillés, des rapports écrits à la main, des cartes et des indices contradictoires. C'est comme essayer de résoudre un puzzle géant dans le noir, avec des pièces qui ne semblent pas s'assembler.

C'est là qu'intervient Guardian, le système décrit dans cet article. On peut le voir comme un super-assistant de police intelligent qui aide à organiser le chaos pour trouver l'enfant plus vite.

Voici comment ce système fonctionne, expliqué simplement avec des images du quotidien :

1. Le Nettoyage : Le "Traducteur" (La première étape)

Imaginez que vous avez une pile de dossiers sales, avec des écritures illisibles et des cartes froissées. Guardian commence par tout nettoyer.

Ce qu'il fait : Il lit tous les rapports (PDF, notes manuscrites) et les transforme en une liste propre et organisée, comme si un bibliothécaire triait des livres pour les ranger par ordre alphabétique.
L'analogie : C'est comme passer un fichier audio bruité à travers un filtre pour entendre clairement la voix. Il extrait les informations clés : "Dernière vue ici", "Il marchait", "Il aimait les endroits calmes".

2. Le Cœur du Système : Les Trois Couches de Protection

Une fois les données nettoyées, Guardian utilise une machine à trois étages pour prédire où l'enfant pourrait être.

🏗️ Étage 1 : Le "Prévisionniste de la Météo" (Markov)

Imaginez que vous lancez une goutte d'encre sur une carte de la Virginie. Où va-t-elle couler ?

Le concept : Ce modèle ne devine pas au hasard. Il utilise les règles de la physique et de la géographie. Il sait que les gens préfèrent les routes aux champs, qu'ils évitent les zones très peuplées la nuit pour se cacher, et qu'ils ont tendance à suivre les grands axes (autoroutes).
L'analogie : C'est comme simuler la pluie sur un terrain. La goutte d'encre (l'enfant) coule plus vite sur les routes (les rivières) et s'accumule dans les vallées (les zones de cachette). Le système calcule, heure par heure, où la "tache d'encre" est la plus dense. Il sait aussi que plus le temps passe, plus la tache s'étale, car l'incertitude grandit.

🎮 Étage 2 : Le "Stratège de Jeu Vidéo" (Apprentissage par Renforcement)

Maintenant que nous savons où l'enfant pourrait être (la tache d'encre), comment organiser la recherche ? On ne peut pas envoyer des équipes partout en même temps.

Le concept : Ce module agit comme un joueur de jeu vidéo très intelligent qui doit placer ses unités (les équipes de recherche) pour couvrir le maximum de chances de succès avec le moins de ressources possible.
L'analogie : Imaginez que vous devez couvrir une zone avec un filet. Le stratège ne jette pas le filet au hasard. Il le pose précisément là où la tache d'encre est la plus foncée, en évitant de gaspiller du filet sur des zones vides. Il crée des "zones prioritaires" et des "cercles de sécurité" (comme des anneaux concentriques) pour dire : "Cherchez d'abord ici, puis là".

🧐 Étage 3 : Le "Inspecteur de Police" (IA Linguistique)

Même les meilleurs calculs peuvent faire des erreurs bizarres. Par exemple, le système pourrait suggérer de chercher un enfant à pied au milieu d'un lac.

Le concept : Une intelligence artificielle (comme un chatbot très intelligent) relit tout le plan. Elle vérifie si cela a du sens par rapport à l'histoire.
L'analogie : C'est comme un chef cuisinier qui goûte le plat avant de le servir. Si le plat (le plan de recherche) a l'air bizarre (par exemple, "chercher dans une usine fermée alors que l'enfant est un enfant de 10 ans"), l'inspecteur dit : "Attendez, ça ne colle pas avec l'histoire". Il ajuste le plan pour qu'il soit logique et humainement plausible.

3. Le Résultat : Une Carte de Trésor Claire

Au lieu de donner aux policiers des milliers de pages de données brutes, Guardian leur sort une carte de trésor simple :

Les zones chaudes : "Cherchez ici en premier."
Les cercles de confiance : "Il y a 50 % de chances qu'il soit dans ce cercle de 20 km, et 90 % dans celui de 50 km."
L'évolution : La carte se met à jour pour montrer comment la zone de recherche doit grandir au fil des 24, 48 et 72 heures.

Pourquoi est-ce important ?

Ce système ne remplace pas les policiers. Il est comme un GPS pour la recherche. Il ne dit pas "L'enfant est ici", mais il dit "Voici les endroits où il est le plus probable qu'il soit, compte tenu de la route, de l'heure et du comportement".

Cela permet de :

Gagner du temps (les 72 heures critiques).
Éviter le gaspillage (ne pas envoyer d'équipes dans des zones improbables).
Rendre la décision humaine : Le système propose, mais c'est toujours l'humain qui décide, avec une meilleure compréhension de la situation.

En résumé, Guardian transforme le chaos des documents et des incertitudes en un plan d'action clair, logique et rapide, comme si on donnait une lampe torche puissante à ceux qui cherchent dans le noir.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance » par Joshua Castillo et Ravi Mukkamala.

1. Problématique

Les 72 premières heures d'une enquête sur un enfant disparu sont critiques pour sa récupération. Cependant, les agences de police font face à plusieurs défis majeurs :

Données hétérogènes et non structurées : Les informations proviennent de rapports PDF, de témoignages, de cartes et de données de capteurs, souvent fragmentées.
Manque d'outils prédictifs dynamiques : La planification traditionnelle repose sur le jugement humain, des heuristiques grossières et une fusion manuelle de sources, ce qui est lent et sujet à des erreurs.
Besoin de produits actionnables : Il ne s'agit pas seulement de prédire une localisation, mais de produire des cartes de risque calibrées et des plans de recherche exploitables sous contrainte de temps et de données éparses.

L'objectif est de combler ce fossé en automatisant la conversion de preuves narratives en produits géospatiaux interprétables (zones de recherche, secteurs classés, anneaux de confinement) pour les 24, 48 et 72 premières heures.

2. Méthodologie : L'Architecture « Guardian »

Le système proposé, nommé Guardian, est un pipeline de bout en bout organisé en deux étapes principales et une architecture prédictive à trois couches :

Étape 1 : Prétraitement des données (Guardian Parser Pack)

Ce module ingère les documents bruts (PDF, rapports) et les transforme en enregistrements structurés conformes à un schéma.

Extraction hybride : Utilisation de moteurs de texte (OCR inclus) et de modèles de langage (LLM) pour extraire des entités clés (dernière position, profil de mobilité, contexte).
Enrichissement : Géocodage, identification des comtés, et intégration de données contextuelles (réseaux routiers, corridors de transport, zones de séclusion).
Validation : Vérification des contraintes de schéma et boucles de réparation ciblées pour éviter les hallucinations.

Étape 2 : Cœur de prédiction et de décision (Guardian Core)

Ce système transforme les données structurées en produits de recherche probabilistes via trois couches interdépendantes :

Couche 1 : Prévision de mobilité par Chaînes de Markov (Interprétabilité)

Modèle : Une chaîne de Markov parcourt une grille géographique discrète.
Initialisation : Combinaison d'une « graine » gaussienne centrée sur le dernier point connu (IPP) et d'un prior historique basé sur l'estimation de densité de noyau (KDE) des cas passés.
Matrice de transition : Sparse et interprétable. Elle intègre des coûts de mobilité basés sur :
- L'accessibilité routière.
- Les préférences de séclusion (zones isolées).
- Le biais de corridor (proximité des autoroutes).
- Des paramètres distincts pour le jour et la nuit (non-stationnarité à court terme).
Décroissance temporelle : Application d'un déclin de type « survie » (half-life) pour refléter l'augmentation de l'incertitude au fil du temps sans devenir trop confiant.
Masquage : Restriction des probabilités aux limites géographiques valides (ex: limites de l'État de Virginie).

Couche 2 : Optimisation par Apprentissage par Renforcement (RL)

Fonction : Convertit les cartes de croyance probabilistes de la couche Markov en zones de recherche actionnables.
Approche : Formule la sélection de zones comme un problème de décision séquentielle sous contraintes de ressources.
Fonction de récompense : Équilibre trois objectifs :
1. Capture précoce (maximiser la masse de probabilité couverte tôt).
2. Efficacité de couverture (pénaliser les chevauchements et les zones trop vastes).
3. Plausibilité (respect des contraintes géographiques et comportementales).
Sortie : Secteurs priorisés, zones candidates et anneaux de confinement (quantiles 50%, 75%, 90%).

Couche 3 : Assurance Qualité basée sur les LLM

Rôle : Validation a posteriori des plans générés par le RL.
Mécanisme : Un LLM (Qwen-2.5 ou LLaMA-3.2, modèles légers et instructifs) analyse les zones proposées à la lumière du résumé du cas, du profil de mouvement et des contraintes narratives.
Sortie : Un score de plausibilité sémantique et une justification en langage naturel. Ce score permet de réajuster la priorité des zones sans altérer les modèles mathématiques sous-jacents, assurant une cohérence avec l'enquête humaine.

3. Contributions Clés

Architecture hybride interprétable : Combinaison unique de modèles probabilistes explicables (Markov), d'optimisation décisionnelle (RL) et de validation sémantique (LLM).
Modélisation de la mobilité réaliste : Intégration explicite de coûts de transport, de préférences de séclusion et de dynamiques jour/nuit dans une matrice de transition sparse.
Boucle de validation humaine-IA : Utilisation du LLM non pas pour extraire des données brutes, mais comme couche de contrôle qualité pour valider la plausibilité opérationnelle des sorties mathématiques.
Pipeline complet de données structurées : Transformation de documents PDF non structurés en produits de recherche géospatiaux standardisés.

4. Résultats

L'évaluation a été réalisée sur une étude de cas synthétique mais réaliste (GRD-2025-001541) simulant la disparition d'une adolescente en Virginie.

Performance Spatiale :
- À 24h, la probabilité est fortement concentrée dans la région de Tidewater (>50% de la masse), reflétant le profil de mouvement local et les hotspots historiques.
- La région de Northern Virginia émerge comme un second pôle majeur (24-30%) en raison de la connectivité des corridors, et non d'une diffusion uniforme.
- Les anneaux de confinement (50%) s'étendent progressivement de ~20 miles à 24h à une plage moyenne de 20 miles à 72h, montrant une expansion contrôlée de l'incertitude.
Analyse de Sensibilité : Les composants les plus sensibles sont le poids du prior historique ( $\alpha_{prior}$ ), les poids relatifs corridor/séclusion, et les horaires de basculement jour/nuit.
Robustesse : Le système identifie correctement les zones à haute probabilité correspondant aux « sightings » simulés dans le scénario.
Limites identifiées : Risques liés à une mauvaise géolocalisation initiale, un profil de mobilité erroné (piéton vs véhicule), ou des biais dans les données historiques.

5. Signification et Impact

Ce travail démontre qu'il est possible de créer un système d'aide à la décision pour les recherches de personnes disparues qui soit à la fois statistiquement rigoureux et opérationnellement pertinent.

Interprétabilité : Contrairement aux boîtes noires, chaque couche (Markov, RL, LLM) peut être audité indépendamment.
Sécurité et Éthique : Le système est conçu comme un outil d'appui à la décision (advisory) et non comme une autorité autonome, respectant les principes de gouvernance de l'IA responsable.
Généralisabilité : L'architecture modulaire permet d'adapter le système à d'autres populations (personnes âgées, etc.) en recalibrant les profils de mobilité sans changer l'infrastructure fondamentale.

En résumé, Guardian offre une approche structurée pour transformer des données d'enquête chaotiques en plans de recherche prioritaires, optimisant l'utilisation des ressources limitées lors des premières heures critiques d'une enquête.