Adaptive Double-Booking Strategy for Outpatient Scheduling Using Multi-Objective Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

🏥 Le Problème : Le "Téléphone Arabe" des Rendez-vous Médicaux

Imaginez une salle d'attente de médecin. C'est un peu comme un restaurant très populaire. Le problème, c'est que certains clients réservent une table (un rendez-vous) mais ne viennent jamais. C'est ce qu'on appelle un "no-show" (non-présentation).

Le résultat ? Le médecin reste assis à ne rien faire, perdant du temps et de l'argent.
La solution habituelle ? Les cliniques font de la "sur-réservation" (comme les compagnies aériennes). Elles essaient de mettre deux patients sur le même créneau horaire, au cas où l'un des deux n'arrive pas. C'est ce qu'on appelle le double-bookings.

Mais attention ! Si tout le monde arrive, c'est la catastrophe : la salle d'attente devient une fourmilière, les gens attendent des heures, et le médecin est débordé. C'est comme essayer de faire entrer deux voitures dans une seule place de parking : ça marche si l'une d'elles est absente, mais si elles sont toutes les deux là, c'est le bouchon total.

🤖 La Solution : Un "Chef d'Orchestre" Intelligent

Les chercheurs de cette étude (Ninda Nurseha Amalina et Heungjo An) ont créé un système intelligent pour résoudre ce casse-tête. Au lieu d'utiliser des règles fixes du type "Si le patient a plus de 50 ans, on le double-réserve", ils ont créé un cerveau artificiel qui apprend en temps réel.

Voici comment ça marche, étape par étape, avec des analogies :

1. Le Détective (Prédiction des absents)

Avant même de prendre une décision, le système utilise un détective très fin nommé MHASRF. Ce détective analyse des centaines de détails sur le patient (son âge, sa langue, la météo du jour, son historique de rendez-vous, etc.) pour deviner : "Quelle est la probabilité que ce patient ne vienne pas ?".

Analogie : C'est comme un météorologue qui ne vous dit pas juste "il va pleuvoir", mais qui vous dit "il y a 80% de chance de pluie pour vous, mais seulement 10% pour votre voisin".

2. Le Chef d'Orchestre (L'Intelligence Artificielle)

Une fois que le système connaît le risque d'absence, il doit décider quoi faire. Il a trois options pour chaque demande de rendez-vous :

Single-book : Mettre une seule personne sur le créneau (sécurité maximale).
Double-book : Mettre deux personnes sur le même créneau (risque de bouchon, mais pas de temps perdu).
Rejeter : Dire "désolé, c'est complet".

Pour faire ce choix, le système utilise une technique appelée Apprentissage par Renforcement Multi-Objectif.

Analogie : Imaginez un chef d'orchestre qui doit équilibrer trois instruments en même temps :
- L'instrument Utilisation (ne pas laisser le médecin inactif).
- L'instrument Sécurité (éviter que deux patients n'arrivent en même temps).
- L'instrument Équilibre (que le nombre de patients attendus corresponde exactement à la capacité de la salle).

Le chef d'orchestre apprend par essais et erreurs (comme un enfant qui apprend à faire du vélo) pour trouver le rythme parfait.

3. L'Équipe de Coureurs (L'Algorithme MPPPO)

Au lieu d'entraîner un seul chef d'orchestre, ils en entraînent dix en même temps, chacun avec une priorité légèrement différente.

L'un est très prudent (il évite à tout prix les bouchons).
L'autre est très ambitieux (il veut remplir la salle à ras bord).
Un troisième cherche le compromis parfait.

Ils s'entraînent ensemble et s'échangent des astuces. Si l'un découvre une bonne technique pour éviter les bouchons, il la partage avec les autres qui sont "proches" de lui dans leur façon de penser. C'est comme une équipe de coureurs de relais qui se passent le témoin pour aller plus vite.

🌟 Les Résultats : Pourquoi c'est génial ?

Lorsqu'ils ont testé ce système sur de vraies données de cliniques :

Moins de temps perdu : Les médecins sont moins souvent assis à rien faire.
Moins de bouchons : Le système évite intelligemment de mettre deux patients risqués sur le même créneau.
Plus de flexibilité : Contrairement aux règles fixes d'avant, ce système s'adapte. Si la météo change ou si les patients deviennent plus imprévisibles, le système s'adapte instantanément.

🧠 En Résumé

Imaginez que vous gérez un parking de 10 places.

L'ancienne méthode : Vous mettez 12 voitures, espérant que 2 ne viendront pas. Si elles viennent toutes, c'est le chaos.
La nouvelle méthode (ce papier) : Vous avez un gardien intelligent qui regarde chaque chauffeur. S'il voit un chauffeur qui a l'air pressé et fiable, il lui donne une place. S'il voit un chauffeur qui a l'habitude d'arriver en retard ou de ne pas venir, il lui dit : "Allez, je vous mets deux places à côté, au cas où l'autre ne vient pas".

Ce système apprend à trouver le juste milieu entre ne pas gaspiller de temps et ne pas créer de foule. C'est une victoire pour les médecins (qui travaillent mieux) et pour les patients (qui attendent moins).

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La gestion des rendez-vous en ambulatoire fait face à un défi majeur : les absences imprévues des patients (no-shows). Ces absences réduisent la productivité des cliniques, augmentent les temps d'attente et perturbent la continuité des soins. Pour y remédier, les cliniques utilisent souvent des stratégies de sur-réservation (overbooking) ou de double-réservation (double-booking), où deux patients sont assignés à un même créneau horaire.

Cependant, les approches actuelles présentent plusieurs limites :

Politiques statiques : La plupart des méthodes reposent sur des heuristiques fixes (ex: doubler la réservation si le taux d'absence dépasse un seuil arbitraire) qui ne s'adaptent pas aux conditions en temps réel.
Manque de personnalisation : Elles ignorent souvent le risque spécifique d'absence de chaque patient.
Optimisation mono-objectif : Les modèles existants peinent à équilibrer simultanément plusieurs objectifs contradictoires : maximiser l'utilisation des créneaux, minimiser les risques de surcharge (deux patients présents en même temps) et aligner l'affluence attendue sur la capacité nominale.

2. Méthodologie

Les auteurs proposent un cadre intégré combinant la prédiction de l'absence et l'apprentissage par renforcement (RL) multi-objectifs.

A. Prédiction de l'absence (No-Show Prediction)

Le système utilise un modèle prédictif nommé MHASRF (Multi-Head Attention Soft Random Forest).

Ce modèle hybride combine des forêts aléatoires à division probabiliste (soft splitting) avec un mécanisme d'attention multi-têtes.
Il génère une probabilité d'absence personnalisée ( $\pi_i$ ) pour chaque patient en fonction de ses caractéristiques démographiques, du contexte du rendez-vous et des facteurs externes (météo, etc.).
Ces probabilités sont injectées directement dans l'état du système pour guider les décisions de prise de rendez-vous.

B. Formulation du problème (MDP)

Le problème de planification est formulé comme un Processus de Décision Markovien (MDP) :

État ( $s_t$ ) : Comprend le statut du créneau (disponible, simple, double), le nombre de patients programmés, le risque d'absence prédit du patient courant, et la charge de travail du médecin.
Action ( $a_t$ ) : L'agent choisit parmi trois options :
1. Single-book : Réserver un seul patient.
2. Double-book : Réserver un deuxième patient dans le même créneau.
3. Reject : Refuser la demande si aucun créneau n'est disponible.
Récompense Multi-objectifs : La fonction de récompense combine trois composantes :
1. $U_t$ : Utilisation effective du créneau (idéalement 1 patient présent).
2. $D_t$ : Évitation du « double-show » (deux patients présents simultanément).
3. $B_t$ : Équilibre de l'affluence (alignement entre l'affluence attendue et la capacité cible de 1).
Récompense façonnée (Shaped Reward) : Pour pallier le délai de la récompense réelle (qui n'est connue qu'au jour du rendez-vous), une récompense basée sur l'espérance (probabilité prédite) est utilisée pendant l'entraînement pour accélérer la convergence.

C. Algorithme d'Apprentissage : MPPPO avec MPCEM

Pour résoudre ce problème multi-objectifs, les auteurs développent une variante du Proximal Policy Optimization (PPO) :

MPPPO (Multi-Policy PPO) : Entraîne simultanément plusieurs politiques ( $\Pi = \{\pi_{\theta_1}, ..., \pi_{\theta_p}\}$ ), chacune optimisée avec un vecteur de poids différent pour les trois objectifs. Cela permet d'approximer le front de Pareto (ensemble des meilleurs compromis).
MPCEM (Multi-Policy Co-Evolution Mechanism) : Un mécanisme de co-évolution permet un transfert de connaissances périodique entre les politiques voisines.
Nouvelle règle $\tau$ adaptative : Au lieu d'un transfert fixe, les auteurs proposent une règle basée sur la divergence de Kullback-Leibler (KL). Le transfert de paramètres entre deux politiques est proportionnel à leur similarité comportementale. Cela améliore la stabilité de l'entraînement et la diversité des solutions trouvées.

D. Interprétabilité

L'approche utilise SHAP (Shapley Additive exPlanations) pour interpréter les décisions de l'agent RL, identifiant quelles variables (ex: probabilité d'absence élevée, charge de travail) influencent le choix de doubler ou non la réservation.

3. Résultats Expérimentaux

Les expériences ont été menées sur un jeu de données réel de 157 494 rendez-vous provenant d'un grand fournisseur de soins de santé au Moyen-Orient, simulé sur un horizon de 14 jours.

Performance globale : Les politiques MPPPO surpassent systématiquement les stratégies de base (réservation simple et double-réservation fixe avec seuils).
- Utilisation effective des créneaux : Les politiques MPPPO atteignent entre 76,2 % et 79,3 %, contre 64,2 % pour la réservation simple et 67,8-70,6 % pour les politiques fixes.
- Récompense pondérée : Les politiques MPPPO obtiennent des scores de récompense significativement plus élevés (jusqu'à 8 992) comparés aux heuristiques (max 8 058).
Analyse des compromis (Trade-offs) :
- L'analyse du front de Pareto montre que l'objectif d'équilibre de l'affluence (Attendance Balance) agit comme un levier puissant : les politiques qui l'optimisent (comme MPPPO 3) obtiennent également de bonnes performances en utilisation et en évitement des doubles-shows.
- MPPPO 3 et MPPPO 10 sont identifiés comme des solutions quasi-Pareto optimales, offrant un équilibre robuste.
Robustesse : Les politiques restent stables face à des perturbations de ±3 % des probabilités d'absence prédites. Cependant, une surestimation de ±5 % des risques d'absence dégrade les performances (trop de doubles-réservations agressives).
Interprétabilité (SHAP) : L'analyse confirme que l'agent apprend des stratégies intuitives : il privilégie la réservation simple lorsque le risque d'absence est faible et la charge élevée, et opte pour le double-book uniquement lorsque le risque d'absence est élevé et que le créneau le permet.

4. Contributions Clés

Première formulation MDP multi-objectifs pour la planification en ambulatoire intégrant explicitement les décisions de single-book, double-book et rejet, avec une contrainte de capacité maximale de deux patients par créneau.
Intégration de prédictions individualisées : Utilisation directe des probabilités d'absence personnalisées (via MHASRF) dans l'état du RL, permettant des décisions fines et adaptatives.
Algorithme MPPPO avec MPCEM adaptatif : Développement d'un mécanisme de co-évolution utilisant la divergence KL pour un transfert de connaissances intelligent entre politiques, améliorant la convergence et la couverture des compromis.
Approche data-driven et interprétable : Combinaison de RL avancé et d'outils d'explication (SHAP) pour créer un système de décision transparent et fiable pour les gestionnaires de cliniques.

5. Signification et Impact

Cette recherche propose une alternative dynamique et pilotée par les données aux règles de gestion statiques traditionnelles. En permettant aux cliniques de s'adapter en temps réel aux comportements des patients et aux conditions du système, le cadre proposé améliore l'efficacité opérationnelle tout en minimisant les risques de congestion.

La capacité à sélectionner une politique spécifique parmi un ensemble de compromis (front de Pareto) permet aux gestionnaires d'ajuster la stratégie de planification selon leurs priorités du moment (ex: privilégier l'efficacité en période de forte demande, ou minimiser les temps d'attente en période de stabilité). L'approche démontre que l'apprentissage par renforcement multi-objectifs, couplé à une prédiction précise, est une voie prometteuse pour l'optimisation des opérations de santé.