Adaptive Double-Booking Strategy for Outpatient Scheduling Using Multi-Objective Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de uma clínica médica. Seu maior pesadelo? Ter consultórios vazios porque os pacientes não aparecem (os famosos "no-shows"), mas, ao mesmo tempo, ter uma sala de espera lotada e pacientes furiosos porque dois ou três chegaram ao mesmo tempo.

É como tentar encher um ônibus: se você vende apenas um bilhete por assento e metade das pessoas não vem, o ônibus sai meio vazio e você perde dinheiro. Se você vende dois bilhetes por assento (o que chamamos de dupla reserva ou double-booking) e todos aparecem, o ônibus fica superlotado, o motorista fica estressado e ninguém chega a tempo.

Este artigo apresenta uma solução inteligente para esse dilema, usando uma espécie de "cérebro digital" que aprende com o tempo. Vamos descomplicar como funciona:

1. O Problema: A Dança dos Pacientes

As clínicas tentam resolver isso com regras fixas. Por exemplo: "Se o paciente tem histórico de não aparecer, vamos agendar dois para o mesmo horário". O problema é que essa regra é "cega". Ela não sabe se hoje o paciente vai aparecer ou não, nem se o médico já está sobrecarregado. É como tentar dirigir um carro olhando apenas para o retrovisor e usando regras escritas em papel.

2. A Solução: Um "Oráculo" e um "Treinador"

Os autores criaram um sistema de duas partes que trabalham juntas:

O Oráculo (Previsão de Ausência): Primeiro, eles usam um modelo de Inteligência Artificial (chamado MHASRF) que atua como um oráculo. Ele olha para o perfil do paciente (idade, motivo da visita, histórico, clima, etc.) e diz: "Ei, tenho 80% de certeza que este paciente não vai aparecer hoje".
O Treinador (Aprendizado por Reforço): Em vez de usar uma regra fixa, eles usam um algoritmo de aprendizado (Reinforcement Learning) que funciona como um treinador de um time de esportes.
- O treinador não segue um manual. Ele joga milhares de partidas de simulação.
- Se ele agendar dois pacientes e um não vem, ele ganha pontos (porque o consultório foi bem aproveitado).
- Se ele agendar dois e os dois vêm, ele perde pontos (porque criou uma bagunça).
- Com o tempo, o treinador aprende a adivinhar o momento perfeito para arriscar a dupla reserva.

3. O Grande Truque: O "Jogo de Equilíbrio"

O mais legal é que o sistema não tem apenas um objetivo. Ele precisa equilibrar três coisas ao mesmo tempo, como um malabarista jogando três bolas no ar:

Não deixar o consultório vazio (Eficiência).
Não deixar a sala de espera lotada (Evitar o caos).
Manter o ritmo certo (Ter exatamente um paciente por hora, em média).

Para fazer isso, o sistema treina 10 "cérebros" diferentes ao mesmo tempo. Cada um deles é treinado para dar um peso diferente a essas bolas.

Um "cérebro" é mais conservador: prefere deixar o consultório vazio a ter que lidar com dois pacientes ao mesmo tempo.
Outro "cérebro" é mais arriscado: prefere encher o consultório e assume o risco de ter que lidar com a lotação.
Outros tentam o equilíbrio perfeito.

Isso permite que a clínica escolha qual "cérebro" usar dependendo do dia. Se é um dia de muita chuva e todos tendem a faltar, eles podem ativar o cérebro mais arriscado. Se é um dia normal, usam o equilibrado.

4. A "Cola" Inteligente (Co-evolução)

O artigo introduz uma ideia nova e brilhante: como fazer esses 10 cérebros aprenderem juntos sem ficarem presos em soluções ruins? Eles criaram uma regra chamada Regra Tau.

Imagine que esses cérebros são alunos em uma sala de aula.

Se dois alunos têm estilos de aprendizado muito parecidos (comportamento similar), eles podem compartilhar anotações e aprender mais rápido um com o outro.
Se um aluno é muito diferente do outro, eles não compartilham tanto, para não estragar a criatividade única de cada um.

Essa "cola" (baseada em uma fórmula matemática chamada Divergência de Kullback-Leibler) faz com que os melhores estratégias se espalhem entre os cérebros parecidos, acelerando o aprendizado de todos.

5. O Resultado: Transparência

Muitas vezes, a Inteligência Artificial é uma "caixa preta" (não sabemos por que ela decidiu aquilo). Aqui, eles usaram uma ferramenta chamada SHAP (como uma lente de aumento) para explicar as decisões.

Eles descobriram que o sistema decide fazer a dupla reserva principalmente quando: o risco de o paciente faltar é alto, o consultório não está cheio e há horários mais flexíveis.
Isso confirma que o sistema está tomando decisões lógicas e seguras, não apenas "chutando".

Resumo da Ópera

Em vez de usar regras rígidas como "sempre agende duplo se o paciente for jovem", este sistema cria uma estratégia dinâmica e adaptativa. Ele usa previsões individuais para saber quem pode faltar e usa um treinador de IA para decidir quando arriscar a dupla reserva.

A analogia final:
É como se a clínica tivesse um GPS em tempo real. Em vez de seguir um mapa estático que diz "vire à direita sempre", o GPS olha o trânsito, o clima e o histórico de cada motorista para dizer: "Hoje, com esse paciente específico e esse horário, é seguro colocar dois carros na mesma faixa. Amanhã, não."

O resultado? Menos tempo ocioso para os médicos, menos espera para os pacientes e uma clínica que funciona como um relógio, mesmo com o imprevisto constante da vida real.

Each language version is independently generated for its own context, not a direct translation.

1. Problema Abordado

O artigo aborda o desafio crítico de ausências de pacientes (no-shows) em clínicas ambulatoriais. As ausências reduzem a produtividade, causam tempos de espera mais longos e desperdiçam capacidade médica. Para mitigar isso, clínicas frequentemente utilizam estratégias de superagendamento (overbooking) ou dupla reserva (double-booking), onde dois pacientes são agendados para o mesmo intervalo de tempo.

No entanto, as políticas existentes apresentam limitações significativas:

Rigidez: A maioria utiliza heurísticas fixas ou regras estáticas que não se adaptam às condições de agendamento em tempo real.
Falta de Personalização: Não consideram adequadamente o risco de ausência específico de cada paciente.
Otimização Unidimensional: Muitas abordagens focam em um único objetivo (ex: maximizar ocupação), ignorando o trade-off entre eficiência e o risco de superlotação (quando ambos os pacientes reservados aparecem).
Incerteza Sequencial: Métodos de otimização tradicionais têm dificuldade em lidar com a natureza sequencial e estocástica das chegadas de pedidos de agendamento ao longo de vários dias.

2. Metodologia Proposta

Os autores propõem um framework adaptativo de dupla reserva que integra previsão de ausência individualizada com Aprendizado por Reforço Multi-Objetivo (Multi-Objective Reinforcement Learning - MORL).

A. Previsão de Ausência (No-Show Prediction)

Utiliza o modelo MHASRF (Multi-Head Attention Soft Random Forest), desenvolvido anteriormente pelo grupo de pesquisa.
Este modelo combina mecanismos de atenção com divisão probabilística suave (soft splitting) para capturar interações complexas de características do paciente e do agendamento.
Gera uma probabilidade de ausência individualizada ( $\pi_i$ ) para cada paciente, que é incorporada ao estado do agente de RL.

B. Formulação do Problema (MDP)

O problema é formulado como um Processo de Decisão de Markov (MDP):

Estado ( $s_t$ ): Inclui informações sobre clínicas, departamentos, médicos, status do slot (disponível, único, duplo), probabilidade de ausência do paciente atual, carga de trabalho do médico e slots restantes.
Ação ( $a_t$ ): O agente decide entre três opções para cada pedido de agendamento:
1. Agendamento único (Single-book).
2. Agendamento duplo (Double-book).
3. Rejeitar o pedido (Reject).
Recompensa Multi-Objetivo: O sistema busca otimizar três objetivos simultaneamente:
1. Utilização Eficiente de Slots ( $U$ ): Maximizar slots com exatamente um paciente presente.
2. Evitação de Dupla Presença ( $D$ ): Minimizar o risco de ambos os pacientes de um slot duplo comparecerem.
3. Equilíbrio de Presença ( $B$ ): Alinhar a presença esperada com a capacidade de um paciente por slot.
Recompensa Moldada (Shaped Reward): Para lidar com o atraso na observação dos resultados (apenas no dia do agendamento), utiliza-se uma recompensa baseada na probabilidade prevista de ausência para acelerar a convergência do aprendizado.

C. Algoritmo de Aprendizado: MPPPO com MPCEM

MPPPO (Multi-Policy Proximal Policy Optimization): Em vez de treinar uma única política, o framework treina múltiplas políticas em paralelo, cada uma com diferentes pesos para os objetivos ( $\alpha, \beta, \gamma$ ). Isso gera uma aproximação da fronteira de Pareto, permitindo que os gestores escolham a política que melhor se adapta às prioridades operacionais atuais.
MPCEM (Multi-Policy Co-Evolution Mechanism): Um mecanismo inovador que permite a transferência de conhecimento entre políticas vizinhas no espaço de pesos.
- Regra $\tau$ Adaptativa: Diferente de métodos fixos, este estudo propõe uma regra $\tau$ baseada na Divergência de Kullback-Leibler (KL). A transferência de parâmetros é modulada pela similaridade comportamental entre as políticas. Políticas com comportamentos semelhantes trocam conhecimento mais intensamente, enquanto políticas divergentes mantêm sua diversidade, melhorando a estabilidade e a cobertura do espaço de soluções.

D. Explicabilidade

Utiliza SHAP (SHapley Additive exPlanations) para interpretar tanto as previsões de ausência quanto as decisões do agente de RL, identificando quais variáveis (ex: probabilidade de ausência, carga de trabalho) mais influenciam a escolha entre agendamento único ou duplo.

3. Principais Contribuições

Primeira Formulação MDP Multi-Objetivo: Modelagem explícita das decisões de agendamento único, duplo e rejeição em um MDP multi-objetivo, restringindo cada slot a no máximo dois pacientes.
Integração de Previsão Individualizada: Incorporação direta das probabilidades de ausência previstas pelo MHASRF no estado de decisão do RL, permitindo decisões granulares e baseadas em risco.
Mecanismo de Co-evolução Adaptativo: Desenvolvimento de uma nova regra $\tau$ baseada em KL-divergência para o MPCEM, que equilibra a transferência de conhecimento e a diversidade de políticas, superando limitações de abordagens de transferência fixa.
Framework Adaptativo e Explicável: Criação de um sistema que não apenas supera heurísticas estáticas, mas também oferece transparência nas decisões através do SHAP.

4. Resultados e Análise

Os experimentos foram realizados com dados reais de um grande provedor de saúde (157.494 registros, 101.532 após limpeza) simulando um horizonte de 14 dias.

Desempenho vs. Baselines: As políticas MPPPO superaram consistentemente as políticas baseadas em heurísticas (agendamento único e dupla reserva com limiares fixos de 0.5 a 0.9).
- Utilização Eficiente: As políticas MPPPO alcançaram entre 76,2% e 79,3%, comparado a 64,2% (único) e 67,8-70,6% (dupla fixa).
- Recompensa Ponderada: O MPPPO 3 alcançou a maior recompensa média (8.922,2), superando significativamente as melhores heurísticas fixas (~8.058).
Trade-offs: A análise revelou que focar no objetivo de Equilíbrio de Presença (alinhamento da expectativa com a capacidade) atua como um proxy eficaz, melhorando simultaneamente a utilização e a evitação de superlotação.
Robustez: O sistema demonstrou robustez a perturbações de ±3% nas probabilidades de previsão, com degradação de desempenho inferior a 1%. Perturbações maiores (±5%) afetaram mais o superagendamento agressivo, mas o modelo manteve estabilidade relativa.
Interpretabilidade: O SHAP confirmou que o agente aprendeu lógicas intuitivas: evita dupla reserva quando a carga de trabalho é alta ou o risco de ausência é baixo, e aplica dupla reserva seletivamente quando o risco de ausência é alto e há flexibilidade no cronograma.

5. Significado e Conclusão

Este estudo demonstra que a integração de previsão preditiva individualizada com aprendizado por reforço multi-objetivo adaptativo oferece uma solução superior para o agendamento ambulatorial.

Impacto Prático: O framework permite que as clínicas transitem de regras estáticas para decisões dinâmicas que respondem ao risco real de cada paciente e ao estado atual do sistema.
Flexibilidade Operacional: A capacidade de selecionar diferentes políticas da fronteira de Pareto permite que os gestores ajustem a estratégia conforme as prioridades do dia (ex: priorizar eficiência em dias de alta demanda ou priorizar conforto do paciente em dias de baixa demanda).
Avanço Científico: A proposta do mecanismo de co-evolução baseado em similaridade comportamental (KL-divergência) representa um avanço metodológico na otimização multi-objetivo, aplicável a outros problemas de sequenciamento e alocação de recursos.

Em suma, a abordagem proposta melhora a eficiência da clínica, reduz o tempo de espera e a sobrecarga de trabalho, mantendo um risco controlado de superlotação, tudo isso através de um processo de decisão orientado por dados e explicável.