Adaptive Double-Booking Strategy for Outpatient Scheduling Using Multi-Objective Reinforcement Learning

Este artigo propõe uma estrutura adaptativa de agendamento duplo para clínicas ambulatoriais que integra previsão individualizada de faltas com aprendizado por reforço multi-objetivo, otimizando dinamicamente as decisões de agendamento para mitigar o impacto das faltas de pacientes enquanto equilibra congestionamento e tempos de espera.

Ninda Nurseha Amalina, Heungjo An

Publicado 2026-03-10
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de uma clínica médica. Seu maior pesadelo? Ter consultórios vazios porque os pacientes não aparecem (os famosos "no-shows"), mas, ao mesmo tempo, ter uma sala de espera lotada e pacientes furiosos porque dois ou três chegaram ao mesmo tempo.

É como tentar encher um ônibus: se você vende apenas um bilhete por assento e metade das pessoas não vem, o ônibus sai meio vazio e você perde dinheiro. Se você vende dois bilhetes por assento (o que chamamos de dupla reserva ou double-booking) e todos aparecem, o ônibus fica superlotado, o motorista fica estressado e ninguém chega a tempo.

Este artigo apresenta uma solução inteligente para esse dilema, usando uma espécie de "cérebro digital" que aprende com o tempo. Vamos descomplicar como funciona:

1. O Problema: A Dança dos Pacientes

As clínicas tentam resolver isso com regras fixas. Por exemplo: "Se o paciente tem histórico de não aparecer, vamos agendar dois para o mesmo horário". O problema é que essa regra é "cega". Ela não sabe se hoje o paciente vai aparecer ou não, nem se o médico já está sobrecarregado. É como tentar dirigir um carro olhando apenas para o retrovisor e usando regras escritas em papel.

2. A Solução: Um "Oráculo" e um "Treinador"

Os autores criaram um sistema de duas partes que trabalham juntas:

  • O Oráculo (Previsão de Ausência): Primeiro, eles usam um modelo de Inteligência Artificial (chamado MHASRF) que atua como um oráculo. Ele olha para o perfil do paciente (idade, motivo da visita, histórico, clima, etc.) e diz: "Ei, tenho 80% de certeza que este paciente não vai aparecer hoje".
  • O Treinador (Aprendizado por Reforço): Em vez de usar uma regra fixa, eles usam um algoritmo de aprendizado (Reinforcement Learning) que funciona como um treinador de um time de esportes.
    • O treinador não segue um manual. Ele joga milhares de partidas de simulação.
    • Se ele agendar dois pacientes e um não vem, ele ganha pontos (porque o consultório foi bem aproveitado).
    • Se ele agendar dois e os dois vêm, ele perde pontos (porque criou uma bagunça).
    • Com o tempo, o treinador aprende a adivinhar o momento perfeito para arriscar a dupla reserva.

3. O Grande Truque: O "Jogo de Equilíbrio"

O mais legal é que o sistema não tem apenas um objetivo. Ele precisa equilibrar três coisas ao mesmo tempo, como um malabarista jogando três bolas no ar:

  1. Não deixar o consultório vazio (Eficiência).
  2. Não deixar a sala de espera lotada (Evitar o caos).
  3. Manter o ritmo certo (Ter exatamente um paciente por hora, em média).

Para fazer isso, o sistema treina 10 "cérebros" diferentes ao mesmo tempo. Cada um deles é treinado para dar um peso diferente a essas bolas.

  • Um "cérebro" é mais conservador: prefere deixar o consultório vazio a ter que lidar com dois pacientes ao mesmo tempo.
  • Outro "cérebro" é mais arriscado: prefere encher o consultório e assume o risco de ter que lidar com a lotação.
  • Outros tentam o equilíbrio perfeito.

Isso permite que a clínica escolha qual "cérebro" usar dependendo do dia. Se é um dia de muita chuva e todos tendem a faltar, eles podem ativar o cérebro mais arriscado. Se é um dia normal, usam o equilibrado.

4. A "Cola" Inteligente (Co-evolução)

O artigo introduz uma ideia nova e brilhante: como fazer esses 10 cérebros aprenderem juntos sem ficarem presos em soluções ruins? Eles criaram uma regra chamada Regra Tau.

Imagine que esses cérebros são alunos em uma sala de aula.

  • Se dois alunos têm estilos de aprendizado muito parecidos (comportamento similar), eles podem compartilhar anotações e aprender mais rápido um com o outro.
  • Se um aluno é muito diferente do outro, eles não compartilham tanto, para não estragar a criatividade única de cada um.

Essa "cola" (baseada em uma fórmula matemática chamada Divergência de Kullback-Leibler) faz com que os melhores estratégias se espalhem entre os cérebros parecidos, acelerando o aprendizado de todos.

5. O Resultado: Transparência

Muitas vezes, a Inteligência Artificial é uma "caixa preta" (não sabemos por que ela decidiu aquilo). Aqui, eles usaram uma ferramenta chamada SHAP (como uma lente de aumento) para explicar as decisões.

  • Eles descobriram que o sistema decide fazer a dupla reserva principalmente quando: o risco de o paciente faltar é alto, o consultório não está cheio e há horários mais flexíveis.
  • Isso confirma que o sistema está tomando decisões lógicas e seguras, não apenas "chutando".

Resumo da Ópera

Em vez de usar regras rígidas como "sempre agende duplo se o paciente for jovem", este sistema cria uma estratégia dinâmica e adaptativa. Ele usa previsões individuais para saber quem pode faltar e usa um treinador de IA para decidir quando arriscar a dupla reserva.

A analogia final:
É como se a clínica tivesse um GPS em tempo real. Em vez de seguir um mapa estático que diz "vire à direita sempre", o GPS olha o trânsito, o clima e o histórico de cada motorista para dizer: "Hoje, com esse paciente específico e esse horário, é seguro colocar dois carros na mesma faixa. Amanhã, não."

O resultado? Menos tempo ocioso para os médicos, menos espera para os pacientes e uma clínica que funciona como um relógio, mesmo com o imprevisto constante da vida real.