AERO: An AI Agent for Adaptive Eligibility Refinement and Optimization of Clinical Trial Criteria in Real-World Trial Emulation

O artigo apresenta o AERO, um framework de agente de IA que otimiza os critérios de elegibilidade para ensaios clínicos para emulação de dados do mundo real, aproveitando modelos de linguagem grandes para classificar e refinar sistematicamente os critérios, melhorando assim a generalizabilidade e a precisão das estimativas do efeito do tratamento, conforme demonstrado em uma emulação do ensaio WARCEF.

Autores originais: Li, X., James, J., Pellikka, P. A., Zong, N.

Publicado 2026-05-01
📖 6 min de leitura🧠 Leitura aprofundada

Autores originais: Li, X., James, J., Pellikka, P. A., Zong, N.

Artigo original sob licença CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Imagine que você está tentando recriar uma famosa competição de culinária perfeitamente controlada (um Ensaio Controlado Randomizado, ou ECR), usando uma despensa gigante, bagunçada e do mundo real, cheia de ingredientes de milhares de diferentes lares (seus Registros Eletrônicos de Saúde).

Na competição original, os juízes tinham uma lista muito estrita de regras: "Use apenas ovos de galinhas com menos de 2 anos", "Sem sal se o cozinheiro tiver uma alergia específica" e "O cozinheiro deve ser capaz de ficar em pé por 4 horas sem pausa". Essas regras garantiam que a competição fosse justa e os resultados fossem claros.

No entanto, quando você tenta encontrar esses ingredientes exatos na despensa do mundo real, você esbarra em um muro. Você não consegue determinar a idade da galinha apenas olhando para o ovo. Você não tem um registro do histórico de alergias de cada cozinheiro. E você certamente não pode saber se um cozinheiro conseguiria ficar em pé por 4 horas se ele nunca realmente precisou. Se você tentar aplicar as regras originais exatamente como estão escritas, pode acabar jogando fora 90% da sua despensa, deixando-o com quase nenhum cozinheiro para estudar. Ou pior, você pode acidentalmente manter apenas os cozinheiros "perfeitos", fazendo com que seus resultados pareçam diferentes do mundo real.

Apresentamos o AERO: O Sous-Chef Inteligente

O artigo apresenta o AERO (Agente de IA para Refinamento e Otimização Adaptativa de Elegibilidade). Pense no AERO como um sous-chef altamente inteligente e bem lido que ajuda você a traduzir essas regras estritas de competição em algo viável para sua despensa bagunçada do mundo real, sem perder a essência do concurso original.

Veja como o AERO funciona, usando metáforas simples:

1. O Sistema de Classificação de "Quatro Caixas"

Em vez de tentar cegamente seguir cada regra, o AERO olha para cada regra e pergunta: "Para que serve essa regra realmente?". Ele classifica cada regra em uma das quatro caixas:

  • Caixa 1: Os "Obrigatórios" (Inclusão Estrita): São as regras centrais que definem para quem é o concurso. Exemplo: "O cozinheiro deve estar fazendo sopa." O AERO mantém essas como filtros rígidos. Se você não estiver fazendo sopa, está fora.
  • Caixa 2: Os "Alertas de Segurança" (Exclusão Estrita): São regras sobre perigo. Exemplo: "Ninguém com alergia grave a nozes pode entrar." O AERO mantém essas também, porque a segurança é não negociável e geralmente fácil de identificar nos registros.
  • Caixa 3: O "Ruído de Fundo" (Fatores de Confusão): São regras que descrevem o cozinheiro, mas não necessariamente o desqualificam. Exemplo: "O cozinheiro deve ter usado uma marca específica de sal no passado." No mundo real, isso pode ser apenas um fator que faz a sopa ter um sabor diferente, não uma razão para expulsar o cozinheiro. O AERO diz: "Não os jogue fora! Apenas anote isso e ajuste depois quando formos provar a sopa." Isso mantém mais pessoas no estudo.
  • Caixa 4: As "Tarefas Impossíveis" (Descartar/Operacional): São regras que não fazem sentido em uma despensa do mundo real. Exemplo: "O cozinheiro deve ser capaz de seguir um protocolo de 4 horas sem pausa." Você não pode verificar isso em um banco de dados. O AERO diz: "Não podemos medir isso, então vamos descartar essa regra inteiramente para não excluirmos acidentalmente bons cozinheiros."

2. O "Bibliotecário do Conhecimento"

O AERO não está apenas adivinhando. Ele age como um bibliotecário que puxa três livros diferentes antes de tomar uma decisão:

  • Uma Enciclopédia Médica (UpToDate) para entender a doença.
  • Um Assistente de IA Inteligente (Claude) para interpretar o contexto.
  • Um Manual de Segurança de Medicamentos (ToolUniverse) para verificar interações perigosas.

Ao combinar as regras originais do ensaio com esse conhecimento extra, o AERO decide quais regras manter, quais ajustar e quais descartar.

3. O Teste de Direção: O Ensaio WARCEF

Para ver se o AERO funciona, os pesquisadores o usaram para recriar o ensaio WARCEF.

  • O Ensaio Original: Comparou Varfarina (um anticoagulante) versus Aspirina para pacientes com insuficiência cardíaca. O resultado? Nenhuma diferença. As duas drogas funcionaram aproximadamente da mesma forma.
  • O Problema: Se você tentasse encontrar esses pacientes em registros hospitalares do mundo real usando as regras originais estritas, provavelmente obteria um grupo minúsculo e estranho de pacientes que não se pareciam com pessoas reais.
  • A Solução AERO: O AERO reclassificou as regras. Ele manteve o diagnóstico de insuficiência cardíaca (Obrigatório) e as exclusões de segurança (Alerta de Segurança). Mas moveu coisas como "marcapasso recente" ou "histórico específico de medicação" para a caixa de "Ruído de Fundo", o que significa que eles mantiveram esses pacientes, mas ajustaram a matemática depois.

O Resultado:
Quando realizaram o estudo com as regras otimizadas do AERO, obtiveram um resultado de HR = 1,56 (que é uma maneira estatística de dizer "nenhuma diferença significativa"). Isso correspondeu à conclusão do ensaio original (HR = 1,01, "nenhuma diferença").

A Lição da "Ablação" (O Experimento "E Se")
O artigo também realizou um experimento interessante para provar por que a classificação do AERO importa. Eles pegaram uma regra específica: "Nenhum paciente em um anticoagulante específico (LMWH)".

  • Cenário A (Regra Estrita): Eles jogaram todos os pacientes que usavam esse anticoagulante fora do estudo. De repente, os resultados mudaram! Parecia que uma droga era melhor que a outra. Por quê? Porque ao jogar essas pessoas fora, eles acidentalmente removeram os pacientes mais doentes, distorcendo o grupo.
  • Cenário B (O Jeito do AERO): Eles mantiveram esses pacientes, mas trataram o anticoagulante como "Ruído de Fundo" para ajustar depois. O resultado voltou a ser "Nenhuma diferença", correspondendo à verdade original.

A Grande Conclusão

O artigo afirma que como você decide quem entra em um estudo muda os resultados.

Se você tentar copiar e colar um ensaio de laboratório estrito no mundo real bagunçado, pode quebrar o experimento. O AERO atua como um tradutor. Ele usa IA e conhecimento médico para dizer: "Esta regra é sobre segurança, mantenha-a. Esta regra é sobre logística, descarte-a. Esta regra é apenas uma característica, ajuste-a."

Ao fazer isso, o AERO permite que pesquisadores usem dados hospitalares do mundo real para responder a perguntas que normalmente exigiriam ensaios controlados e caros, garantindo ao mesmo tempo que a resposta ainda seja precisa e justa. Ele preenche a lacuna entre o "mundo perfeito" de um laboratório e o "mundo bagunçado" de um hospital real.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →