Sample Size Calculations for Developing Clinical Prediction Models: Overview and pmsims R package

Este artigo apresenta uma revisão das metodologias atuais e introduz o pacote R de código aberto *pmsims*, que utiliza uma abordagem inovadora baseada em simulação para calcular tamanhos amostrais adequados no desenvolvimento de modelos preditivos clínicos, garantindo desempenho robusto e generalizável.

Diana Shamsutdinova, Felix Zimmer, Oyebayo Ridwan Olaniran, Sarah Markham, Daniel Stahl, Gordon Forbes, Ewan Carr

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef tentando criar a receita perfeita para um novo prato. Você quer que esse prato seja delicioso para qualquer pessoa que o prove, não apenas para os poucos amigos que você testou na sua cozinha.

O artigo que você enviou trata exatamente desse problema, mas no mundo da medicina e da inteligência artificial. Ele discute como descobrir quantos dados (ou "ingredientes") são necessários para criar um modelo de previsão de saúde que funcione de verdade e não falhe quando usado em pacientes reais.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: "Aprender a Nadar na Piscina de Casa"

Muitos modelos de previsão médica são como nadadores que treinaram apenas em uma piscina pequena e calma. Eles parecem ótimos lá, mas quando chegam ao mar (a realidade), afundam. Isso acontece porque os pesquisadores usaram poucos dados para treinar o modelo.

  • O Risco: Se você treina um modelo com poucos dados, ele "decora" os exemplos que viu em vez de aprender a lógica. É como um aluno que decora as respostas de uma prova antiga, mas não entende a matéria. Quando chega uma pergunta nova, ele erra tudo. Isso é chamado de sobreajuste (overfitting).
  • A Dúvida: Quantos dados são suficientes? 100? 1.000? 1 milhão? Antigamente, as pessoas usavam regras de bolso (como "precisa de 10 dados para cada variável"), mas isso é como tentar adivinhar o tamanho de um bolo apenas olhando para a farinha: funciona às vezes, mas geralmente erra.

2. A Solução: O "Simulador de Voo" (O pacote pmsims)

Os autores criaram uma ferramenta chamada pmsims. Pense nela como um simulador de voo para médicos e cientistas de dados.

Em vez de coletar milhões de pacientes reais (o que é caro e demorado), o pmsims cria mundos virtuais dentro do computador.

  • Como funciona: Você diz ao computador: "Quero prever quem terá uma doença cardíaca". O simulador gera milhares de pacientes virtuais com características diferentes.
  • O Teste: O programa treina o modelo com 100 pacientes, depois com 500, depois com 1.000, e assim por diante. Ele vê em que ponto o modelo começa a ficar "inteligente" o suficiente para funcionar bem.
  • A Vantagem: É como testar um novo carro em uma pista de testes antes de vendê-lo. Você descobre se ele aguenta a estrada sem precisar bater em um muro real.

3. A Grande Diferença: "Média" vs. "Garantia"

O artigo faz uma distinção muito importante, que é o coração da inovação deles:

  • O Método Antigo (A Média): Pergunta: "Se eu fizer isso 100 vezes, qual é a média de sucesso?"
    • Analogia: "Se eu jogar dardos 100 vezes, a média dos meus pontos será 80." Isso é bom, mas não garante que você não vai errar o alvo em 20 dessas vezes.
  • O Método Novo (A Garantia / Assurance): Pergunta: "Qual o número de dados para eu ter 80% de certeza de que o modelo vai funcionar bem?"
    • Analogia: "Quantas vezes preciso praticar para ter 80% de certeza de que, no dia do campeonato, vou acertar o alvo?"
    • O pmsims foca nessa garantia. Ele diz: "Para ter certeza de que seu modelo não vai falhar na maioria das vezes, você precisa de X dados". Isso é muito mais seguro para a saúde das pessoas.

4. Por que isso é importante para você?

Hoje, temos muitos modelos de Inteligência Artificial prometendo curas ou diagnósticos precisos. Mas muitos deles foram feitos com "pouca massa" (poucos dados).

  • Sem essa ferramenta: Um hospital pode comprar um software que promete prever câncer, mas que falha porque foi treinado com poucos dados.
  • Com essa ferramenta: Os pesquisadores usam o pmsims para calcular exatamente quantos pacientes precisam estudar antes de lançar o software. Isso evita desperdício de dinheiro e, mais importante, evita que pacientes recebam diagnósticos errados.

Resumo em uma frase

Este artigo apresenta um novo "calculadora de segurança" (o pacote pmsims) que usa simulações de computador para dizer aos cientistas exatamente quantos dados eles precisam coletar para garantir que seus modelos de inteligência artificial médica funcionem de verdade, e não apenas na teoria.

É como ter um mapa que diz: "Para construir uma ponte segura que não vai cair, você precisa de exatamente 5.000 toneladas de concreto, nem uma a menos."

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →