Tipping the Balance: Impact of Class Imbalance Correction on the Performance of Clinical Risk Prediction Models

Este estudo demonstra que, em diversas tarefas de previsão de risco clínico, as técnicas comuns de correção de desequilíbrio de classes não melhoram a discriminação dos modelos e, na verdade, degradam sua calibração probabilística.

Amalie Koch Andersen, Hadi Mehdizavareh, Arijit Khan, Tobias Becher, Simone Britsch, Markward Britsch, Morten Bøttcher, Simon Winther, Palle Duun Rohde, Morten Hasselstrøm Jensen, Simon Lebech Cichosz

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida
⚕️

Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um médico tentando prever quem ficará doente e quem ficará saudável. Você usa um computador inteligente (um modelo de aprendizado de máquina) para ajudar nessa tarefa. O problema é que, na vida real, as pessoas que ficam doentes são muito poucas comparadas às que ficam saudáveis. É como tentar encontrar uma agulha em um palheiro gigante: a maioria dos palitos é de palha (saudáveis) e apenas alguns são agulhas (doentes).

Para ajudar o computador a encontrar essas "agulhas", muitos cientistas tentam "equilibrar a balança" antes de ensinar o computador. Eles fazem isso copiando as poucas agulhas várias vezes ou apagando alguns palhos, para que o computador veja quantidades iguais de agulhas e palhos durante o treinamento.

O que este estudo descobriu?

Os autores deste estudo, um grupo de pesquisadores dinamarqueses e alemães, decidiram testar se essa "ajustagem da balança" realmente ajuda na vida real. Eles pegaram 10 situações médicas diferentes (como prever diabetes, morte em UTI, doenças cardíacas) e mais de 600.000 pacientes. Eles treinaram computadores de várias formas:

  1. Deixando os dados naturais (muitos saudáveis, poucos doentes).
  2. Copiando os doentes (Oversampling).
  3. Apagando os saudáveis (Undersampling).
  4. Criando "falsos" doentes baseados nos reais (SMOTE).

A Grande Revelação: O Computador "Aprendeu" a Mentir

Aqui está a analogia principal:

Imagine que você está ensinando um aluno a prever a chuva.

  • Cenário Natural: Você mostra 100 dias, onde 95 são de sol e apenas 5 chovem. O aluno aprende que "na maioria das vezes, o céu está limpo". Quando ele vê um dia cinza, ele diz: "Há 5% de chance de chuva". Isso é calibrado (preciso).

  • Cenário "Equilibrado" (O que o estudo testou): Você força o aluno a estudar 50 dias de sol e 50 dias de chuva (copiando os dias de chuva). O aluno, confuso, começa a achar que chuva é muito comum. Quando ele vê um dia cinza, ele diz: "Há 50% de chance de chuva!".

O resultado? O aluno ainda consegue dizer qual dia vai chover melhor do que o outro (ele ainda sabe a ordem: "hoje é mais provável que chova do que amanhã"). Isso é chamado de discriminação (e o estudo mostrou que essa habilidade não melhorou).

Mas o problema é a confiança: O aluno agora está errado sobre a probabilidade. Ele superestima o risco. Se você confiar nele para levar um guarda-chuva, ele vai te fazer carregar um guarda-chuva todos os dias, mesmo quando o céu está limpo. Isso é má calibração.

O que os números disseram?

  • Precisão de Classificação (Discriminação): Mudar os dados para equilibrar as classes não ajudou o computador a ser melhor em distinguir quem fica doente de quem não fica. Em alguns casos, ficou até pior.
  • Precisão do Risco (Calibração): Aqui foi onde a coisa piorou. Os modelos que foram "equilibrados" passaram a dar números de risco totalmente errados. Eles diziam que o risco era muito maior do que realmente era.
    • Analogia: É como um termômetro que, em vez de marcar 37°C (febre real), marca 42°C. O paciente tem febre, mas o termômetro está exagerando tanto que perde a utilidade clínica.

Por que isso é importante para a medicina?

Na medicina, não basta saber quem vai ficar doente; precisamos saber quão provável é isso acontecer.

  • Se um modelo diz que você tem 90% de chance de ter um infarto, você pode fazer uma cirurgia de risco.
  • Se o modelo está descalibrado (por causa do "equilíbrio" artificial) e diz 90% quando na verdade é 10%, você pode passar por uma cirurgia desnecessária e perigosa.

A Conclusão Simples

O estudo conclui que, na maioria das vezes, não devemos mexer na balança dos dados (não devemos copiar ou apagar pacientes) quando queremos prever riscos médicos.

Em vez disso, a recomendação é:

  1. Deixe o computador aprender com os dados reais (mesmo que desequilibrados).
  2. Se o computador for muito "cauteloso" e não detectar os doentes, mude o gatilho de decisão (o ponto de corte), não o treinamento.
    • Analogia: Se o detector de metal é muito sensível e toca com uma moeda, não troque o detector. Apenas ajuste o volume para que ele só toque com armas.

Resumo em uma frase:
Tentar "forçar" o equilíbrio entre doentes e saudáveis nos dados de treinamento faz com que os modelos de inteligência artificial pareçam melhores em classificar, mas na verdade eles começam a mentir sobre a probabilidade real do risco, o que pode ser perigoso para os pacientes.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →