Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

Este artigo analisa teoricamente e empiricamente o SMOTE, demonstrando que sua densidade tende a copiar amostras originais e desaparece nas fronteiras, o que levou ao desenvolvimento de duas variantes que superam o método padrão em cenários de desequilíbrio artificial, embora, na maioria dos casos, a ausência de reamostragem seja competitiva com algoritmos de aprendizado de máquina modernos.

Abdoulaye Sakho, Emmanuel Malherbe, Erwan Scornet

Publicado 2026-03-18
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando encontrar agulhas em um palheiro. O "palheiro" são os dados normais (a maioria), e as "agulhas" são os casos raros e importantes que você quer encontrar, como fraudes em cartões de crédito ou diagnósticos médicos raros.

O problema é que, se você apenas jogar os dados para um computador, ele vai ficar preguiçoso e dizer "tudo é palheiro" porque há muito mais palha do que agulhas. Para ajudar o computador a ver as agulhas, os cientistas criaram uma técnica chamada SMOTE.

O que é o SMOTE? (O "Xerox" Criativo)

Pense no SMOTE como um fotógrafo que tenta criar novas fotos de agulhas. Como ele não tem fotos reais suficientes, ele pega duas agulhas reais, olha para o espaço entre elas e "desenha" uma nova agulha fictícia bem no meio. É como se ele fizesse um mix entre duas fotos para criar uma terceira nova. A ideia é encher o palheiro de mais agulhas para que o computador preste atenção nelas.

O que os autores descobriram? (A Surpresa)

Os autores deste estudo (Abdoulaye, Emmanuel e Erwan) decidiram olhar para trás dessa "mágica" e perguntar: "Isso realmente funciona como pensamos?"

Eles fizeram duas descobertas principais, usando matemática e simulações:

  1. O Efeito "Xerox" (Cópia Demasiada):
    Com os ajustes padrão que todo mundo usa, o SMOTE não está realmente criando algo novo e criativo. Ele está apenas fazendo cópias quase idênticas das agulhas originais.

    • A analogia: Imagine que você tem uma foto de um gato laranja. O SMOTE, no modo padrão, não cria um gato laranja com uma mancha diferente ou uma pose nova. Ele apenas imprime a mesma foto do gato laranja 100 vezes, talvez com um leve desfoque. O computador vê 100 gatos iguais e acha que não aprendeu nada novo.
  2. O Problema da Borda (O Cantinho Esquecido):
    O SMOTE tem dificuldade em criar agulhas nas "bordas" do palheiro (os casos mais estranhos ou raros). Ele tende a ficar no meio do caminho, ignorando as áreas mais perigosas onde as agulhas realmente precisam ser encontradas.

    • A analogia: É como se o fotógrafo só tirasse fotos de agulhas que estão no centro da sala, mas nunca nas pontas ou nos cantos escuros, onde as agulhas mais difíceis de achar estariam escondidas.

As Soluções Propostas (Novas Ideias)

Baseados nesses problemas, eles criaram duas novas versões do SMOTE:

  1. SMOTE Ajustado (K-tuned): Em vez de usar o número fixo de "vizinhos" que o programa usa por padrão, eles sugerem ajustar esse número dependendo de quantas agulhas você tem. É como dizer ao fotógrafo: "Se temos poucas fotos, olhe para mais vizinhos; se temos muitas, olhe para menos".
  2. SMOTE Gaussiano (MGS): Esta é a grande estrela. Em vez de apenas desenhar uma linha reta entre duas agulhas, eles usam uma "nuvem de probabilidade".
    • A analogia: Imagine que, em vez de desenhar uma linha entre dois pontos, você joga uma tinta colorida ao redor deles. Essa tinta se espalha em todas as direções, criando novas agulhas que podem aparecer em lugares onde nunca houve uma agulha antes (fora da "caixa" original). Isso ajuda a cobrir as bordas e a criar mais diversidade.

O Veredito Final: Precisamos de Tudo Isso?

Aqui está a parte mais interessante e contraintuitiva do estudo:

  • Para a maioria dos casos: Não! O estudo mostrou que, na maioria dos dados do mundo real, não fazer nada (não usar SMOTE, não copiar nada) funciona tão bem quanto usar essas técnicas complexas. Os computadores modernos (como as "Florestas Aleatórias") são inteligentes o suficiente para lidar com o desequilíbrio sozinhos.
  • Para os casos extremos: Se o desequilíbrio for muito grande (ex: 1 agulha para cada 100.000 palhas), aí sim, usar uma técnica ajuda. E, nesse cenário, a nova técnica deles, o MGS (SMote Gaussiano), foi a melhor de todas, superando até modelos de Inteligência Artificial muito complexos e caros.

Resumo em uma frase

O estudo diz: "Na maioria das vezes, não se preocupe em forçar o computador a ver o que ele não quer ver; deixe-o trabalhar naturalmente. Mas, se o problema for realmente extremo, use nossa nova técnica 'MGS' que cria exemplos mais criativos e menos repetitivos do que os métodos antigos."