Comparing Variable Selection and Model Averaging Methods for Logistic Regression

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef tentando criar a receita perfeita para um prato delicioso (o modelo estatístico). Você tem uma despensa cheia de ingredientes (os preditores ou variáveis), mas não sabe exatamente quais deles vão fazer o prato ficar bom e quais vão estragar tudo.

O problema é que existem milhares de combinações possíveis de ingredientes. Escolher a combinação errada pode fazer seu prato ficar sem graça ou, pior, impossível de comer. Na estatística, isso se chama incerteza do modelo.

Este artigo é como um grande "festival de culinária" organizado por pesquisadores da Universidade de Amsterdã e da Universidade de Washington. Eles reuniram 28 métodos diferentes (técnicas de seleção de ingredientes) para ver qual deles consegue criar a melhor receita, mesmo quando a cozinha está bagunçada.

Aqui está o resumo da história, explicado de forma simples:

1. O Cenário: A Cozinha Caótica

Na vida real, os dados nem sempre são perfeitos. Às vezes, os ingredientes se misturam de uma forma que confunde o chef. No mundo estatístico, isso é chamado de separação.

Sem separação: É como cozinhar em uma cozinha organizada. Você consegue ver claramente quais ingredientes funcionam.
Com separação: É como se um ingrediente fosse tão forte que ele "domina" o prato sozinho, fazendo com que a receita matemática exploda e não dê mais para calcular nada. Isso é comum quando você tem poucos dados ou muitas variáveis.

2. Os 28 Concorrentes

Os pesquisadores testaram 28 técnicas diferentes. Podemos dividi-las em dois grandes grupos:

Os "Averiguadores Bayesianos" (BMA): Eles não escolhem apenas uma receita. Em vez disso, eles cozinham todas as receitas possíveis ao mesmo tempo, dando mais peso às que parecem mais promissoras e menos peso às ruins. É como ter um conselho de chefs experientes votando na melhor opção.
Os "Cortadores de Penalidade" (LASSO, Ridge, etc.): Eles são mais diretos. Eles pegam a receita completa e começam a cortar ingredientes até sobrar apenas os essenciais, usando uma "faca" matemática para zerar os que não são importantes.

3. O Grande Teste

Eles usaram 11 conjuntos de dados reais (como dados sobre saúde, eleições e astronomia) para simular 100 receitas diferentes para cada um. O objetivo era ver quem:

Acertava o sabor (estimativa precisa).
Não queimava a panela (estabilidade).
Fica pronto rápido (velocidade).

4. O Veredito: Quem Ganhou?

Quando a cozinha está organizada (Sem separação):

Os métodos Bayesianos levaram a melhor.

O Campeão: Um método chamado BMA com prior "Benchmark" (uma técnica específica de como pesar as receitas) foi o grande vencedor. Ele foi consistente, preciso e não errou quase nada.
A Lição: Quando os dados são "normais", confiar no conselho de todos os chefs (média de modelos) é melhor do que tentar adivinhar qual é o único ingrediente perfeito.

Quando a cozinha está bagunçada (Com separação):

Aqui, os métodos Bayesianos tradicionais começaram a tropeçar. Foi quando os Cortadores de Penalidade brilharam.

O Campeão: O LASSO (e sua versão suavizada) mostrou ser o mais robusto. Ele conseguiu lidar com a confusão dos ingredientes sem quebrar a receita.
O Herói Oculto: Um método chamado EB-local (uma versão inteligente do método Bayesiano) foi o único que se saiu bem em ambos os cenários. Ele é como um chef que sabe cozinhar tanto em uma cozinha de luxo quanto em um fogão a lenha desregulado.

Os Perdedores:

Os métodos antigos, como a "seleção passo a passo" (que adiciona ou remove ingredientes um por um baseado apenas em regras simples) e os testes de p-value tradicionais, foram os piores. Eles tendem a escolher ingredientes aleatórios, demoram muito e, quando a cozinha está bagunçada (separação), eles simplesmente param de funcionar.

5. A Conclusão Prática

Se você é um pesquisador ou cientista de dados tentando entender seus dados:

Se seus dados estão "limpos": Use métodos de Média de Modelos Bayesianos (especialmente o Benchmark ou Hyper-g). Eles dão a resposta mais completa e segura.
Se seus dados estão "sujos" ou complexos (com separação): Use métodos de Penalização como o LASSO. Eles são mais resistentes a erros e instabilidades.
Se você quer um "tudo-em-um": O método EB-local é uma aposta muito segura para quase qualquer situação.

Resumo final: Não existe uma "bala de prata" única. O segredo é saber qual ferramenta usar dependendo do estado da sua "cozinha" de dados. Este estudo nos dá o mapa para não se perder na escolha da ferramenta certa.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Comparing Variable Selection and Model Averaging Methods for Logistic Regression", apresentado em português:

Título: Comparação de Métodos de Seleção de Variáveis e Média de Modelos para Regressão Logística

Autores: Nikola Sekulovski et al. (Universidade de Amsterdã e Universidade de Washington)
Data: 9 de março de 2026

1. O Problema

A incerteza de modelo é um desafio central na inferência estatística, especialmente em regressões onde não é claro a priori quais preditores devem ser incluídos. Na regressão logística (usada para resultados binários), esse problema é agravado por duas questões específicas:

Incerteza de Variáveis: Com $p$ preditores candidatos, existem $2^p$ modelos possíveis, tornando a seleção manual ou baseada em critérios simples (como stepwise) propensa a erros e instabilidade.
Separação (Separability): Ocorre quando uma combinação linear de preditores classifica perfeitamente o resultado. Isso leva à inexistência de estimativas de máxima verossimilhança únicas, causando instabilidade numérica e inferência inválida, especialmente em amostras pequenas ou cenários de alta dimensionalidade ( $p \approx n$ ou $p > n$ ).

Embora existam 28 métodos estabelecidos para lidar com essa incerteza (abordagens Bayesianas e de Verossimilhança Penalizada), não havia uma avaliação sistemática e comparativa de seu desempenho sob condições realistas, incluindo a presença de separação.

2. Metodologia

Os autores conduziram um estudo de simulação pré-registrado (disponível no OSF) comparando 28 métodos distintos.

Dados e Design:
- Utilizaram 11 conjuntos de dados empíricos reais de diversas áreas (medicina, genética, ciências sociais, astronomia), cobrindo uma faixa variada de tamanhos de amostra ( $n$ ) e número de preditores ( $p$ ), incluindo cenários de alta dimensionalidade.
- O processo de geração de dados (DGP) envolveu a simulação de 100 resultados binários para cada conjunto de dados empírico, mantendo a matriz de preditores fixa.
- Separação: O estudo monitorou ativamente a ocorrência de separação. Dos 1.100 conjuntos de dados simulados, 42% exibiram separação.
- Análise: Os resultados foram estratificados e analisados separadamente para conjuntos com e sem separação.
Métodos Avaliados:
- Métodos Bayesianos (Model Averaging - BMA): Focados no pacote BAS e outros, utilizando diversas especificações de priores (g-priors fixos como $g=n$ , $g=4$ , $g=\max(n, p^2)$ ; priores adaptativos como Hyper-g, EB-local, EB-global; e priores robustos/intrínsecos).
- Métodos de Verossimilhança Penalizada (Frequentistas): LASSO, Ridge, Elastic Net, SCAD, MCP, Induced Smoothed LASSO e a regressão logística reduzida de viés de Firth.
- Métodos Clássicos: Seleção baseada em valores-p ( $p < 0.05$ , $p < 0.005$ ) e procedimentos stepwise (forward, backward, both).
Métricas de Desempenho:
- Estimação Pontual: Erro Quadrático Médio (RMSE).
- Estimação de Intervalos: Pontuação de Intervalo Médio (MIS).
- Seleção de Modelo: Área sob a Curva Precisão-Revocação (AUPRC).
- Previsão: Pontuação Brier.
- Outros: Tempo de CPU e Taxa de Falha (erros de convergência).

3. Principais Contribuições

Avaliação Abrangente e Pré-registrada: É a comparação mais extensa até o momento de métodos de seleção de variáveis para regressão logística, cobrindo 28 abordagens em cenários empíricos realistas.
Distinção Crítica sobre Separação: O estudo revela que o desempenho dos métodos varia drasticamente dependendo da presença de separação, um fator frequentemente ignorado em comparações anteriores.
Replicação Conceitual: Estende os achados de Porwal e Raftery (2024), que focaram em regressão linear, para o contexto não-linear da regressão logística.
Transparência: Disponibilização completa de código, dados e plano de análise, incluindo desvios do pré-registro justificados pela descoberta da importância da separação.

4. Resultados Chave

A. Cenários SEM Separação

Melhores Desempenhos: Métodos de Média de Modelos Bayesianos (BMA) baseados em priores $g$ $g$ adaptativos ou bem especificados dominaram.
- O prior Benchmark ( $g = \max(n, p^2)$ ) obteve o melhor desempenho geral.
- Seguidos por: BIC.BAS, CCH, Hyper-g/n, Beta-prime e $g = \sqrt{n}$ .
Desempenho dos Penalizados: O Induced Smoothed LASSO foi o melhor entre os métodos frequentistas (8º lugar geral), seguido por MCP e SCAD. O LASSO padrão e o Ridge tiveram desempenho inferior aos métodos Bayesianos.
Piores Desempenhos: Métodos baseados em valores-p e stepwise foram consistentemente os piores, com taxas de falha e erros de estimação elevados.

B. Cenários COM Separação

Mudança de Paradigma: A separação degrada severamente o desempenho de muitos priores Bayesianos (especialmente os baseados em $g$ fixo) e métodos de seleção clássicos.
Melhores Desempenhos:
- Abordagens Penalizadas: O LASSO, Elastic Net, SCAD, MCP e Ridge mostraram-se os mais estáveis e robustos. O Induced Smoothed LASSO ficou em 1º lugar (embora com uma taxa de falha de 28,5% em casos extremos).
- Bayesianos Robustos: O prior EB-local (Empirical Bayes Local) e o Spike-and-Slab mantiveram desempenho competitivo e estável, sendo os únicos métodos Bayesianos a não sofrerem colapso significativo na estimação pontual.
Falhas: Métodos como stepwise e baseados em valores-p apresentaram taxas de falha catastróficas (até 71% em alguns casos) devido à incapacidade de lidar com a singularidade da matriz de informação.

C. Eficiência Computacional

Métodos Bayesianos (MCMC) tendem a ser mais lentos, mas a maioria convergiu com sucesso.
Métodos stepwise foram os mais lentos em geral.
Métodos penalizados (LASSO, etc.) são computacionalmente eficientes.

5. Significado e Recomendações Práticas

O estudo oferece diretrizes claras para pesquisadores aplicados:

Se a separação é improvável (amostras grandes, $p \ll n$ ): Utilize Média de Modelos Bayesianos (BMA) com priores adaptativos, especificamente o prior Benchmark ( $g = \max(n, p^2)$ ) ou EB-local. Eles oferecem a melhor combinação de precisão de estimação, calibração de intervalos e quantificação da incerteza do modelo.
Se a separação é provável (amostras pequenas, $p \approx n$ , ou dados desbalanceados):
- Priorize métodos de Verossimilhança Penalizada (como LASSO, Elastic Net ou SCAD) para estabilidade e previsibilidade.
- Se a quantificação da incerteza do modelo for essencial, o prior EB-local é a escolha Bayesiana mais robusta, mantendo desempenho estável mesmo sob separação.
Evitar: Métodos baseados em seleção por valores-p ( $p < 0.05$ ) e procedimentos stepwise devem ser evitados, pois apresentam desempenho inferior em todas as métricas e alta taxa de falha em cenários complexos.

Conclusão: A incerteza de modelo na regressão logística não pode ser tratada com uma única solução universal. A escolha do método deve ser guiada pela estrutura dos dados (especificamente a presença de separação). A combinação de simulações baseadas em dados reais e análise pré-registrada fornece uma base robusta para a seleção de métodos em pesquisa empírica moderna e aprendizado de máquina.