O Problema: O Problema da "Previsão do Tempo"

Imagine que você é um cientista tentando prever quais moléculas farão bons medicamentos. Você constrói um modelo de computador para fazer isso.

Agora, imagine que você treina esse modelo em um conjunto específico de dados. Ele prevê que a Molécula A é uma "vencedora" (ela funcionará como um medicamento).

Mas então, você decide retreinar o modelo. Você não muda as regras nem a fonte de dados; você apenas usa uma amostragem aleatória ligeiramente diferente desses mesmos dados (como tirar uma nova mão de cartas do mesmo baralho).

O Resultado Chocante:
Quando você retreina o modelo, ele de repente diz que a Molécula A é uma "perdedora" e a Molécula B é a nova vencedora.

O artigo chama isso de "Flutuação de Previsão entre Amostras" (Cross-Sample Prediction Churn). É a taxa na qual o modelo inverte sua decisão apenas porque você embaralhou ligeiramente os dados de treinamento.

A Descoberta do Artigo: Em 9 testes diferentes de química, a precisão geral do modelo mudou apenas um pouco (cerca de 1–4%). No entanto, a decisão específica para moléculas individuais inverteu-se 8% a 22% das vezes.
A Analogia: Imagine um juiz que é 95% preciso no geral. Mas se você pedir a ele para julgar 100 casos específicos, e pedir que ele rejulgue os mesmos 100 casos após fazer uma pausa diferente para o almoço, ele pode mudar o veredito em 20 deles. Isso é muita instabilidade para os casos específicos que mais importam.

Por Que as "Soluções" Atuais Não Funcionam

Cientistas tentaram consertar isso usando ferramentas padrão de "incerteza", como:

Deep Ensembles (Conjuntos Profundos): Treinar 5 modelos diferentes e calcular a média de suas respostas.
MC Dropout: Desligar partes do modelo aleatoriamente durante os testes para ver o quanto a resposta oscila.
Stochastic Weight Averaging (Média Estocástica de Pesos): Suavizar a matemática interna do modelo.

O Veredito do Artigo: Essas ferramentas são como tentar consertar uma câmera trêmula ajustando o foco da lente (as configurações internas do modelo) enquanto a câmera ainda está sendo segurada por uma mão trêmula (os dados).

Esses métodos consertam a "lente", mas ignoram a "mão trêmula".
O artigo descobriu que esses métodos não reduziram a flutuação. Eles não impediram o modelo de inverter suas decisões quando os dados mudaram.

A Solução: Dois Novos Métodos

Os autores propõem dois métodos que realmente funcionam porque abordam a "mão trêmula" (os dados) em vez de apenas a "lente".

1. K-Bootstrap Bagging (A Abordagem do "Comitê")

Como funciona: Em vez de treinar um modelo, você treina um comitê inteiro de modelos (por exemplo, 5 deles). Cada membro do comitê é treinado em uma amostra aleatória ligeiramente diferente dos dados. Quando você precisa de uma resposta, você pergunta a todo o comitê e toma a média dos votos.
O Resultado: Isso reduz a taxa de inversão em 40–54%.
O Problema: Requer 5 vezes mais poder de computação para treinar 5 modelos em vez de 1.

2. Twin-Bootstrap (A Abordagem das "Irmãs Gêmeas")

Como funciona: Esta é a principal invenção do artigo. Imagine treinar duas redes neurais "gêmeas" ao mesmo tempo.
- O Gêmeo A aprende da Amostra X.
- O Gêmeo B aprende da Amostra Y (uma amostra ligeiramente diferente).
- O Segredo: Toda vez que eles aprendem, os gêmeos são forçados a conversar entre si. Se discordarem sobre uma molécula, eles recebem uma "penalidade" (uma perda de consistência) para forçá-los a concordar.
O Resultado:
- Reduz a taxa de inversão em 45% adicionais em comparação com o método padrão de comitê.
- Consegue isso com apenas 2x o poder de computação (treinando dois gêmeos em vez de cinco modelos separados).
- Mantém a precisão tão alta quanto o modelo original.

Por Que Isso Importa (O Impacto no "Mundo Real")

O artigo argumenta que, em laboratórios científicos, as decisões são tomadas molécula por molécula.

O Cenário: Um cientista usa o modelo para escolher as 10 principais moléculas para sintetizar em um laboratório.
O Risco: Se o modelo tiver alta "flutuação", o cientista pode escolher a Molécula #1 hoje. Mas se ele retreinar o modelo amanhã (o que acontece frequentemente na ciência), o modelo pode dizer: "Na verdade, a Molécula #1 é ruim, vamos tentar a Molécula #10".
O Custo: Isso desperdiça tempo e dinheiro. O laboratório pode sintetizar a molécula errada, ou desperdiçar esforço reavaliando a mesma lista.

O artigo sugere que os relatórios científicos devem sempre incluir uma "Pontuação de Flutuação" ao lado da precisão. Apenas saber que um modelo é "90% preciso" não é suficiente; você precisa saber se essa precisão é estável ou se o modelo está apenas chutando aleatoriamente toda vez que você atualiza a página.

Resumo

O Problema: Modelos de IA científica frequentemente invertem suas previsões específicas quando retreinados em dados ligeiramente diferentes, mesmo que sua pontuação geral pareça boa.
O Jeito Antigo: Truques padrão para medir incerteza (como conjuntos) não resolvem esse problema específico.
O Novo Jeito:
1. Bagging: Treinar um grande comitê de modelos (funciona bem, mas é caro).
2. Twin-Bootstrap: Treinar dois modelos juntos e forçá-los a concordar (funciona ainda melhor e é mais barato).
O Objetivo: Tornar a IA científica confiável o suficiente para que um cientista possa confiar na molécula específica que ela recomenda, sabendo que a recomendação não mudará apenas porque eles executaram o código de treinamento mais uma vez.

Resumo Técnico: Redução da Instabilidade de Previsão entre Amostras em Aprendizado de Máquina Científico

Definição do Problema: Instabilidade de Previsão entre Amostras

As benchmarks de aprendizado de máquina (ML) científico geralmente relatam desempenho preditivo agregado (por exemplo, precisão, AUC), mas falham em relatar a estabilidade de previsões individuais quando o modelo é retreinado em uma amostragem diferente da mesma população de treinamento. Os autores definem instabilidade de previsão entre amostras como a fração de previsões de teste que mudam de rótulo de classe entre dois modelos treinados em bootstraps independentes do mesmo conjunto de treinamento.

Embora a precisão agregada frequentemente permaneça estável (variando apenas 1,3–4,2 pontos percentuais entre retreinamentos), os autores demonstram que previsões individuais são altamente instáveis. Em nove benchmarks de química, 8,0% a 21,8% das moléculas de teste invertem sua classe prevista entre retreinamentos. Essa "lacuna de estabilidade por previsão" é crítica para fluxos de trabalho operacionais em laboratórios de malha fechada, otimização bayesiana e triagem virtual, onde as saídas do modelo ditam diretamente decisões experimentais (por exemplo, qual molécula sintetizar). Alta instabilidade implica que as moléculas específicas selecionadas para síntese ou triagem são sensíveis à amostragem aleatória dos dados de treinamento, tornando o fluxo de trabalho não reprodutível.

Metodologia e Soluções Propostas

O artigo avalia técnicas padrão de incerteza do lado dos parâmetros contra métodos do lado dos dados para determinar quais podem reduzir essa instabilidade.

1. Falha das Técnicas do Lado dos Parâmetros

Os autores testam três métodos padrão que amostram sobre os pesos do modelo com dados fixos:

Deep Ensembles (Conjuntos Profundos): Média de previsões de $K$ modelos com inicializações diferentes.
Dropout de Monte Carlo (MC): Média de passagens forward estocásticas de um único modelo.
Média Estocástica de Pesos (SWA): Média de pesos de uma única trajetória de treinamento.

Resultado: Esses métodos não reduzem consistentemente a instabilidade entre amostras. Através dos nove benchmarks, eles deslocam a taxa de inversão de classe de $-22,3\%$ a $+12,5\%$ em relação à Minimização do Risco Empírico (ERM), sem um sinal consistente de melhoria. Os autores argumentam que isso ocorre porque esses métodos abordam a variância dos parâmetros mantendo o eixo dos dados constante, enquanto a fonte dominante de variância no ML científico com conjuntos de dados pequenos é a própria amostragem dos dados.

2. Solução do Lado dos Dados A: Bagging K-Bootstrap

A abordagem clássica de Bagging (Breiman, 1996) treina $K$ modelos em $K$ bootstraps independentes do conjunto de treinamento e média suas previsões.

Desempenho: Reduz a instabilidade em 40–54% em todos os conjuntos de dados em comparação com o ERM.
Custo: Requer $K \times$ o poder computacional de uma única execução de treinamento ERM (por exemplo, $5\times$ para $K=5$ ).
Precisão: Alcança essa redução sem custo para a precisão agregada.

3. Solução do Lado dos Dados B: Twin-Bootstrap

Os autores propõem o Twin-Bootstrap, um método que treina duas redes ( $\theta_A, \theta_B$ ) conjuntamente em bootstraps independentes ( $S_A, S_B$ ) do conjunto de treinamento.

Mecanismo: As redes são treinadas para minimizar uma perda combinada consistindo de entropia cruzada padrão em seus respectivos bootstraps mais uma perda de consistência de divergência KL simétrica ( $L_{cons}$ ) entre suas previsões na união dos mini-lotes.
Sobreposição de Dados: Devido à amostragem bootstrap com reposição, os dois bootstraps compartilham aproximadamente 40% dos índices de treinamento em expectativa. A perda de consistência atua sobre essa sobreposição, enquanto as perdas de entropia cruzada especializam-se no restante não compartilhado.
Hiperparâmetro ( $\lambda$ ): O peso da perda de consistência é selecionado em um conjunto de desenvolvimento (BACE) usando uma regra que maximiza $\lambda$ mantendo a precisão dentro de 0,02 da linha de base ERM. O valor selecionado é $\lambda=300$ para a arquitetura MLP padrão.
Desempenho: Em 2 $\times$ ERM computacional correspondente (treinamento de duas redes), o twin-bootstrap reduz a instabilidade em mais 45% mediana além do bagging com $K=2$ . Ele iguala o desempenho do bagging com $K=5$ (que requer $5\times$ computação) na média de classificação.

Resultados Chave

Magnitude da Instabilidade

Taxas de Instabilidade: Em 9 benchmarks de química (MoleculeNet, TDC ADME/Tox, ciência dos materiais), a instabilidade entre amostras inverte 8,0–21,8% das previsões de teste.
Estabilidade Agregada: A precisão agregada move-se apenas 1,3–4,2 pontos percentuais entre retreinamentos, ocultando a instabilidade significativa por previsão.
Instabilidade da Classe Minoritária: Em conjuntos de dados desbalanceados, as previsões da classe minoritária são 2–4 $\times$ mais instáveis do que as da classe majoritária, afetando as previsões "ativas" ou "tóxicas" mais críticas.

Desempenho Comparativo

Lado dos Parâmetros vs. Lado dos Dados: Deep ensembles, dropout MC e SWA falham em reduzir a instabilidade consistentemente. Bagging e Twin-Bootstrap são os únicos métodos que reduzem a instabilidade de forma confiável.
Eficiência: O Twin-Bootstrap alcança redução de instabilidade comparável ao Bagging com $5\times$ computação ( $K=5$ ) enquanto requer apenas 2 $\times$ ERM computacional.
Acordo Distribucional: O Twin-Bootstrap reduz a divergência KL simétrica (desacordo distribucional) por um fator adicional de $\sim9\times$ além do Bagging- $K=5$ , indicando estabilização superior da distribuição de probabilidade completa, não apenas do argmax.

Impacto a Montante

Otimização Bayesiana (BO): Em simulações de BO, o twin-bootstrap aumenta significativamente a sobreposição Jaccard das 10 moléculas selecionadas no topo entre retreinamentos (por exemplo, de 0,03 para 0,68 no conjunto de dados AMES). Reduz o desvio padrão entre trajetórias do valor adquirido final melhor em 34–100% em tarefas de regressão.
Fluxo de Trabalho de Triagem: Classificar exemplos de teste por sua instabilidade estimada (usando um único retreinamento extra) permite que os praticantes identifiquem as previsões mais frágeis. Revisar os 30% superiores das previsões classificadas por instabilidade captura 58–100% de todas as inversões de classe, superando a entropia preditiva.

Generalização

O método generaliza através de arquiteturas e tarefas:

Arquiteturas: Funciona em MLPs, Redes de Isomorfismo de Grafos (GIN) e backbones pré-treinados (ChemBERTa, ResNet-50).
Ajuste de Hiperparâmetros: Embora o valor ótimo de $\lambda$ mude com a arquitetura (por exemplo, $\lambda=300$ para MLP, $\lambda=10$ para GIN/ChemBERTa), a regra de seleção (maximizar $\lambda$ sujeito a uma pequena queda de precisão no conjunto de desenvolvimento) transfere-se inalterada.
Tarefas: A classificação dos métodos (Twin-Bootstrap $\approx$ Bagging- $K=5$ > ERM) mantém-se válida tanto para tarefas de classificação quanto de regressão.

Significado e Alegações

O artigo argumenta que a instabilidade de previsão entre amostras é uma métrica ausente na avaliação de benchmarks de ML científico. Sem relatar essa métrica, métodos de incerteza do lado dos parâmetros (ensembles, dropout) e métodos do lado dos dados (bagging, twin-bootstrap) parecem indistinguíveis em métricas padrão de precisão, apesar de diferirem fundamentalmente em sua capacidade de estabilizar decisões operacionais.

Os autores afirmam que:

A instabilidade é a métrica de estabilidade operacional: Em laboratórios de malha fechada e triagem virtual, a reprodutibilidade das moléculas específicas selecionadas é mais crítica do que a precisão agregada.
A reamostragem de dados é a alavanca chave: A estabilidade é determinada mais por como o procedimento de treinamento reamostra os dados do que pela própria classe do modelo.
O Twin-Bootstrap oferece uma receita prática: Fornece um método computacionalmente eficiente ( $2\times$ ERM) para projetar estabilidade entre amostras no momento do treinamento sem alterar o pipeline de implantação, simplesmente ajustando um único hiperparâmetro em um conjunto de desenvolvimento.

O artigo conclui que reduzir a instabilidade tem consequências operacionais diretas, cortando trabalho experimental desperdiçado e tornando as decisões de triagem computacional reprodutíveis, embora note que baixa instabilidade não garante correção (um modelo estavelmente errado ainda está errado).

Reducing cross-sample prediction churn in scientific machine learning