Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA super inteligente, capaz de responder a quase qualquer pergunta ou identificar qualquer objeto em uma foto. O problema é que, às vezes, esse assistente fica confiante demais mesmo quando está errado. Ele pode olhar para um desenho de um gato e dizer com 100% de certeza que é uma foto real, ou tentar classificar um objeto estranho que nunca viu antes.

A Classificação Seletiva é a ideia de ensinar esse assistente a dizer: "Eu não sei" ou "Não tenho certeza", em vez de chutar uma resposta errada. É como um médico que, ao ver um sintoma muito estranho, prefere encaminhar o paciente a um especialista em vez de tentar diagnosticar sozinho e errar.

O artigo que você leu, "Saiba Quando Se Abster: Classificação Seletiva Otimizada com Razões de Verossimilhança", propõe uma nova e brilhante maneira de fazer isso, especialmente quando o mundo muda e o assistente encontra situações que ele não viu durante o treinamento.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O Assistente que Chuta Tudo

Normalmente, os modelos de IA são treinados em um ambiente controlado (como uma sala de aula). Mas, quando colocados no mundo real (o "exame final"), as coisas mudam.

Cenário: Você treinou o modelo para reconhecer fotos de gatos reais.
O Choque: No teste, ele vê um gato pintado em uma tela de arte ou um gato desenhado em um esboço.
O Erro: O modelo pode não perceber que a "iluminação" ou o "estilo" mudou (isso é chamado de Covariate Shift). Ele continua chutando uma resposta, muitas vezes errada, porque não sabe que o ambiente mudou.

2. A Solução Antiga: O "Sistema de Confiança" Imperfeito

Métodos antigos tentam medir a confiança do modelo. É como perguntar ao assistente: "Você tem certeza?".

Se ele diz "99% de certeza", você aceita.
Se ele diz "51% de certeza", você rejeita.
O Problema: Às vezes, o assistente é "confiante e errado". Ele pode ter 90% de certeza de que um desenho é uma foto real, mas estar completamente enganado. Os métodos antigos não conseguem detectar essa "confiança falsa" quando o tipo de imagem muda.

3. A Nova Ideia: O Detetive de "Padrões" (Teorema de Neyman-Pearson)

Os autores usaram um conceito clássico da estatística (o Teorema de Neyman-Pearson) para criar um novo sistema. Em vez de apenas perguntar "qual é a sua confiança?", eles perguntam: "O quanto isso se parece com algo que você acertou no passado, comparado com algo que você errou?"

Imagine que você tem dois livros de referência:

Livro dos Acertos: Contém exemplos de coisas que o modelo acertou.
Livro dos Erros: Contém exemplos de coisas que o modelo errou.

Quando chega uma nova imagem (o "suspeito"), o novo sistema não olha apenas para a resposta final. Ele olha para a imagem e pergunta:

"Esta imagem se parece mais com os exemplos do Livro dos Acertos?"
"Ou se parece mais com os exemplos do Livro dos Erros?"

Se a imagem estiver "mais perto" (no espaço matemático) dos acertos do que dos erros, o sistema diz: "Pode responder!".
Se a imagem estiver "mais perto" dos erros, ou no meio do nada, o sistema diz: "Abstenha-se! Não responda!".

4. As Duas Novas Ferramentas (MDS e KNN)

O papel propõe duas maneiras inteligentes de medir essa "distância":

O "GPS" (MDS - Distância de Mahalanobis): Imagine que os acertos formam um "bairro" e os erros formam outro. O GPS calcula não apenas a distância em linha reta, mas leva em conta a "geografia" do bairro (se é um bairro plano ou montanhoso). Ele compara: "Quão longe estou do centro do bairro dos acertos versus do centro do bairro dos erros?"
O "Vizinho" (KNN - K-Vizinhos Mais Próximos): Imagine que você está em uma festa. Você olha para as pessoas ao seu redor. Se a maioria das pessoas ao seu lado são "amigos" (acertos), você está seguro. Se a maioria são "estranhos" (erros), você deve se afastar. O método KNN olha para os vizinhos mais próximos na base de dados e decide com base neles.

5. O Truque Mestre: A Combinação Linear

Os autores descobriram que, às vezes, o "GPS" é ótimo, e às vezes, o "Vizinho" é melhor. Então, eles criaram uma fórmula mágica que combina os dois.
É como ter um conselho de especialistas: um olha a geografia (MDS) e outro olha as pessoas ao redor (KNN). Eles somam suas opiniões. Se ambos concordam que é um "acerto", a confiança é máxima. Se um diz "acerto" e o outro diz "erro", o sistema fica cauteloso e pode decidir se abster.

6. Por que isso é importante? (O Cenário de "Covariate Shift")

A grande vantagem dessa abordagem é que ela funciona muito bem quando o mundo muda (como quando você sai de fotos reais para desenhos ou pinturas).

Métodos antigos falham porque eles esperam que o mundo seja sempre igual ao treinamento.
O método novo funciona porque ele aprende a diferença entre "acertar" e "errar" independentemente de como a imagem se parece. Ele entende que, mesmo em um desenho, ele pode acertar (se o desenho for claro) ou errar (se for ambíguo).

Resumo da Ópera

Os autores criaram um "sistema de freio inteligente" para IAs. Em vez de deixar a IA chutar respostas arriscadas quando o ambiente muda, eles ensinaram a IA a comparar a nova situação com seus históricos de acertos e erros.

Se parece com um acerto: A IA responde.
Se parece com um erro ou é ambíguo: A IA diz "Não sei" e deixa um humano resolver.

Isso torna os sistemas de IA muito mais seguros, confiáveis e úteis no mundo real, onde as surpresas são constantes. Eles provaram isso testando em imagens (como fotos vs. desenhos) e em textos, mostrando que sua IA "sabe quando calar a boca" muito melhor do que as anteriores.

Each language version is independently generated for its own context, not a direct translation.

Título: Saber Quando se Abster: Classificação Seletiva Ótima com Razões de Verossimilhança

1. O Problema

A classificação seletiva visa melhorar a confiabilidade de modelos de aprendizado de máquina permitindo que eles "se abstenham" (não façam uma previsão) em entradas onde a incerteza é alta. Embora métodos existentes utilizem estimativas heurísticas de confiança (como probabilidade máxima de softmax, margens de logits ou dropout de Monte Carlo), duas lacunas principais persistem:

Falta de Diretrizes Principais: Não há uma orientação teórica geral e unificada para projetar funções de seleção eficazes para redes neurais profundas modernas.
Desvio de Covariância (Covariate Shift): A maioria das avaliações ocorre em cenários i.i.d. (independentes e identicamente distribuídos). Poucos trabalhos exploram a classificação seletiva sob desvio de covariância, onde a distribuição de entrada muda no teste (ex: fotos reais vs. pinturas), mas o espaço de rótulos permanece o mesmo. Este cenário é crucial para aplicações modernas, como Modelos de Linguagem e Visão (VLMs), onde os rótulos são grandes e variáveis, tornando a maioria das mudanças de distribuição do tipo covariância.

2. Metodologia e Fundamentação Teórica

Os autores propõem uma nova perspectiva baseada no Lema de Neyman-Pearson, um resultado clássico da estatística que caracteriza a regra de rejeição ótima como um teste de razão de verossimilhança.

Formulação como Teste de Hipótese:
- $H_0$ : O classificador faz uma previsão correta.
- $H_1$ : O classificador faz uma previsão incorreta.
- O objetivo é decidir, para cada entrada $x$ , se aceita $H_0$ ou rejeita em favor de $H_1$ .
- O Lema de Neyman-Pearson estabelece que a regra ótima para minimizar o erro de tipo II (aceitar uma previsão errada) dado um limite de erro de tipo I (rejeitar uma previsão correta) é baseada na razão de verossimilhança:
  $s(x) = \frac{p_c(x)}{p_w(x)}$
  Onde $p_c(x)$ é a densidade de probabilidade de uma previsão correta e $p_w(x)$ de uma incorreta.
Unificação de Métodos Existentes:
O trabalho demonstra que scores de confiança comuns, como MSP (Maximum Softmax Probability) e RLog (Raw Logits), são aproximações ou transformações monótonas dessa razão de verossimilhança sob certas suposições (ex: calibração do classificador).
Novas Métricas Propostas:
Para superar a dependência de calibração e lidar melhor com desvios de distribuição, os autores propõem duas novas métricas baseadas em distância que estimam explicitamente as distribuições de amostras corretas e incorretas no espaço de características:
1. $\Delta$ -MDS (Mahalanobis Distance): Calcula a diferença entre a distância de Mahalanobis de uma amostra em relação à média de características de amostras corretamente classificadas e a média de amostras incorretamente classificadas. Assume uma distribuição Gaussiana.
2. $\Delta$ -KNN (k-Nearest Neighbors): Calcula a diferença entre os log-distâncias para os $k$ vizinhos mais próximos em conjuntos de características de amostras corretas e incorretas. É um método não paramétrico.
Combinação Linear:
Os autores propõem combinar linearmente scores baseados em distância (como $\Delta$ -MDS ou $\Delta$ -KNN) com scores baseados em logits (como RLog). Teoricamente, essa combinação também preserva a otimalidade de Neyman-Pearson sob certas condições de densidade.

3. Principais Contribuições

Framework Teórico Unificado: Introduz pela primeira vez um framework baseado no Lema de Neyman-Pearson para definir otimalidade em classificação seletiva via testes de razão de verossimilhança.
Novos Seletores: Propõe dois novos métodos de seleção ( $\Delta$ -MDS e $\Delta$ -KNN) que explicitamente modelam a distinção entre previsões corretas e erradas, superando as limitações de métodos tradicionais que tratam apenas a distribuição "in-distribution".
Avaliação Abrangente sob Desvio de Covariância: Realiza uma avaliação extensiva em tarefas de visão e linguagem, focando especificamente em cenários de desvio de covariância (onde a aparência dos dados muda, mas os rótulos não), um cenário negligenciado na literatura anterior.
Desempenho Superior: Demonstra que os métodos propostos superam consistentemente as linhas de base existentes (MSP, MDS, KNN, RLog, etc.) em modelos supervisionados tradicionais e em VLMs poderosos como o CLIP.

4. Resultados Experimentais

Os experimentos foram conduzidos em:

Visão Computacional: ImageNet-1K e suas variantes com desvio de covariância (ImageNet-R, ImageNet-A, ObjectNet, ImageNet-V2, ImageNet-Sketch, ImageNet-C).
Modelos Testados: CLIP (Zero-shot VLM), EVA (Supervisionado) e ResNet50.
Processamento de Linguagem: Amazon Reviews (com DistilBERT).
Métricas: AURC (Área sob a Curva de Risco-Cobertura) e NAURC (Normalizada).

Resultados Chave:

Redução de Risco: Os métodos $\Delta$ -MDS e $\Delta$ -KNN reduziram o AURC médio em aproximadamente 50% em comparação com suas contrapartes tradicionais (MDS e KNN) no modelo CLIP.
Combinações Híbridas: A combinação linear $\Delta$ -KNN-RLog e $\Delta$ -MDS-RLog alcançou o melhor desempenho geral.
- Para o CLIP (aprendizado contrastivo), a combinação $\Delta$ -KNN-RLog foi a melhor, sugerindo que métodos não paramétricos funcionam melhor quando as suposições Gaussianas não se aplicam perfeitamente.
- Para o EVA (aprendizado supervisionado), a combinação $\Delta$ -MDS-RLog foi superior, alinhando-se com a conexão teórica entre classificadores softmax e Análise Discriminante Gaussiana.
Robustez: Os métodos mantiveram desempenho superior mesmo com quantidades muito pequenas de dados de validação (até 0.1% dos dados rotulados para $\Delta$ -KNN).
Linguagem: No conjunto de dados Amazon Reviews, a combinação $\Delta$ -MDS-MSP obteve os melhores resultados, validando a eficácia de combinar scores de distância e logits.

5. Significado e Conclusão

Este trabalho oferece uma mudança de paradigma na classificação seletiva, movendo-se de heurísticas empíricas para uma fundamentação estatística rigorosa baseada no Lema de Neyman-Pearson.

Relevância Prática: A abordagem é particularmente valiosa para a era dos Modelos de Fundação (Foundation Models) e VLMs, onde os desvios de covariância são comuns e a capacidade de abster-se de previsões incertas é vital para a segurança e confiabilidade.
Generalização: Ao tratar todas as mudanças de distribuição através do par $(p_c, p_w)$ (correto vs. incorreto) sem distinguir explicitamente entre tipos de desvio (semântico vs. covariância), o método oferece uma solução robusta e adaptável.
Impacto Futuro: O código é público, e o framework abre caminho para aplicações em outras tarefas preditivas onde a incerteza é crítica, como segmentação semântica e previsão de séries temporais, além de extensões para modelos generativos (LLMs).

Em suma, o artigo demonstra que utilizar a razão de verossimilhança entre previsões corretas e incorretas como base para a seleção de dados é uma estratégia superior e teoricamente fundamentada para melhorar a robustez de modelos de IA em cenários do mundo real.