From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um detetive de inteligência artificial trabalhando para você. O trabalho dele é olhar para uma foto e dizer: "Isso é um cachorro" ou "Isso é um gato".

Até aqui, tudo bem. Mas e se a foto for de algo que o detetive nunca viu antes? Um alienígena? Um foguete? Ou uma foto borrada de uma nuvem que parece um cachorro?

Aqui está o problema que este artigo resolve:

1. O Dilema do Detetive (O Problema)

Atualmente, os cientistas tratam dois problemas separadamente:

Problema A (Detectar o Estranho): O detetive precisa saber quando algo é "fora do comum" (como um alienígena) e dizer: "Ei, eu não sei o que é isso, não tentei adivinhar!".
Problema B (Não Erro no Familiar): O detetive precisa saber quando ele está confiante demais em algo errado. Se ele vê uma nuvem e diz "100% de certeza que é um cachorro", mas na verdade é uma nuvem, ele cometeu um erro grave.

O artigo diz: "Ei, vocês estão tratando isso como duas coisas diferentes, mas na vida real, elas são a mesma coisa!"
Um sistema confiável precisa fazer as duas coisas ao mesmo tempo: saber quando algo é estranho E saber quando ele está prestes a errar em algo comum.

2. A Solução: O "Duplo Filtro" (A Metáfora)

Os autores propõem que, em vez de ter apenas uma régua para medir a confiança, o sistema deve usar duas réguas (ou dois filtros) ao mesmo tempo.

Pense em um filtro de segurança em um aeroporto:

Filtro 1 (O Portão de Entrada): "Isso é um passageiro comum (In-Distribution) ou é um estranho (Out-of-Distribution)?" Se for um estranho, o sistema para e diz: "Não entre".
Filtro 2 (O Detetor de Mentiras): "Ok, você é um passageiro comum. Mas sua história faz sentido? Você parece muito confiante, mas está mentindo?" Se a história não fizer sentido, o sistema diz: "Não confio nessa resposta, melhor não responder".

A Grande Inovação:
Antes, os cientistas usavam apenas um filtro. Eles diziam: "Se a confiança for alta, aceite; se for baixa, rejeite".
O novo método usa dois filtros juntos. Isso cria um mapa muito mais preciso. É como ter um guarda que olha o seu passaporte (Filtro 1) e, ao mesmo tempo, olha no seu rosto para ver se você está nervoso (Filtro 2). Juntos, eles pegam muito mais erros do que se olhassem apenas uma coisa.

3. As Novas Regras do Jogo (As Métricas)

Como medir se esse novo sistema é bom? Os autores criaram duas novas "notas" para os testes:

DS-F1 e DS-AURC: Em vez de dar uma nota apenas para "quão bem ele detecta aliens" ou "quão bem ele não erra em cachorros", essas notas avaliam como ele lida com os dois ao mesmo tempo.
A Analogia do Esporte: Imagine um atleta que é ótimo em correr (detectar aliens) mas péssimo em saltar (evitar erros). As notas antigas diziam: "Ele é um ótimo corredor!". As novas notas dizem: "Ele é um atleta completo? Não, porque ele falha no salto". O novo sistema quer atletas completos.

4. O Novo Treinamento: "SURE+"

Os autores não apenas criaram as regras, eles treinaram um novo "atleta" chamado SURE+.

Eles pegaram técnicas de treino que já existiam (como misturar imagens para o modelo aprender melhor, como se fosse um professor que usa exemplos variados).
Eles combinaram tudo isso de uma forma mais inteligente e simples.
O Resultado: O SURE+ é como um detetive que foi treinado para ser cético. Ele não aceita qualquer coisa. Ele sabe quando algo é estranho e sabe quando está prestes a errar, tornando-o muito mais seguro para usar em situações reais (como detectar incêndios ou dirigir carros autônomos).

Resumo em uma Frase

Este artigo diz que, para criar uma Inteligência Artificial confiável, não basta apenas ensinar o modelo a reconhecer coisas; é preciso ensinar ele a saber quando não sabe e a duvidar de si mesmo quando a situação é estranha, usando um sistema de "dupla verificação" que é muito mais seguro do que os métodos antigos.

Em suma: É a diferença entre um detetive que acha que sabe tudo, e um detetive experiente que diz: "Isso parece estranho, ou eu estou confuso, então é melhor eu não responder nada para não causar um acidente".

Each language version is independently generated for its own context, not a direct translation.

Título: De Más Classificações a Outliers: Avaliação Conjunta de Confiabilidade em Classificação

1. O Problema

A implantação de classificadores de aprendizado de máquina em ambientes do mundo real (especialmente em domínios críticos de segurança) exige mais do que alta precisão em benchmarks tradicionais. Um sistema confiável deve ser capaz de:

Detectar Entradas Fora de Distribuição (OOD): Identificar dados que se desviam da distribuição de treinamento e não devem ser confiáveis.
Prever Falhas em Distribuição (ID): Antecipar erros de classificação em dados que pertencem à distribuição de treinamento, rejeitando previsões de baixa confiança.

A Lacuna Atual: A literatura existente trata a detecção de OOD e a previsão de falhas (ou classificação seletiva) como problemas separados e independentes. Isso leva a avaliações fragmentadas onde um modelo pode parecer excelente em detectar OOD, mas falhar em prever erros em dados ID, ou vice-versa. Além disso, a maioria dos métodos atuais utiliza uma única função de pontuação (single scoring) com um único limiar para tomar decisões, o que é insuficiente para capturar a complexidade de lidar simultaneamente com dados ID e OOD.

2. Metodologia Proposta

Os autores propõem uma mudança de paradigma: avaliar e treinar classificadores sob uma perspectiva unificada e conjunta.

A. Novas Métricas de Avaliação (Double Scoring)
O cerne da contribuição teórica é a introdução de um quadro de avaliação baseado em duas funções de pontuação (Double Scoring - DS):

$s_{OOD}$ : Uma pontuação para detecção de OOD (valores altos indicam provável ID).
$s_{ID}$ : Uma pontuação de confiança para previsão de falhas em dados ID (valores altos indicam alta probabilidade de correção).

Com base nisso, são definidas duas novas métricas que operam sobre um espaço de limiares duplos ( $\tau_{OOD}, \tau_{ID}$ ):

DS-F1: Uma extensão do F1-score que busca o ponto operacional ótimo combinando a aceitação de amostras ID corretas e a rejeição de amostras OOD e ID mal classificadas. Diferente do F1 tradicional, ele varre pares de limiares em um espaço bidimensional.
DS-AURC (Area Under the Risk-Coverage Curve): Uma generalização da métrica AURC que avalia o risco em todo o espectro de cobertura, considerando a interseção de dados ID e OOD. Para cada nível de cobertura, a métrica seleciona o menor risco possível entre todas as combinações de limiares.

Propriedades: As métricas DS-F1 e DS-AURC garantem que o uso de dupla pontuação nunca seja pior que o método de pontuação única (DS-F1 $\ge$ F1 e DS-AURC $\le$ AURC), oferecendo uma avaliação mais fiel e otimista da confiabilidade real do sistema.

B. Novo Framework de Treinamento: SURE+
Para além da avaliação, os autores propõem o SURE+, uma evolução do método SURE (focado em previsão de falhas). O SURE+ integra avanços recentes de detecção de OOD e previsão de falhas em um pipeline de treinamento unificado e simplificado:

Aumento de Dados Unificado: Combinação de RegMixup (interpolação de características) e RegPixMix (perturbações em nível de pixel) para regularizar fronteiras de decisão e robustez.
Otimização para Confiabilidade: Uso de F-SAM (Sharpness-Aware Minimization) para encontrar mínimos planos, melhorando a calibração e a estabilidade.
Ensemble Estável: Substituição do SWA (Stochastic Weight Averaging) por uma média móvel exponencial (EMA) dos parâmetros, combinada com estatísticas de Batch Normalization re-normalizadas (Re-BN).
Simplificação: Remoção de componentes complexos do SURE original (como Correctness Ranking Loss e Cosine Similarity Classifier) que ofereciam ganhos marginais.

3. Resultados Experimentais

Os experimentos foram conduzidos no benchmark OpenOOD, utilizando conjuntos de dados CIFAR-100 e ImageNet-1K, com arquiteturas ResNet-18 e DINOv3 ViT-L/16.

Superioridade da Avaliação Dupla: As métricas DS-F1 e DS-AURC revelaram que métodos que performam bem em métricas isoladas (apenas OOD ou apenas ID) frequentemente falham na avaliação conjunta. O framework de dupla pontuação identificou consistentemente classificadores mais robustos.
Desempenho do SURE+: O modelo SURE+ alcançou o estado da arte (SOTA) em todas as configurações:
- Precisão ID: 81,66% no CIFAR-100 e 88,49% no ImageNet-1K.
- Métricas Conjuntas: Melhor DS-F1 e menor DS-AURC em comparação com baselines como SURE, Mixup, CutMix e outros métodos de pós-processamento (MSP, ODIN, ReAct, etc.).
Análise de Cenários OOD:
- OOD Distante (Far-OOD): Métodos de pontuação pós-treinamento (como ReAct, KLM) oferecem ganhos significativos quando combinados com a pontuação de confiança ID.
- OOD Próximo (Near-OOD): Os ganhos são marginais. Isso indica um limite atual das abordagens baseadas apenas em pontuação pós-treinamento para distinguir dados visualmente similares, destacando a necessidade de novas representações de características.

4. Contribuições Principais

Perspectiva Unificada: Demonstrar que a detecção de OOD e a previsão de falhas são aspectos complementares e devem ser avaliados conjuntamente para evitar conclusões enganosas sobre a confiabilidade do modelo.
Novas Métricas (DS-F1 e DS-AURC): Introdução de métricas que generalizam os padrões atuais, permitindo uma busca otimizada sobre pares de limiares e fornecendo limites inferiores/uperiores garantidos para a confiabilidade.
Método SURE+: Proposta de um framework de treinamento robusto e simplificado que integra regularização, otimização de mínimos planos e ensembles, superando métodos existentes tanto em precisão quanto em confiabilidade.
Insights Práticos: Revelação de que, embora a detecção de OOD distante seja bem-sucedida, a detecção de OOD próximo permanece um gargalo crítico, e que a avaliação conjunta é essencial para a implantação segura em cenários reais.

5. Significado e Impacto

Este trabalho estabelece um novo padrão para a avaliação de sistemas de IA confiáveis. Ao fornecer métricas que capturam a tensão entre rejeitar outliers e não rejeitar dados válidos, os autores oferecem ferramentas práticas para engenheiros de ML selecionarem e treinarem modelos que são verdadeiramente robustos para o mundo real. O código e os dados são disponibilizados publicamente, facilitando a reprodução e o avanço futuro na área de segurança de IA.

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

1. O Dilema do Detetive (O Problema)

2. A Solução: O "Duplo Filtro" (A Metáfora)

3. As Novas Regras do Jogo (As Métricas)

4. O Novo Treinamento: "SURE+"

Resumo em uma Frase

Título: De Más Classificações a Outliers: Avaliação Conjunta de Confiabilidade em Classificação

1. O Problema

2. Metodologia Proposta

3. Resultados Experimentais

4. Contribuições Principais

5. Significado e Impacto

Mais como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions