SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um guarda de segurança (uma Inteligência Artificial) para reconhecer apenas cinco tipos específicos de frutas: maçãs, bananas, laranjas, uvas e peras. Você mostra milhares de fotos dessas frutas para o guarda durante o treinamento.

O problema surge quando alguém traz uma laranja-do-mar (uma fruta que o guarda nunca viu) ou um tomate (que parece uma laranja, mas é outra coisa).

O problema atual: A maioria dos sistemas de IA atuais é como um guarda teimoso. Se ele não consegue identificar a fruta como uma das cinco que ele conhece, ele adivinha qual é a mais parecida. Então, ele pode gritar: "É uma laranja!" para um tomate, cometendo um erro grave. Isso é perigoso em áreas como medicina (diagnosticar um tumor desconhecido como um conhecido) ou carros autônomos.
A solução do papel (SpHOR): Os autores criaram um novo método chamado SpHOR. Em vez de apenas treinar o guarda para "adivinhar", eles treinaram o guarda para entender o espaço onde as frutas vivem.

Aqui está a explicação do método usando analogias simples:

1. O Cenário: A Sala Redonda (O Espaço Esférico)

Normalmente, as IAs pensam em um espaço "infinito" e plano (como um papel de parede infinito). Nesses espaços, é difícil dizer se algo é "estranho" ou apenas "longe".

O SpHOR muda as regras: ele transforma essa sala em uma esfera gigante (como um globo terrestre).

A analogia: Imagine que todas as frutas conhecidas (maçã, banana, etc.) são cidades em um mapa-múndi. O SpHOR força essas cidades a ficarem bem distribuídas ao redor do globo, longe umas das outras.
O resultado: Se uma fruta nova (desconhecida) aparecer, ela não vai cair "em cima" de uma cidade conhecida. Ela vai cair no "oceano" (o espaço vazio entre as cidades). O guarda sabe imediatamente: "Isso não é uma cidade conhecida, é algo novo!"

2. Os Três Segredos do SpHOR

Para fazer essa "esfera" funcionar perfeitamente, o SpHOR usa três truques inteligentes:

A. O Truque da "Distância Obrigatória" (Embeddings Ortogonais)

Imagine que você tem que desenhar setas para cada fruta. O SpHOR diz: "As setas da maçã e da banana devem apontar para direções totalmente opostas ou completamente diferentes, nunca na mesma direção".

Por que isso ajuda? Isso impede que o sistema confunda frutas parecidas. Se a seta da "maçã vermelha" e a da "maçã verde" ficarem muito próximas, o sistema pode se confundir com um tomate. O SpHOR força uma separação clara, criando "bairros" distintos para cada tipo de fruta.

B. O Truque do "Globo Perfeito" (Distribuição von Mises-Fisher)

O sistema não deixa as frutas espalhadas aleatoriamente. Ele as organiza como se estivessem em um globo terrestre perfeito.

A analogia: Pense em como os países estão distribuídos na Terra. O SpHOR garante que os "países" das frutas conhecidas ocupem bem o globo, deixando grandes áreas de "oceano" (espaço vazio) para coisas desconhecidas. Se algo cai no oceano, o sistema sabe que é um "desconhecido".

C. O Truque da "Fusão de Frutas" (Mixup e Suavização)

Durante o treinamento, o SpHOR faz algo curioso: ele pega uma foto de uma maçã e uma de uma banana e as mistura digitalmente, criando uma "fruta meio maçã, meio banana".

Por que isso ajuda? Isso ensina o guarda a ser mais flexível. Ele aprende que, no meio do caminho entre duas frutas conhecidas, não existe uma fruta "oficial". Isso ajuda o sistema a entender que, se algo estiver no meio do caminho ou em um lugar estranho, provavelmente é algo novo e não deve ser forçado a ser uma das frutas conhecidas. Isso evita a "armadilha da familiaridade", onde o sistema insiste em classificar o novo como algo velho.

3. Como eles medem o sucesso?

Os autores criaram duas novas "réguas" para medir se o guarda está funcionando bem:

Medida de Ângulo (Angular Separability): Quão longe estão as frutas conhecidas das desconhecidas em termos de direção? (Quanto mais longe, melhor).
Medida de Tamanho (Norm Separability): As frutas desconhecidas têm um "tamanho" (intensidade) diferente das conhecidas? Se sim, é fácil separá-las.

O Resultado Final

Quando testaram esse novo guarda (SpHOR) em bancos de dados reais (como imagens de pássaros, carros e aviões), ele foi muito melhor do que os métodos antigos.

Ele conseguiu identificar frutas novas (classes desconhecidas) com muito mais precisão.
Ele não cometeu o erro de dizer "é uma maçã" para um tomate.
Funcionou bem mesmo quando o sistema não tinha sido treinado com milhões de fotos antes (o que economiza tempo e dinheiro).

Em resumo: O SpHOR é como um treinador de guarda que não apenas ensina as frutas, mas desenha um mapa mental perfeito onde cada fruta tem seu próprio "bairro" exclusivo, deixando grandes áreas vazias para que, quando algo novo aparecer, o sistema saiba imediatamente: "Isso não é do meu mapa. É um desconhecido!"

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Reconhecimento de Conjunto Aberto (OSR)

O Reconhecimento de Conjunto Aberto (OSR) visa permitir que classificadores baseados em Redes Neurais Profundas (DNNs) identifiquem dados de entrada pertencentes a classes desconhecidas (não vistas durante o treinamento) como "desconhecidos", em vez de forçá-los erroneamente em uma classe conhecida.

Desafio Principal: A maioria dos métodos atuais treina o extrator de características e o classificador de forma conjunta (end-to-end). Isso resulta em representações de características que se adaptam mal a dados desconhecidos.
A "Armadilha da Familiaridade" (Familiarity Trap): Quando o modelo aprende características compartilhadas entre classes (como fundos ou texturas) em vez de características específicas da classe, classes desconhecidas podem ser mapeadas muito próximas às classes conhecidas no espaço latente. Isso dificulta a detecção de novidades, especialmente em cenários de mudança semântica fina (onde a distribuição de dados é similar, mas o significado é diferente).
Limitação Atual: Métodos existentes muitas vezes dependem de objetivos genéricos (como aprendizado contrastivo supervisionado) que não são projetados especificamente para estruturar o espaço de características para lidar com o "espaço aberto" (regiões reservadas para classes desconhecidas).

2. Metodologia: SpHOR

O SpHOR (Spherical Hyperbolic Orthogonal Representation) propõe uma estratégia de treinamento em duas etapas e desacoplada, focada explicitamente no aprendizado de representações antes do treinamento do classificador.

Fase 1: Aprendizado de Representação Esférica

O objetivo é moldar o espaço de características para que as classes conhecidas sejam bem separadas e o espaço entre elas seja reservado para classes desconhecidas.

Representações Esféricas (Mistura de von Mises-Fisher):
- Em vez de usar o espaço Euclidiano (ilimitado), o método normaliza as características na esfera unitária ( $L_2$ -normalização).
- As classes são modeladas como uma mistura de distribuições von Mises-Fisher (vMF). Isso permite um controle matemático sobre a densidade e a separação das classes.
Embutimentos de Rótulo Ortogonais (Orthogonal Label Embeddings):
- Para evitar a "Armadilha da Familiaridade", o método impõe que os vetores de rótulo (centros de classe) sejam ortogonais entre si.
- Isso força cada classe a ocupar um subespaço linear distinto, garantindo que características específicas da classe sejam aprendidas, em vez de características compartilhadas.
Integração de Mixup e Label Smoothing (LS):
- Mixup: Combina amostras e rótulos para criar exemplos de treinamento "ambíguos". Isso ajuda a modelar o "espaço aberto" (regiões não específicas de nenhuma classe).
- Label Smoothing: Suaviza os rótulos one-hot para prevenir confiança excessiva e melhorar a generalização.
- A combinação dessas técnicas é integrada diretamente na função de perda de aprendizado de representação.

Função de Perda (Loss Function)

O método utiliza uma perda composta:

vMFAL (von Mises-Fisher Alignment Loss): Alinha as projeções das características com os embeddings de rótulo correspondentes, promovendo Alinhamento (proximidade intra-classe) e Uniformidade (espalhamento inter-classe na esfera).
ROrtho (Orthogonality Regularizer): Penaliza a não ortogonalidade entre os embeddings de rótulo, garantindo que as classes permaneçam distintas.

Fase 2: Treinamento do Classificador

Após a Fase 1, o extrator de características é congelado. Um classificador simples (MLP linear) é treinado apenas nas características extraídas, usando a perda de entropia cruzada padrão. Isso desacopla a estruturação da representação da otimização das fronteiras de decisão.

3. Contribuições Chave

Método de Treinamento Desacoplado: Propõe um pipeline de duas etapas onde as representações são aprendidas explicitamente para OSR antes de qualquer treinamento do classificador.
Inovações em Representação:
- Uso de embutimentos de rótulo ortogonais para garantir separação de subespaços.
- Modelagem de representações como misturas de distribuições von Mises-Fisher em uma esfera.
- Integração direta de Mixup e Label Smoothing na fase de aprendizado de representação para lidar com ambiguidades.
Novas Métricas de Avaliação:
- Separabilidade Angular (AS): Mede quão perto as amostras desconhecidas estão das classes conhecidas no espaço angular (captura a armadilha da familiaridade).
- Separabilidade de Norma (NS): Mede a capacidade de distinguir classes conhecidas e desconhecidas com base na magnitude (norma) das características.
Análise Teórica: Demonstra matematicamente como a perda proposta induz alinhamento e uniformidade, resolvendo o problema de colapso de rótulos.

4. Resultados Experimentais

O SpHOR foi avaliado em benchmarks de mudança semântica (fine-grained) e benchmarks legados (coarse-grained).

Benchmark de Mudança Semântica (SSB): Utilizando conjuntos de dados finos como CUB (aves), Stanford Cars e FGVC-Aircraft.
- O SpHOR alcançou resultados State-of-the-Art (SOTA) em todas as métricas principais (AUROC e OSCR).
- Melhoria: Até 5.1% de melhoria no OSCR e 5.2% no AUROC em comparação com os melhores métodos existentes (como MLS e SupCon).
- Robustez: O método manteve alto desempenho mesmo sem pré-treinamento no ImageNet, ao contrário de outras abordagens que sofrem quedas significativas.
- Invariância à Regra de Pontuação: O SpHOR foi menos sensível à escolha da regra de pontuação (MaxLogit, KNN, etc.) do que os concorrentes.
Benchmarks Legados (CNN-32):
- Em benchmarks mais simples (SVHN, CIFAR-10, Tiny-ImageNet), o SpHOR também superou os métodos existentes, alcançando os melhores resultados em AUROC.
Eficiência Computacional:
- O SpHOR tem complexidade linear $O(B \cdot C)$ , sendo significativamente mais rápido e estável em lotes (batches) pequenos do que métodos contrastivos como SupCon, que têm complexidade quadrática $O(B^2)$ .

5. Significado e Impacto

O trabalho SpHOR é significativo porque:

Muda o Paradigma: Demonstra que o desempenho em OSR não depende apenas de arquiteturas complexas ou pós-processamento, mas sim de como o espaço de características é estruturado durante o treinamento.
Solução para Mudança Semântica Fina: É particularmente eficaz em cenários onde as classes desconhecidas são semanticamente próximas das conhecidas (ex: diferentes espécies de pássaros), um desafio onde métodos anteriores falhavam.
Eficiência e Escalabilidade: Ao desacoplar o aprendizado de representação e usar uma abordagem baseada em classes (em vez de pares), o método é escalável para grandes números de classes e ambientes com recursos limitados.
Fundamentação Teórica: Oferece uma explicação clara de como a ortogonalidade e a geometria esférica (vMF) mitigam a armadilha da familiaridade, fornecendo diretrizes para futuros trabalhos em aprendizado de representação para tarefas de detecção de anomalias e novidades.

Em resumo, o SpHOR estabelece um novo padrão para o Reconhecimento de Conjunto Aberto, provando que o design explícito do espaço de representação é a chave para detectar classes desconhecidas de forma robusta.