Uncertainty Estimation for the Open-Set Text Classification systems

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um porteiro muito inteligente em um clube exclusivo. A função desse porteiro é simples: ele conhece os rostos dos membros autorizados (os "clubeiros") e deixa apenas eles entrarem. Se alguém que ele não conhece tenta entrar, ele deve barrar a pessoa.

O problema é que, no mundo real, as coisas não são tão simples. Às vezes, o porteiro pode:

Confundir um estranho com um membro (deixar entrar quem não deveria).
Barrar um membro legítimo achando que é um estranho.
Confundir um membro com outro membro (achar que o Sr. Silva é o Sr. Santos).

Esse é o problema que o artigo de Erlygin e Zaytsev tenta resolver, mas em vez de rostos, o porteiro está analisando textos (mensagens, e-mails, artigos).

Aqui está a explicação simples do que eles fizeram:

1. O Cenário: O "Clube" Aberto

Na maioria dos sistemas de Inteligência Artificial atuais, o porteiro é treinado apenas para reconhecer quem ele já viu. Mas no mundo real, as pessoas enviam mensagens estranhas, confusas ou sobre assuntos que o sistema nunca viu.

Exemplo: Um chatbot de banco que sabe responder sobre "Saldo" e "Transferência". Se o usuário pergunta "Qual a previsão do tempo?", o sistema não deve tentar adivinhar que é sobre "Saldo" e dar uma resposta errada. Ele deve admitir: "Não sei o que é isso".

O desafio é: Como o sistema sabe quando ele está inseguro? Como ele sabe quando deve dizer "Não sei" em vez de chutar uma resposta?

2. A Solução: O "Porteiro Holístico" (HolUE)

Os autores criaram um novo método chamado HolUE (Estimativa de Incerteza Holística). Eles pegaram uma técnica usada para reconhecer rostos (biometria) e adaptaram para textos.

Eles descobriram que a "dúvida" do sistema vem de duas fontes principais, e o novo método olha para as duas ao mesmo tempo:

Fonte A: A Confusão do Mapa (Incerteza da Galeria)

Imagine que o sistema tem um mapa mental onde cada tipo de mensagem é um ponto.

Se uma mensagem nova cai exatamente na linha divisória entre "Pedir Uber" e "Pedir Táxi", o sistema fica confuso. É difícil saber para qual lado ela pertence.
Isso é como um porteiro vendo duas pessoas que se parecem muito e não sabe qual é o membro real.
O método HolUE olha para a estrutura desse mapa e percebe: "Ei, essa mensagem está em uma área de conflito, é perigoso decidir agora".

Fonte B: A Qualidade da Foto (Incerteza da Amostra)

Às vezes, a mensagem em si é ruim. Pode estar cheia de gírias, escrita de forma estranha, com erros de digitação ou ambígua.

Imagine que o porteiro recebe uma foto do membro, mas a foto está borrada, escura ou cortada. Mesmo que ele saiba quem é, a qualidade da imagem gera dúvida.
O método HolUE analisa a "clareza" da mensagem. Se a mensagem é confusa, o sistema aumenta o nível de alerta.

3. O Grande Truque: Unir as Duas Coisas

Antes, os sistemas olhavam apenas para uma coisa:

Alguns olhavam só para o mapa (se a mensagem está perto de um grupo conhecido).
Outros olhavam só para a qualidade (se a mensagem parece "boa" ou "limpa").

O artigo mostra que olhar apenas para uma delas é perigoso.

Uma mensagem pode ser muito clara (boa qualidade), mas cair numa área onde dois grupos se misturam (confusão no mapa).
Uma mensagem pode estar num lugar seguro do mapa, mas ser escrita de forma tão estranha que o sistema não entende.

O HolUE é como um porteiro experiente que diz: "Olha, essa pessoa está perto da porta de saída (mapa confuso) E está usando uma máscara (qualidade ruim). Eu não vou deixar entrar, vou chamar o segurança humano."

4. Os Resultados: O "Porteiro" Aprendeu

Os autores testaram isso em várias situações:

Descobrir quem escreveu um texto (Autoria): Diferenciar se um texto foi escrito por um autor conhecido ou por um impostor.
Entender intenções (Chatbots): Saber se o usuário quer saber o saldo ou está apenas conversando sobre o tempo.
Classificar tópicos (Notícias): Saber se um artigo é sobre Esportes ou Política, ou se é sobre algo totalmente novo.

O resultado foi impressionante:
O novo método (HolUE) foi muito melhor em detectar quando o sistema estava prestes a errar. Em alguns testes, ele foi 3 a 4 vezes mais eficiente do que os métodos antigos em evitar erros.

Resumo em uma Analogia Final

Pense em um sistema de IA antigo como um aluno que decora a matéria. Se a pergunta for diferente do que ele decorou, ele tenta adivinhar e erra, achando que acertou.

O sistema proposto neste artigo é como um aluno sábio. Quando ele vê uma pergunta que está na "zona cinzenta" ou que é mal formulada, ele levanta a mão e diz: "Professor, não tenho certeza se sei a resposta. É melhor não chutar para não perder pontos."

Isso torna a Inteligência Artificial mais confiável, segura e pronta para o mundo real, onde nem tudo é perfeito e previsível.

Each language version is independently generated for its own context, not a direct translation.

Título: Estimativa de Incerteza para Sistemas de Classificação de Texto em Conjunto Aberto (OSTC)

Autores: L. A. Erlygin e A. A. Zaytsev (Skoltech e Sber, Rússia)
Publicação: Information Processes, Vol. 24, No. 1, 2024.

1. O Problema

O artigo aborda o desafio da Reconhecimento em Conjunto Aberto (Open-Set Recognition - OSR) no domínio do Processamento de Linguagem Natural (NLP). Diferente da classificação em conjunto fechado, onde todas as classes são conhecidas durante o treinamento, um sistema OSR deve lidar com amostras de entrada que podem pertencer a classes desconhecidas (fora da distribuição).

O objetivo é que o sistema não apenas classifique o texto em uma das classes conhecidas, mas também tenha a capacidade de rejeitar amostras desconhecidas. O problema central identificado pelos autores é a falta de métodos robustos para estimar a incerteza dessas previsões. A alta precisão de classificação não garante confiabilidade em aplicações de alto risco (como agentes conversacionais ou verificação de autoria), onde o sistema precisa saber quando não deve tomar uma decisão.

Existem três tipos principais de erros que o sistema deve detectar:

Falsa Aceitação: Aceitar uma amostra desconhecida como conhecida.
Falsa Rejeição: Rejeitar uma amostra conhecida como desconhecida.
Mistificação (Misidentification): Aceitar uma amostra conhecida, mas atribuir a ela o rótulo de classe errado.

2. Metodologia

Os autores propõem a adaptação do framework Holistic Uncertainty Estimation (HolUE), originalmente desenvolvido para reconhecimento biométrico (rostos), para o domínio de texto. A abordagem combina duas fontes de incerteza:

A. Fontes de Incerteza Identificadas

Incerteza da Galeria (Gallery Uncertainty): Relacionada à estrutura geométrica do espaço de embeddings. Ocorre quando a representação de uma consulta está próxima das fronteiras de decisão entre classes conhecidas ou do limiar de aceitação, indicando ambiguidade estrutural.
Incerteza de Embedding (Embedding Uncertainty): Relacionada à qualidade dos dados de entrada e ambiguidade inerente. Em texto, isso corresponde a ambiguidade semântica, ruído na formulação ou variações estilísticas que aumentam a variância da distribuição do embedding.

B. Arquitetura do Modelo

O sistema utiliza uma abordagem probabilística baseada em Bayesiana:

Extração de Recursos: Utiliza um modelo Transformer pré-treinado (BERT) para gerar embeddings.
Embeddings Probabilísticos: Em vez de um ponto fixo, o modelo gera uma distribuição de probabilidade sobre a esfera unitária (usando a distribuição von Mises-Fisher). Isso é feito através de uma "cabeça" (head) que prevê:
- A direção média do embedding ( $\mu$ ).
- Um parâmetro de concentração ( $\kappa$ ), que é inversamente proporcional à variância (incerteza).
Modelo Bayesiano Holístico: O método calcula a distribuição posterior das classes $p(c|x)$ integrando a distribuição do embedding probabilístico com a estrutura da galeria de classes conhecidas.
Medida de Incerteza: A incerteza total é calculada como a Divergência de Kullback-Leibler (KL) entre a distribuição posterior e a distribuição a priori. A divergência é decomposta em dois componentes ( $KL_1$ e $KL_2$ ) que capturam, respectivamente, a ambiguidade da galeria e a qualidade da amostra/embedding.
Calibração: Os componentes de KL são normalizados e fundidos através de uma Rede Neural Simples (MLP) para produzir uma pontuação de incerteza calibrada.

3. Contribuições Principais

Identificação de Fontes de Incerteza: Mapeamento claro das fontes de erro em sistemas OSR baseados em NLP (ambiguidade da consulta e estrutura da galeria).
Adaptação do HolUE para Texto: Primeira aplicação bem-sucedida de um framework de estimativa de incerteza biométrica (HolUE) para tarefas de classificação de texto, utilizando embeddings probabilísticos de modelos Transformer.
Novo Benchmark: Criação de um protocolo desafiador de OSR para atribuição de autoria baseado no conjunto de dados PAN, simulando cenários dinâmicos onde novos autores são introduzidos.
Desempenho Superior: Demonstração experimental de que a estimativa de incerteza combinada supera métodos baseados apenas em qualidade da amostra ou pontuações de aceitação.

4. Resultados Experimentais

Os autores avaliaram o método em diversas tarefas e conjuntos de dados:

Datasets: Atribuição de Autoria (PAN-20-AV), Classificação de Intenção (CLINC150) e Classificação de Tópicos (Yahoo Answers, AGNews, DBPedia).
Métrica Principal: Prediction Rejection Ratio (PRR), que mede a capacidade do método de filtrar erros antes que eles ocorram (quanto maior, melhor).

Principais Achados:

O método HolUE superou consistentemente as linhas de base (SCF, GalUE e AccScr) em todos os datasets.
Melhorias Significativas:
- Yahoo Answers: Melhoria de 365% no PRR em relação à linha de base SCF (0.79 vs 0.17).
- DBPedia: Melhoria de 347% (0.85 vs 0.19).
- PAN (Atribuição de Autoria): Melhoria de 240% (0.51 vs 0.15).
- CLINC150 (Intenção): Melhoria de 40% (0.73 vs 0.52).
Análise de Curvas de Risco: O HolUE demonstrou capacidade superior de reduzir a taxa de falsas aceitações (FPIR) e falsas rejeições (FNIR) simultaneamente, mantendo uma alta pontuação F1 ao filtrar amostras incertas.

5. Significado e Conclusão

O trabalho preenche uma lacuna crítica entre a estimativa de incerteza em visão computacional/biométrica e o NLP. A conclusão principal é que a precisão da classificação não é suficiente para sistemas confiáveis em cenários de mundo aberto.

A abordagem HolUE prova que combinar a estrutura da galeria (onde as classes estão localizadas) com a variância do embedding (qualidade da amostra) é essencial para detectar todos os tipos de erros de reconhecimento. Isso permite que sistemas de IA tomem decisões mais seguras, como delegar a decisão a um operador humano quando a incerteza é alta, sendo fundamental para aplicações de risco controlado. O código e os protocolos foram disponibilizados publicamente para reprodutibilidade.