Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um cérebro digital (uma Inteligência Artificial) que é incrivelmente bom em identificar coisas em fotos, como um "águia-careca" ou um "polipo" em um exame médico. O problema é que esse cérebro é uma "caixa preta": ele vê a imagem e diz "é isso!", mas não explica por que chegou a essa conclusão.

Para consertar isso, os cientistas criaram mapas de calor (chamados saliency maps) que mostram quais partes da foto o computador está olhando. O método mais famoso até hoje é o Grad-CAM.

O Problema: O "Especialista" que só olha o topo

O Grad-CAM funciona como um especialista sênior que só olha a conclusão final de um relatório. Ele ignora os rascunhos, as anotações nas margens e os detalhes iniciais.

O que falta: Às vezes, para entender uma imagem, precisamos ver tanto os detalhes finos (textura, bordas) quanto o conceito geral (a forma do objeto). O Grad-CAM, focando apenas na última camada da rede neural, pode perder detalhes importantes ou ficar confuso com "ruído".

A Solução: O Winsor-CAM (O Maestro da Orquestra)

Os autores deste artigo criaram o Winsor-CAM. Pense nele como um Maestro de Orquestra que não deixa apenas o primeiro violino (a última camada) tocar sozinho. Ele ouve todos os instrumentos, desde os tambores graves (camadas iniciais, que veem bordas e texturas) até os violinos agudos (camadas finais, que veem formas complexas).

Mas aqui está o truque genial: às vezes, um instrumento toca muito alto e estraga a música (um "outlier" ou valor extremo). O Winsor-CAM usa uma técnica estatística chamada Winsorização (o nome vem de um estatístico, mas pense nela como um limitador de volume).

Escuta tudo: Ele pega a opinião de todas as camadas da rede neural.
Ajusta o volume: Se uma camada está gritando muito alto (dando uma importância exagerada), o Maestro abaixa o volume dela para um nível aceitável, sem silenciá-la totalmente.
Controle Humano: O melhor de tudo é que você, o usuário, tem um botão de controle (um parâmetro chamado p).
- Se você girar o botão para um valor baixo, o sistema foca nos detalhes finos (como um médico olhando a textura de uma lesão).
- Se você girar para um valor alto, o sistema foca no conceito geral (como um artista vendo a forma do objeto).

Por que isso é importante? (Analogias do Mundo Real)

Na Medicina (O Exemplo do Polipo): Imagine um médico tentando encontrar um pequeno pólipo (um crescimento anormal) no intestino.
- O método antigo (Grad-CAM) poderia apontar para a área geral, mas falhar em mostrar a borda exata do pólipo.
- O Winsor-CAM permite que o médico ajuste o foco. Ele pode pedir: "Mostre-me as bordas e texturas" (baixo p) para ver se é realmente um pólipo, ou "Mostre-me a forma geral" (alto p) para entender o contexto. Isso ajuda a evitar diagnósticos errados.
Na Segurança (Carros Autônomos): Um carro autônomo precisa saber se aquele objeto na estrada é um pedestre ou um saco de lixo.
- O Winsor-CAM ajuda o carro a não se confundir com sombras ou ruídos, focando nas características mais relevantes, seja a cor da roupa (detalhe) ou a silhueta humana (forma).

O Resultado: Melhor que os Rivais

Os autores testaram o Winsor-CAM contra vários outros métodos famosos (como o próprio Grad-CAM, o FullGrad, etc.) usando milhares de imagens.

Precisão: O Winsor-CAM acertou muito mais onde o objeto estava localizado (medido por uma métrica chamada IoU).
Robustez: Mesmo que você não saiba ajustar o botão de controle perfeitamente, o Winsor-CAM ainda funcionou melhor do que os métodos antigos que não têm esse botão.
Versatilidade: Funcionou bem tanto em fotos de animais (como águias) quanto em imagens médicas complexas.

Resumo em uma frase

O Winsor-CAM é como dar um controle remoto de volume para a Inteligência Artificial, permitindo que humanos ajustem o foco da explicação, desde os detalhes microscópicos até o panorama geral, garantindo que a IA não apenas "acerte", mas que nós possamos entender e confiar no porquê dela ter acertado.

Each language version is independently generated for its own context, not a direct translation.

Título: Winsor-CAM: Explicações Visuais Ajustáveis por Humanos em Redes Profundas via Winsorização por Camada

1. O Problema

As Redes Neurais Convolucionais (CNNs) são fundamentais em aplicações de alto risco, como saúde e sistemas autônomos, mas suas decisões permanecem "caixas-pretas". Métodos de explicação visual populares, como o Grad-CAM, apresentam limitações críticas:

Foco em uma única camada: O Grad-CAM padrão gera mapas de saliência baseados apenas na última camada convolucional. Isso ignora pistas de baixo nível (texturas, bordas) aprendidas em camadas anteriores, que podem ser cruciais para a decisão do modelo.
Instabilidade e Ruído: Extensões ingênuas que agregam mapas de todas as camadas (como a média simples) tendem a diluir padrões semanticamente significativos com ruído de camadas menos relevantes ou permitir que camadas profundas com ativações extremas dominem o resultado.
Falta de Controle Semântico: Não há um mecanismo para que o usuário ajuste o nível de abstração da explicação (de detalhes finos a conceitos de alto nível) sem re-treinar o modelo ou alterar a arquitetura.

2. Metodologia: Winsor-CAM

O Winsor-CAM é um método baseado em gradiente de passagem única que agrega informações de saliência de todas as camadas convolucionais de uma CNN, utilizando uma técnica estatística chamada Winsorização para atenuar contribuições de outliers.

O pipeline do método consiste em seis etapas principais:

Cálculo de Grad-CAM por Camada: Para cada camada convolutiva $i$ , calcula-se o mapa de Grad-CAM ( $L_{Grad-CAM,i}$ ) ponderando os mapas de características pelos gradientes da classe alvo.
Alinhamento Espacial: Todos os mapas de Grad-CAM (que possuem resoluções espaciais diferentes) são interpolados para uma resolução comum (geralmente a maior resolução presente na rede).
Extração de Pontuação de Importância: Calcula-se uma pontuação escalar ( $\Gamma_i$ ) para cada camada, agregando os pesos dos filtros (usando média ou máximo).
Winsorização (Supressão de Outliers): Esta é a inovação central. Aplica-se um limite superior baseado em percentis ( $p$ $p$ ) às pontuações de importância. Valores acima do percentil $p$ $p$ são "cortados" para esse limite.
- Isso impede que camadas profundas com ativações extremamente altas dominem a agregação final.
- Preserva a estrutura espacial fina dentro das camadas, atuando apenas nos pesos das camadas.
Normalização: As pontuações Winsorizadas são normalizadas para um intervalo definido (ex: [0.1, 1.0]), mantendo zeros para camadas sem influência positiva.
Fusão Final: O mapa de saliência final é a soma ponderada dos mapas de Grad-CAM interpolados, usando os pesos normalizados.

Controle Humano: O parâmetro percentil $p$ é ajustável pelo usuário.

$p$ baixo: Suprime mais contribuições extremas, enfatizando camadas iniciais (texturas, bordas).
$p$ alto: Permite que camadas mais profundas (padrões semânticos, objetos) tenham maior peso.

3. Contribuições Principais

Primeira Agregação Robusta por Camada: Apresenta o primeiro método a agregar explicações Grad-CAM de toda a pilha convolucional com supressão estatística de outliers via Winsorização.
Sintonizabilidade Semântica: Introduz um parâmetro percentil controlável pelo usuário, permitindo ajustar a granularidade da explicação (do baixo ao alto nível) dinamicamente.
Eficiência Computacional: Mantém a eficiência de uma única passagem (forward-backward pass), diferindo de métodos multi-passo (como Integrated Gradients ou ShapleyCAM) que exigem múltiplas inferências.
Validação Abrangente: Avaliação quantitativa e qualitativa em seis arquiteturas CNN (ResNet50, DenseNet121, VGG16, InceptionV3, EfficientNet-B0, ConvNeXt-Tiny) em dois domínios distintos: imagens naturais (PASCAL VOC 2012) e imagens médicas (PolypGen).

4. Resultados Experimentais

Os experimentos compararam o Winsor-CAM contra sete baselines (Grad-CAM, Grad-CAM++, LayerCAM, ScoreCAM, AblationCAM, ShapleyCAM e FullGrad) usando métricas de localização (IoU, distância do Centro de Massa - CoM) e fidelidade (AUC de Inserção/Deleção).

Desempenho no PASCAL VOC 2012 (Imagens Naturais):
- No modelo DenseNet121, o Winsor-CAM alcançou um IoU de 46,8% e uma distância CoM de 0,059, superando significativamente o Grad-CAM final (39,0% e 0,074) e o FullGrad (43,3% e 0,072).
- Melhorou tanto a AUC de Inserção (0,656 vs 0,623) quanto a de Deleção (0,197 vs 0,242).
- Robustez: Mesmo a configuração com o pior valor fixo de $p$ superou o FullGrad em todas as métricas, demonstrando que a supressão de outliers é benéfica independentemente do ajuste fino.
- Estudo de Ablação: Confirmou que incluir camadas anteriores melhora a localização, desde que as contribuições extremas sejam suprimidas.
Desempenho no PolypGen (Imagens Médicas):
- O método demonstrou generalização para o domínio médico, mantendo vantagens nas métricas de localização (IoU e CoM) sobre os baselines, apesar dos desafios específicos de métricas de fidelidade em endoscopia (onde a escolha da linha de base é crítica).
- Ajustes no parâmetro $p$ permitiram explorar diferentes níveis de características relevantes para diagnósticos médicos.
Impacto da Interpolação: O estudo mostrou que a interpolação bilinear geralmente produz mapas mais suaves e interpretáveis visualmente do que a interpolação vizinho mais próximo, embora o Winsor-CAM seja robusto a essa escolha devido à agregação multi-camada.

5. Significância e Conclusão

O Winsor-CAM preenche uma lacuna importante no campo da IA Explicável (XAI) ao oferecer uma ferramenta que é simultaneamente eficiente (passagem única), robusta (supressão estatística de ruído) e adaptável (ajuste semântico pelo usuário).

Para Especialistas: Permite que profissionais (como radiologistas) ajustem a explicação para focar em características de alto nível (o que o modelo "vê" como objeto) ou baixo nível (bordas e texturas), facilitando a validação de decisões em sistemas críticos.
Avanço Técnico: Demonstra que a agregação multi-camada, quando combinada com técnicas estatísticas de controle de outliers, supera os métodos de camada única e agregações ingênuas, estabelecendo um novo padrão para mapas de saliência em CNNs.

O código e os notebooks de demonstração foram disponibilizados publicamente, promovendo a reprodutibilidade e a adoção em fluxos de trabalho de "humano-no-loop".

Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

O Problema: O "Especialista" que só olha o topo

A Solução: O Winsor-CAM (O Maestro da Orquestra)

Por que isso é importante? (Analogias do Mundo Real)

O Resultado: Melhor que os Rivais

Resumo em uma frase

Título: Winsor-CAM: Explicações Visuais Ajustáveis por Humanos em Redes Profundas via Winsorização por Camada

1. O Problema

2. Metodologia: Winsor-CAM

3. Contribuições Principais

4. Resultados Experimentais

5. Significância e Conclusão

Mais como este

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems