Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando uma criança a reconhecer um pato.

Se você mostrar apenas fotos de patos em um lago, a criança pode aprender a identificar o pato não pela sua forma, mas porque ele está sempre em cima da água. Se você mostrar um pato em um gramado ou em um desenho animado, a criança pode ficar confusa e dizer: "Isso não é um pato, não tem água!".

Isso é exatamente o que acontece com os modelos de Inteligência Artificial (especificamente os chamados Vision Transformers ou ViTs) hoje em dia. Eles são muito inteligentes, mas tendem a "pular etapas" (chamado de correlações espúrias). Em vez de olhar para as partes importantes do objeto (como o bico, as asas ou as penas), eles olham para o fundo da imagem, a textura ou o contexto, porque isso é mais fácil de memorizar.

O artigo que você enviou apresenta uma solução brilhante chamada CFT (Ajuste Fino Guiado por Conceitos). Vamos explicar como funciona usando uma analogia simples:

1. O Problema: O Aluno que "Decora" em vez de "Entender"

Imagine que o modelo de IA é um aluno que está estudando para uma prova de biologia.

O jeito antigo: O aluno olha para a foto de um pássaro e diz: "Ah, tem um fundo de céu azul e uma árvore, então é um pássaro!". Se a prova mostrar um pássaro em um fundo preto, ele falha.
O problema: O modelo não está prestando atenção no conceito do pássaro (asas, bico, penas), mas sim em dicas falsas do ambiente.

2. A Solução: O Professor "Mestre de Conceitos"

Os autores criaram um método para ensinar o modelo a olhar para as partes certas, sem precisar de um professor humano desenhando círculos em cada foto (o que seria muito caro e demorado).

Eles usam uma equipe de dois "robôs especialistas" para criar um guia de estudo automático:

Passo 1: O Professor de Palavras (LLM)
Imagine um professor muito culto que nunca viu a foto, mas conhece muito bem o mundo. Ele recebe o nome "Pássaro" e pensa: "O que define um pássaro? Ah, tem bico, asas, penas, patas". Ele lista esses conceitos importantes.
Passo 2: O Detetive Visual (VLM)
Agora, eles pegam uma foto de um pássaro e mostram para um "detetive visual" (uma IA capaz de entender texto e imagem). O detetive recebe a lista do professor ("procure por bico e asas") e diz: "Ok, na foto, o bico está aqui e as asas estão ali". Ele cria uma máscara (um mapa) destacando apenas essas partes.

3. O Treinamento: O "Ajuste Fino"

Agora vem a mágica do CFT:
Eles pegam o modelo de IA original (que estava focando no fundo) e o fazem estudar apenas com poucas fotos (apenas 3 fotos para metade das categorias que ele conhece).

Durante esse estudo, eles usam o mapa criado pelo "Detetive Visual" como um guia:

Regra de Ouro: "Olhe para o bico e para as asas (onde o mapa está colorido) e ignore o fundo (onde o mapa está branco)."
Se o modelo tentar olhar para o fundo, ele é "corrigido".
Se ele olhar para o bico, ele é "elogiado".

O resultado? O modelo aprende a raciocinar sobre o que faz o objeto ser o que é, em vez de apenas memorizar o cenário.

4. Por que isso é incrível? (Os Resultados)

O artigo mostra que, mesmo treinando com muito poucas imagens e sem ajuda humana para desenhar os contornos:

Robustez: O modelo se torna muito mais forte quando vê coisas diferentes (desenhos, fotos de ângulos estranhos, desenhos animados). Ele não se confunde mais se o fundo mudar.
Generalização: O modelo aprendeu a lógica. Se você ensinar ele a olhar para as "asas" de um pássaro, ele saberá aplicar essa lógica para um pássaro que ele nunca viu antes.
Interpretabilidade: Se você perguntar "por que você achou que era um pato?", o modelo agora aponta para o bico e as patas, e não para a água. Isso torna a IA mais transparente e confiável.

Resumo em uma frase

O CFT é como dar um "mapa do tesouro" automático para a Inteligência Artificial, ensinando-a a ignorar as distrações do cenário e focar nas partes essenciais que realmente definem o objeto, tornando-a mais inteligente e menos propensa a erros em situações do mundo real.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os Transformers de Visão (ViTs) alcançaram desempenho notável em benchmarks padrão (como ImageNet), mas sua robustez sofre significativamente sob mudanças de distribuição (Out-of-Distribution - OOD).

Causa Raiz: Os modelos tendem a aprender "atalhos" (shortcuts), dependendo de correlações espúrias (como texturas de fundo, contexto ou pistas ambientais) em vez de características semânticas significativas do objeto em si.
Limitação das Soluções Atuais: Métodos de regularização existentes geralmente utilizam máscaras simples de "fundo vs. primeiro plano" (foreground-background). Essa abordagem é muito grosseira, pois trata o objeto como uma região uniforme, ignorando sua estrutura semântica interna (ex: para um "pássaro", o modelo deveria focar em "bico longo" e "asas", não apenas no contorno total). Além disso, muitas soluções exigem máscaras de segmentação anotadas manualmente ou re-treinamento completo, o que não é escalável.

2. Metodologia: Concept-Guided Fine-Tuning (CFT)

O CFT é um framework de ajuste fino post-hoc (após o treinamento) que direciona o raciocínio interno do modelo para conceitos semânticos de alto nível, sem necessidade de anotação manual de máscaras. O processo ocorre em três etapas principais:

A. Geração de Conceitos (Sem Rótulos)

Proposta de Conceitos: Utiliza-se um LLM (Modelo de Linguagem Grande) para propor atributos textuais discriminativos para cada classe (ex: para "pássaro", o LLM sugere "bico", "penas", "asa").
Validação e Localização: Um modelo de Grounding VLM (especificamente GroundedSAM, que combina Grounding DINO e SAM) localiza espacialmente esses conceitos nas imagens de treinamento.
Filtragem: Conceitos que não aparecem frequentemente ou não cobrem bem a região do objeto são descartados, resultando em um conjunto validado de conceitos espacialmente ancorados.

B. Geração de Máscaras Semânticas

Para cada imagem, gera-se uma máscara de orientação semântica binária ( $S(I)$ ). Esta máscara é a união de todas as máscaras de segmentação dos conceitos válidos para aquela classe. Diferente de uma máscara de objeto única, esta foca em partes discriminativas específicas.

C. Função de Perda de Ajuste Fino

O modelo é otimizado minimizando uma perda total ( $L$ ) composta por dois componentes principais:

Perda de Alinhamento ( $L_{align}$ ):
- $L_{concept}$ : Maximiza a relevância (attribution) do modelo nas regiões dos conceitos (onde a máscara é 1).
- $L_{non-concept}$ : Minimiza a relevância nas regiões de fundo/espúrias (onde a máscara é 0).
- Nota: A relevância é calculada usando AttnLRP (Layer-wise Relevance Propagation com atenção), que é mais fiel e estável para ViTs do que métodos baseados apenas em gradientes.
Perda de Consistência de Classificação ( $L_{cls}$ ):
- Uma perda de entropia cruzada que força o modelo a manter sua distribuição de probabilidade original (ou seja, manter a precisão na classe prevista), evitando que o ajuste fino degrade a acurácia em troca de explicabilidade.

Eficiência de Dados: O método é extremamente eficiente, utilizando apenas 3 imagens por classe para metade das classes do ImageNet-1K (total de 1.500 imagens) e sem anotação manual.

3. Contribuições Principais

Novo Paradigma de Regularização: Substitui a dicotomia simples "fundo/objeto" por máscaras guiadas por conceitos finos e semanticamente ricos.
Automação Total: Elimina a necessidade de máscaras de segmentação ground-truth, utilizando LLMs e VLMs para gerar o sinal de supervisão.
Eficiência Computacional: Funciona como um ajuste fino leve (lightweight fine-tuning) em vez de re-treinamento completo, tornando-o aplicável a modelos grandes pré-treinados.
Generalização: Demonstra que o método melhora o raciocínio subjacente do modelo, generalizando para classes que não foram vistas durante o ajuste fino.

4. Resultados Experimentais

Os autores avaliaram o CFT em 5 benchmarks OOD (ImageNet-A, ObjectNet, ImageNet-R, ImageNet-Sketch, SI-Score) e 4 arquiteturas (ViT-B, DINOv2, DeiT-III, ConvNeXt-V2).

Robustez OOD: O CFT superou consistentemente os baselines de última geração (GradMask, RRR, RRDA).
- Em ImageNet-A (exemplos adversários naturais), o ViT-B melhorou de 13.26% para 27.76% (Top-1).
- Em ObjectNet (variações de pose e fundo), a melhoria foi de 33.26% para 54.28%.
Alinhamento Semântico: As mapas de relevância gerados pelo CFT mostraram maior sobreposição (mIoU e mAP) com as máscaras de objeto ground-truth, indicando que o modelo passou a focar nas partes corretas do objeto (ex: bico e asas) em vez do fundo.
Generalização: As melhorias de robustez foram observadas tanto nas classes usadas no ajuste fino quanto nas classes não vistas, provando que o modelo aprendeu um raciocínio mais robusto e não apenas memorizou pistas específicas.
Ablação:
- O uso de conceitos finos superou o uso de máscaras de segmentação de objeto completas.
- A perda de consistência de classificação ( $L_{cls}$ ) foi crucial para manter a acurácia in-distribution.
- O método AttnLRP provou ser superior a GradCAM ou Gradient-Rollout para gerar os mapas de relevância.

5. Significado e Conclusão

O trabalho demonstra que a robustez em visão computacional pode ser drasticamente melhorada ao forçar os modelos a raciocinarem sobre partes semânticas discriminativas em vez de contextos globais ou texturas de fundo.

Escalabilidade: A abordagem é escalável, pois não depende de anotação humana massiva.
Interpretabilidade: O processo não apenas melhora a precisão, mas torna o modelo mais interpretável, alinhando seus mapas de atenção com a estrutura real do objeto.
Impacto: Oferece um caminho prático para tornar modelos de visão pré-treinados mais confiáveis para implantação no mundo real, onde as condições de distribuição raramente são controladas.

Em suma, o CFT representa um avanço significativo ao combinar a capacidade de geração de conceitos de LLMs com a precisão de localização de VLMs para corrigir falhas fundamentais de raciocínio em Transformers de Visão.