DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um grupo de estagiários (a Inteligência Artificial) para reconhecer rostos e dizer se uma pessoa é "jovem", "madura" ou "idosa", ou se ela está "feliz", "triste" ou "surpresa".

O problema é que o manual de instruções (os dados de treinamento) que você deu para eles está cheio de erros. Às vezes, você mostra uma foto de um senhor de 80 anos, mas no manual está escrito "Jovem". Outras vezes, uma foto de alguém com cara de bravo está marcada como "Feliz".

Quando os estagiários tentam aprender com essas instruções contraditórias, eles ficam confusos, estressados e, no final, aprendem mal.

Aqui entra o DiffInf, a solução proposta neste artigo. Vamos explicar como funciona usando uma analogia simples:

1. O Detetive de "Estagiários Problemáticos" (Influência)

Primeiro, o sistema cria um "detetive" que observa como cada foto afeta o aprendizado dos estagiários.

A maioria das fotos é tranquila e ajuda a aprender.
Mas algumas fotos específicas causam um caos enorme. Elas são as que mais confundem o cérebro da IA.
O método tradicional (o jeito antigo) diria: "Essa foto está causando tanto problema que vamos jogá-la fora".
O problema de jogar fora: Você perde a foto em si. Talvez aquela foto tenha uma iluminação rara ou um ângulo único que é importante para o aprendizado, só que o rótulo (a etiqueta) estava errado. Jogar fora é como queimar um livro valioso só porque uma página está escrita na língua errada.

2. O "Mágico" que Corrige a Realidade (Difusão)

Em vez de jogar a foto fora, o DiffInf decide consertar a foto.

Eles usam uma tecnologia chamada "Modelo de Difusão" (que é como um artista de IA muito talentoso que sabe desenhar rostos realistas).
O sistema pega a foto confusa (ex: o senhor de 80 anos marcado como "jovem") e pede ao artista: "Mantenha a identidade dessa pessoa (o rosto, o nariz, o cabelo), mas mude levemente a aparência para que ela pareça realmente 'jovem', conforme o rótulo diz."
A mágica: O artista não cria uma pessoa nova. Ele apenas ajusta a pele, as rugas e a expressão para que a foto faça sentido com a etiqueta. É como usar o Photoshop, mas de forma automática e inteligente, garantindo que a pessoa ainda pareça ser a mesma pessoa.

3. O Resultado: Uma Turma Mais Feliz

Depois de consertar essas fotos problemáticas, o sistema substitui as fotos originais (confusas) pelas fotos corrigidas (que agora fazem sentido).

Agora, quando os estagiários (a IA) estudam, eles veem um senhor de 80 anos marcado como "Idoso" (ou um rosto jovem marcado como "Jovem").
A confusão desaparece.
A IA aprende muito mais rápido e com muito mais precisão.

Por que isso é genial?

A grande sacada do DiffInf é a filosofia: "Não elimine o problema, corrija-o."

Método Antigo: Se a foto é difícil, apague-a. (Perde-se informação valiosa).
Método DiffInf: Se a foto é difícil, ajuste a imagem para combinar com a etiqueta. (Mantém-se a diversidade dos dados e a qualidade do aprendizado).

Em resumo

Imagine que você tem uma sala de aula onde alguns alunos têm cadernos com anotações erradas.

O jeito antigo seria expulsar esses alunos da sala.
O DiffInf pega o caderno deles, apaga o erro, escreve a resposta certa mantendo a caligrafia do aluno, e deixa eles continuarem estudando.

O resultado é uma sala de aula (o conjunto de dados) mais completa, diversa e com alunos (a IA) que aprendem muito melhor, sem perder ninguém. Isso é especialmente útil para tarefas delicadas, como identificar emoções ou idades, onde as linhas entre "jovem" e "adulto" ou "triste" e "neutro" são muito finas e subjetivas.

Each language version is independently generated for its own context, not a direct translation.

Título: DiffInf: Aprendizado de Atributos Faciais com Alinhamento de Supervisão Guiado por Influência e Difusão

1. O Problema

O aprendizado de atributos faciais (como idade e expressão) depende de grandes conjuntos de dados anotados. No entanto, esses atributos são inerentemente ambíguos, contínuos e subjetivos, sendo frequentemente discretizados em rótulos categóricos. Isso gera inconsistências de anotação devido a:

Subjetividade humana.
Fatores visuais de confusão (pose, iluminação, demografia, maquiagem).
Ruído de rótulo (label noise).

Quando a aparência da imagem diverge do rótulo atribuído, o modelo recebe sinais de supervisão contraditórios. Isso corrompe o aprendizado de representações, degrada a generalização, a calibração e a justiça do modelo. Métodos existentes geralmente tratam essas amostras problemáticas (amostras de alta influência) removendo-as ou reponderando-as, o que pode levar à perda de diversidade visual e a modos raros importantes no conjunto de dados.

2. Metodologia (DiffInf)

O DiffInf é um framework que propõe uma mudança de paradigma: em vez de eliminar amostras de alta influência que causam instabilidade, o método utiliza correção generativa direcionada para alinhar o conteúdo visual ao rótulo atribuído, preservando a identidade e a realidade da imagem.

O processo funciona em três etapas principais:

A. Identificação de Influência (Self-Influence)

Treinamento Inicial: Um classificador base é treinado no conjunto de dados ruidoso.
Cálculo de Influência: Utiliza-se uma aproximação de primeira ordem das funções de influência (inspirada no TracIn) para calcular pontuações de auto-influência para cada amostra.
- Amostras com alta auto-influência são aquelas que, se pesadas mais fortemente, perturbam desproporcionalmente os parâmetros do modelo. Geralmente, são amostras com incompatibilidade imagem-rótulo.
Seleção: O subconjunto de amostras com as maiores pontuações (top $\tau\%$ ) é identificado como o alvo para correção.

B. Preditor de Influência Diferenciável

Para evitar o custo computacional de recalcular influências durante a geração, um preditor leve é treinado para estimar a probabilidade de uma amostra pertencer ao conjunto de alta influência. Este preditor atua como um regularizador diferenciável durante o processo de otimização.

C. Correção Generativa Guiada por Difusão

Para cada amostra de alta influência selecionada, o DiffInf utiliza um Autoencoder de Difusão Latente para gerar uma versão corrigida da imagem. A otimização ocorre no espaço latente e é guiada por uma função de perda composta que equilibra três objetivos:

Preservação de Identidade ( $\mathcal{L}_{id}$ ): Garante que a imagem corrigida mantenha a identidade do sujeito original (usando embeddings faciais de uma rede de reconhecimento pré-treinada).
Regularização Perceptual e Estrutural ( $\mathcal{L}_{reg}$ ): Mantém a estrutura facial (olhos, nariz, boca) e a similaridade visual global, evitando artefatos.
Supressão de Influência ( $\mathcal{L}_{si}$ ): O termo crucial. Minimiza a probabilidade de a nova imagem ser classificada como "alta influência" pelo preditor treinado. Isso força a imagem a se tornar semanticamente consistente com seu rótulo atribuído, tornando-a menos disruptiva para o treinamento.

D. Refinamento do Conjunto de Dados

As imagens originais problemáticas são substituídas pelas versões corrigidas, mantendo o tamanho do conjunto de dados inalterado. O classificador final é re-treinado neste conjunto refinado.

3. Principais Contribuições

Framework DiffInf: Introdução de um método guiado por auto-influência que usa modelos de difusão para alinhar imagens de treinamento com seus rótulos atribuídos sob supervisão ruidosa.
Substituição Generativa Direcionada: Propõe a substituição de amostras de alta influência por versões geradas que preservam a identidade, em vez de descartá-las, mantendo a cobertura da distribuição de dados.
Preditor de Influência Diferenciável: Incorporação de um preditor leve que permite a correção guiada por influência durante a otimização latente de forma escalável.
Evidência Empírica: Demonstra que reparar inconsistências de anotação no nível da imagem é mais eficaz do que simplesmente remover amostras ou usar otimização robusta padrão.

4. Resultados Experimentais

Os experimentos foram realizados em tarefas de classificação de idade (3 classes: Jovem, Médio, Idoso) e expressão facial (4 classes: Feliz, Neutro, Surpreso, Triste) no conjunto de dados FFHQ, com ruído de rótulo sintético (30% para idade, 20% para expressão).

Desempenho Superior: O DiffInf superou consistentemente o treinamento direto em dados ruidosos, métodos de filtragem (remoção de amostras) e baselines de aprendizado robusto (como Small_loss, ELR+, proself).
- Idade: Ganho de 12,93% em acurácia em relação ao treinamento ruidoso (atingindo 83,37%).
- Expressão: Ganho de 15,29% em acurácia (atingindo 94,24%).
Comparação com Remoção: O DiffInf superou a estratégia de "remoção de auto-influência" em todas as métricas (Acurácia, AUROC e Kappa de Cohen), provando que reter e corrigir as amostras é melhor do que excluí-las.
Fidelidade Perceptual: As imagens corrigidas apresentaram baixas distâncias LPIPS (0,196–0,244) em relação às originais, indicando que as edições foram sutis, focadas nos atributos relevantes (ex: textura da pele para idade, configuração da boca para expressão) sem alterar a identidade ou criar artefatos visuais.

5. Significado e Conclusão

O trabalho do DiffInf oferece uma nova perspectiva sobre o aprendizado robusto com dados ruidosos:

Reinterpretação de Amostras de Alta Influência: Em vez de vê-las apenas como "ruído" a ser eliminado, o trabalho as trata como ativos informativos que contêm combinações de covariáveis raras, mas que possuem inconsistências semânticas.
Alinhamento no Nível de Dados: Ao corrigir a imagem para corresponder ao rótulo (e não apenas ajustar o rótulo ou a função de perda), o método restaura a coerência da distribuição de treinamento.
Preservação de Diversidade: Ao evitar a remoção de dados, o método preserva a diversidade do conjunto de dados, o que é crucial para a generalização em cenários do mundo real onde modos raros são importantes.

Em suma, o DiffInf demonstra que a integração de atribuição causal de dados (influência) com modelagem generativa (difusão) cria um pipeline de aprendizado mais estável e preciso para tarefas de análise facial complexas e ambíguas.