TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô superinteligente a entender o que as pessoas estão sentindo apenas olhando para o rosto delas. O problema é que, até agora, esses robôs eram como crianças que decoraram um livro de contos de fadas, mas não entendem a realidade.

Eles podiam dizer: "Ah, essa pessoa está triste porque parece um personagem triste de um filme", mas se você perguntasse "onde exatamente você viu a tristeza?", eles não conseguiam apontar. Eles apenas "adivinham" com base em padrões gerais, o que é perigoso e pouco confiável.

Este artigo apresenta uma solução chamada TAG (Pensando com Base em Unidades de Ação). Vamos usar uma analogia simples para entender como funciona:

1. O Problema: O "Detetive que Alucina"

Antes do TAG, os modelos de Inteligência Artificial (IA) funcionavam como um detetive que nunca foi ao local do crime. Ele lia o relatório (a imagem) e inventava uma história convincente: "O suspeito estava nervoso porque o cenário parecia tenso". Mas, na verdade, ele não tinha visto nada de perto. Isso se chama alucinação: a IA cria explicações que soam bem, mas não têm base na realidade visual.

2. A Solução: O "Médico Forense" (TAG)

Os autores do TAG decidiram que, para um robô entender emoções, ele precisa agir como um médico forense ou um cientista, não como um contador de histórias.

Eles usaram um conceito chamado Unidades de Ação (AUs). Pense nas AUs como os "músculos da cara".

Se você levanta a sobrancelha, é uma Unidade de Ação.
Se você contrai o canto da boca, é outra.
Se você franze a testa, é mais uma.

O sistema de classificação de expressões faciais (chamado FACS) é como um "manual de anatomia" que diz exatamente qual músculo se move para criar cada emoção.

3. Como o TAG Funciona: O Treinamento em Duas Etapas

O TAG ensina o robô a pensar de forma diferente, em duas etapas principais:

Etapa 1: O Estágio de Aprendizado (SFT) - "Aprenda a usar a lupa"
Imagine que você está ensinando uma criança a identificar frutas. Em vez de apenas mostrar a fruta e dizer "é uma maçã", você pega uma lupa e mostra: "Olhe aqui, a casca é vermelha e tem um talo verde".

O TAG faz isso. Ele força o robô a olhar para a imagem e dizer: "Vejo que a região da boca está puxada para cima (apontando o local exato na imagem) e isso corresponde ao músculo X".
O robô é obrigado a apontar (com um retângulo na tela) para onde está vendo a emoção antes de dar o nome da emoção. Isso impede que ele "chute" sem olhar.

Etapa 2: O Estágio de Refinamento (Reforço) - "O Chefe rigoroso"
Depois que o robô aprendeu a usar a lupa, os autores colocam um "chefe" (um detector de músculos facial já existente e muito bom) para corrigi-lo.

Se o robô diz: "A boca está sorrindo" e aponta para o olho, o "chefe" diz: "Errado! Você apontou para o lugar errado. Tente de novo".
Se o robô aponta para o lugar certo, ele ganha um "ponto de bônus".
Isso treina o robô a não apenas acertar a resposta final, mas a acertar a justificativa visual.

4. Por que isso é importante? (A Analogia do Advogado)

Imagine que um advogado precisa convencer um juiz.

O modelo antigo era como um advogado que dizia: "Meu cliente é inocente porque ele parece inocente". O juiz não confia, pois não há provas.
O TAG é como um advogado que diz: "Meu cliente é inocente. Aqui estão as provas: a câmera de segurança mostra que ele estava no outro lado da rua (aponta para a imagem), e o relógio confirma o horário".

O TAG torna a decisão da IA verificável. Se você não acredita que a pessoa está triste, pode olhar para a imagem, ver onde o robô apontou (as sobrancelhas caídas, a boca tristonha) e dizer: "Ok, ele tem razão, os músculos estão realmente assim".

5. Os Resultados

Os pesquisadores testaram esse método em três grandes bancos de dados de rostos. O resultado foi impressionante:

O TAG foi mais preciso do que modelos gigantes e caros que não usam essa técnica.
Ele alucinou muito menos. As explicações que ele deu eram sempre baseadas no que estava realmente visível na foto.
Funcionou bem mesmo em fotos de pessoas que ele nunca tinha visto antes (generalização).

Resumo Final

O TAG é como ensinar um robô a não apenas "adivinhar" o que você sente, mas a provar o que ele está vendo, músculo por músculo. Ele transforma a Inteligência Artificial de um "sonhador" que inventa histórias em um "cientista" que observa a realidade e aponta as evidências.

Isso é crucial para o futuro, porque em áreas como saúde mental ou interação com humanos, não basta a máquina acertar o número; precisamos confiar em por que ela chegou a essa conclusão. O TAG nos dá essa confiança.

Each language version is independently generated for its own context, not a direct translation.

Título: TAG: Pensando com Ancoragem em Unidades de Ação para Reconhecimento de Expressões Faciais

1. O Problema

O Reconhecimento de Expressões Faciais (FER) é uma tarefa fundamental na visão computacional, mas os sistemas modernos, especialmente os baseados em Redes Neurais Profundas e Modelos de Linguagem Visuais (VLMs), operam frequentemente como "caixas-pretas".

Falta de Grounding (Ancoragem): Embora os VLMs recentes possam gerar explicações em linguagem natural, essas explicações são frequentemente "desancoradas" (ungrounded). Elas são fluentes e plausíveis, mas não estão estritamente ligadas a evidências visuais locais na imagem.
Alucinação e Robustez: Essa desconexão leva a alucinações (descrever características que não existem) e raciocínio baseado em viéses de dados em vez de evidências fisiológicas reais. Isso resulta em baixa robustez quando os modelos são avaliados em diferentes conjuntos de dados.
Necessidade de Interpretabilidade: Em cenários de alto risco (saúde mental, interação humano-computador), é crucial que o modelo não apenas preveja a emoção, mas forneça evidências verificáveis de por que fez essa previsão.

2. Metodologia: TAG (Thinking with Action Unit Grounding)

Os autores propõem o TAG, um framework de visão-linguagem que força o raciocínio do modelo a ser explicitamente ancorado em Unidades de Ação (AUs) faciais, conforme definido pelo Sistema de Codificação de Ação Facial (FACS). As AUs representam ativações musculares localizadas e fisiologicamente significativas.

O framework opera em duas etapas principais de treinamento:

A. Construção do Dataset (TAG-310k)

Foi criado um dataset em larga escala (310k amostras) agregando dados de benchmarks populares (RAF-DB, FERPlus, AffectNet).
Processo: Imagens são filtradas por qualidade, detectadas por detectores de AUs (como GraphAU) e marcadores faciais.
Geração de Rastros de Raciocínio: Um VLM (Qwen2.5-VL) gera traços de raciocínio estruturados que devem:
1. Realizar uma análise global.
2. Identificar regiões locais específicas usando bounding boxes (<bbox>) que correspondem a AUs ativadas.
3. Concluir com a etiqueta de emoção.
Estratégia de Eliminação Iterativa: Se a previsão inicial estiver errada, o modelo é forçado a eliminar a etiqueta incorreta e tentar novamente, refinando o raciocínio sem receber a resposta correta diretamente, promovendo aprendizado mais fiel.

B. Treinamento do Modelo

O treinamento segue uma abordagem de dois estágios:

Ajuste Fino Supervisionado (SFT):
- O modelo é treinado no dataset TAG-310k para aprender a gerar traços de raciocínio estruturados que incluem coordenadas de caixas delimitadoras vinculadas a evidências de AUs.
- O objetivo é ensinar o modelo a "pensar" usando evidências musculares localizadas antes de dar a resposta final.
Aprendizado por Reforço (RL) com Recompensa Consciente de AU:
- Utiliza o algoritmo GRPO (Group Relative Policy Optimization).
- Função de Recompensa: Composta por três partes:
  - Recompensa de Resposta ( $R_{ans}$ ): Precisão da etiqueta final.
  - Recompensa de Formato ( $R_{fmt}$ ): Conformidade com a estrutura de saída (tags <bbox>, <answer>).
  - Recompensa de Grounding de AU ( $R_{AU}$ ): O componente crítico. Calcula o IoU (Interseção sobre União) entre as caixas delimitadoras previstas pelo modelo e as caixas de AUs detectadas por um detector externo. Isso penaliza alucinações visuais e recompensa a atenção correta a regiões fisiológicas.

3. Principais Contribuições

Identificação da Limitação de Grounding: Demonstra que explicações fluentes sem ancoragem visual robusta levam a falhas de generalização e alucinações em FER.
Framework TAG: Propõe um método que integra explicitamente AUs como representação intermediária estruturada entre pixels brutos e rótulos de emoção, forçando o raciocínio a ser verificável.
Dataset TAG-310k: Criação de um grande corpus de traços de raciocínio ancorados em AUs, permitindo o treinamento supervisionado e por reforço de raciocínio multimodal fiel.
Recompensa de IoU de AU: Introduz uma função de recompensa que alinha as previsões espaciais do modelo com detectores de AU externos, mitigando a degradação do grounding comum em RL não supervisionado.

4. Resultados Experimentais

O TAG foi avaliado em três benchmarks principais: RAF-DB, FERPlus e AffectNet.

Desempenho de Precisão:
- O modelo TAG (7B parâmetros) superou significativamente VLMs de código aberto (como LLaVA, InternVL) e modelos fechados (GPT-5, Gemini) em configurações Zero-Shot e Fine-Tuned.
- Com ajuste por conjunto de dados (RL específico), atingiu 92.80% de precisão no RAF-DB, 91.50% no FERPlus e 67.03% no AffectNet, superando métodos específicos de FER e VLMs muito maiores.
Fidelidade Visual e Robustez:
- Estudos de ablação mostraram que o RL sem a recompensa de AU ( $R_{AU}$ ) aumenta a precisão, mas degrada o IoU (a qualidade da ancoragem visual), levando a alucinações.
- O TAG completo mantém e melhora o IoU (atingindo ~60% no RAF-DB), provando que a precisão é alcançada através de raciocínio visual fiel, não de atalhos.
Avaliação Humana e por LLM:
- Em comparações cegas, avaliadores humanos e LLMs (GPT-5) preferiram consistentemente as explicações do TAG (66-72% de preferência) em relação a baselines, citando maior precisão anatômica e coerência lógica.

5. Significado e Impacto

Paradigma de Raciocínio Confiável: O trabalho estabelece um novo padrão para sistemas de IA afetiva, onde a interpretabilidade não é apenas uma explicação textual, mas uma evidência visual verificável.
Mitigação de Alucinações: Ao vincular o raciocínio a estruturas fisiológicas (AUs), o modelo torna-se menos propenso a inventar detalhes, aumentando a confiança em aplicações críticas como diagnóstico psicológico ou monitoramento de segurança.
Generalização: A abordagem demonstra que o uso de representações intermediárias estruturadas (como AUs) pode estabilizar o aprendizado por reforço em tarefas visuais complexas, permitindo que modelos menores superem modelos maiores e fechados.

Em resumo, o TAG transforma o reconhecimento de expressões faciais de uma previsão baseada em aparência global para um processo de raciocínio baseado em evidências, onde cada decisão é apoiada por "provas" visuais localizadas e fisiologicamente fundamentadas.