HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando entender o que as pessoas estão sentindo apenas olhando para vídeos delas, sem ouvir o que dizem e sem saber o contexto. Às vezes, a pessoa está com raiva, às vezes feliz, e às vezes está apenas cansada. O desafio é que o vídeo pode estar tremido, a luz pode estar ruim, e a pessoa pode estar de lado.

O artigo que você leu é o relatório de uma equipe chamada HSEmotion, que participou de uma grande competição mundial (a ABAW-10) para ver quem consegue fazer essa "leitura de emoções" e "detecção de violência" da melhor forma.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Grande Desafio: Ler o Rosto em Meio ao Caos

Pense no vídeo como uma tempestade de fotos rápidas. A equipe precisava analisar cada foto (quadro) para dizer: "Essa pessoa está feliz", "Essa está com raiva" ou "Essa está com dor".

O problema: As emoções mudam rápido, e os dados de treinamento (as fotos que a IA aprendeu) têm muito mais exemplos de pessoas "neutras" do que de pessoas "furiosas". É como tentar aprender a cozinhar um prato raro quando você só tem receitas de arroz branco.
A solução deles: Eles criaram um sistema que funciona como um filtro inteligente.

2. A Estratégia Principal: O "Sistema de Dupla Checagem" (Para Emoções)

Para entender as emoções (Rosto, Valência-Arousal e Unidades de Ação), eles usaram uma abordagem de dois passos, como se fosse um chefe de cozinha e um ajudante:

O Especialista Experiente (Modelo Pré-treinado): Primeiro, eles usam um modelo de IA muito forte que já viu milhões de fotos de rostos (treinado no banco de dados "AffectNet"). Esse especialista é muito rápido e confiante.
- A Regra de Ouro: Se o especialista diz "Tenho 95% de certeza que é Alegria", o sistema aceita a resposta dele imediatamente. Não precisa pensar muito.
O Analista Cuidadoso (MLP): Se o especialista estiver inseguro (dizer "Hmm, talvez seja Alegria, talvez seja Surpresa"), o sistema passa a foto para um "ajudante" (um modelo mais simples treinado especificamente para os dados da competição).
- Esse ajudante é treinado para corrigir os erros do especialista, especialmente quando as emoções são raras (como "Nojo" ou "Medo").

O Truque do "Suavizador":
Como os vídeos são sequências de fotos, às vezes a IA erra em uma foto e acerta na próxima (ex: "Triste" -> "Feliz" -> "Triste"). Isso parece um vídeo travado.

Eles usaram uma janela deslizante (como um vidro de janela que se move suavemente). Em vez de olhar apenas para a foto atual, o sistema olha para as fotos de antes e de depois, faz uma média e "suaviza" a resposta. É como se você dissesse: "Ela não mudou de triste para feliz em 1 segundo, ela provavelmente está apenas sorrindo um pouco".

3. Ajustando a Balança (GLA)

Como mencionado, há muito mais fotos de pessoas "neutras" do que de pessoas "furiosas". A IA tende a chutar "neutro" para tudo para ganhar pontos.

Eles usaram uma técnica chamada GLA (Ajuste de Logit Generalizado). Imagine que você está pesando frutas em uma balança desregulada. O GLA é como colocar um peso extra no prato da fruta rara (a emoção rara) para que a balança fique justa e a IA não ignore as emoções difíceis.

4. Detectando Violência: O Detetive de Ação

Para a tarefa de detectar violência (brigas, agressões), a estratégia muda. Não basta olhar só o rosto; é preciso ver o corpo todo e o movimento.

A Analogia: Se você quer saber se uma briga está acontecendo, olhar só para o rosto da pessoa pode não ajudar (ela pode estar gritando de dor, mas não está batendo em ninguém). Você precisa ver os punhos, a corrida, o empurrão.
A Solução: Eles usaram um modelo chamado ConvNeXt (uma rede neural moderna) que olha para o quadro inteiro, não apenas para o rosto.
O "Cronômetro": Eles combinaram isso com um modelo de tempo (TCN ou BiLSTM) que entende a sequência de movimentos. É como assistir a um filme em câmera lenta para entender a dinâmica da briga, em vez de apenas olhar uma foto estática.
O Resultado: Eles descobriram que olhar para o quadro inteiro com um modelo 2D moderno e adicionar um "olhar" para o tempo (movimento) funcionou muito melhor do que tentar usar modelos 3D complexos e pesados.

5. O Resultado Final

A equipe HSEmotion mostrou que você não precisa de computadores gigantes e supercomplexos para ter ótimos resultados.

A Lição: Um sistema leve, rápido e bem calibrado (que sabe quando confiar no especialista e quando pedir ajuda) vence os sistemas pesados e complicados.
Eles conseguiram melhorar muito as métricas de precisão em todas as tarefas: reconhecer emoções, medir a intensidade da emoção (Valência-Arousal), detectar micro-movimentos faciais e identificar violência.

Resumo da Ópera:
Eles criaram um "olho digital" que é esperto o suficiente para saber quando está confiante e quando precisa pedir ajuda, que ajusta a balança para não ignorar emoções raras e que suaviza as respostas para não parecer que a pessoa está mudando de humor a cada milissegundo. Tudo isso feito de forma eficiente, sem gastar energia computacional desnecessária.

Each language version is independently generated for its own context, not a direct translation.

Visão Geral

Este artigo apresenta os resultados da equipe HSEmotion na 10ª edição da competição ABAW (Affective Behavior Analysis in-the-Wild). O trabalho foca em quatro tarefas principais de análise de comportamento afetivo em cenários não controlados ("in-the-wild"):

Reconhecimento de Expressões Faciais (FER/EXPR): Classificação de 8 emoções básicas por quadro.
Estimativa de Valência-Arousal (VA): Predição contínua de valência e excitação.
Detecção de Unidades de Ação (AU): Identificação de 12 micro-expressões faciais.
Classificação de Violência de Alta Granularidade (VD): Detecção de violência em vídeos completos.

A equipe propõe uma abordagem leve, robusta e computacionalmente eficiente que supera significativamente as linhas de base (baselines) dos organizadores e concorrentes anteriores, utilizando uma combinação inteligente de modelos pré-treinados, ajuste de viés e fusão multimodal.

1. Metodologia Proposta

A abordagem central da equipe baseia-se na extração de embeddings faciais de alta qualidade a partir de modelos pré-treinados, seguidos por classificadores simples e técnicas de pós-processamento para lidar com desequilíbrio de classes e ruído temporal.

A. Tarefas de Análise Facial (EXPR, VA, AU)

Para as tarefas baseadas no conjunto de dados AffWild2, o pipeline segue os seguintes passos (ilustrado na Fig. 1 do artigo):

Extração de Embeddings:
- Utilização de arquiteturas leves e pré-treinadas (como EfficientNet, DDAMFN, MobileViT) da biblioteca EmotiEffLib.
- Estes modelos foram pré-treinados no dataset AffectNet para reconhecimento de emoções.
- Para cada quadro do vídeo, extrai-se o embedding da região facial.
Classificação e Ajuste de Viés (Calibration):
- Os embeddings são alimentados em um MLP (Perceptron Multicamadas) simples (1 camada oculta).
- GLA (Generalized Logit Adjustment): Devido ao forte desequilíbrio de classes no AffWild2, aplica-se o GLA para calibrar os logits do classificador, maximizando o F1-score no conjunto de validação.
- Filtragem por Confiança: Se a confiança do modelo pré-treinado (antes do MLP) exceder um limiar alto ( $p_0 \approx 0.8-0.9$ ), a previsão do modelo pré-treinado é usada diretamente. Caso contrário, usa-se a saída do MLP ajustado.
Suavização Temporal:
- Para mitigar ruídos nas previsões quadro a quadro, aplica-se uma janela deslizante (sliding window) para suavizar as probabilidades ou previsões finais.
Fusão Multimodal (Opcional):
- Para FER e VA, extraem-se características de áudio usando wav2vec 2.0.
- As previsões de vídeo e áudio são combinadas (blending) com pesos ajustáveis para melhorar a robustez.

B. Detecção de Violência (VD)

Para a tarefa de violência no dataset DVD, a abordagem difere, pois requer análise do quadro completo (movimento corporal, contexto) e não apenas do rosto:

Arquitetura de Backbone:
- Utilização de ConvNeXt-T (pré-treinado no ImageNet-1K) para extrair características espaciais de 768 dimensões por quadro.
Modelagem Temporal:
- As características são processadas por um TCN (Temporal Convolutional Network) de 5 camadas com dilatação ou um BiLSTM.
Fusão Multimodal (Melhor Variante):
- Adição de características de esqueleto (pose) extraídas via MediaPipe Pose.
- As coordenadas, velocidades e distâncias de interação são projetadas e fundidas com as características RGB via mecanismo de atenção cruzada (cross-attention), seguidas por um BiLSTM.
Treinamento:
- Uso de loss ponderada para lidar com o desequilíbrio entre classes violentas e não violentas.

2. Principais Contribuições

Pipeline Leve e Eficiente: Demonstração de que uma arquitetura simples (Embedding + MLP leve + Suavização) pode superar arquiteturas complexas baseadas em Transformers pesados ou fusão multimodal intrincada, mantendo alta precisão.
Tratamento de Desequilíbrio e Ruído: A aplicação sistemática de GLA (Generalized Logit Adjustment) e filtragem baseada em confiança para lidar com o desequilíbrio severo de classes e anotações ruidosas típicas de dados "in-the-wild".
Transição Tecnológica: A equipe migrou de TensorFlow 2.x para PyTorch, tornando o código mais acessível à comunidade de pesquisa atual.
Abordagem Híbrida para VD: Eficácia de combinar encoders 2D fortes (ConvNeXt) com modelagem temporal simples, superando arquiteturas 3D tradicionais (como R(2+1)D) para detecção de violência quadro a quadro.

3. Resultados Experimentais

Os resultados foram avaliados nos conjuntos de validação oficiais do AffWild2 e DVD:

Reconhecimento de Expressões (EXPR):
- A melhor configuração (EmotiEffNet + wav2vec + GLA + filtragem + suavização) alcançou 47.40% de F1-score e 57.98% de Acurácia.
- Isso supera significativamente a linha de base VGGFACE (25.0% F1) e métodos anteriores complexos.
Estimativa de Valência-Arousal (VA):
- O modelo MT-DDAMFN + MLP + suavização alcançou CCC V = 0.510 e CCC A = 0.615 (Média PVA = 0.562).
- Superou a linha de base ResNet-50 (0.22 PVA) e métodos puramente baseados em áudio.
Detecção de Unidades de Ação (AU):
- A abordagem com embeddings + suavização + ajuste de limiar atingiu 54.7% de F1-score macro.
- Fechou a lacuna para os melhores pipelines multimodais (que atingem ~58%), mas com uma arquitetura muito mais simples.
Detecção de Violência (VD):
- O modelo ConvNeXt-T + TCN alcançou 0.783 de Macro F1.
- A versão multimodal (RGB + Esqueleto) atingiu 0.772.
- Estes resultados representam uma melhoria de mais de 0.14 em relação à linha de base do desafio ABAW-9 (0.640), demonstrando que encoders 2D fortes são superiores a backbones 3D para esta tarefa específica.

4. Significância e Conclusão

O trabalho da equipe HSEmotion é significativo por demonstrar que, em problemas de análise afetiva no mundo real, a eficiência computacional e a calibração cuidadosa são tão importantes quanto a complexidade do modelo.

Aplicabilidade Real: O pipeline proposto é robusto a oclusões, variações de pose e iluminação, e é computacionalmente leve, tornando-o viável para aplicações em tempo real (ex: segurança, monitoramento de saúde mental, interação humano-computador).
Reprodutibilidade: O código foi disponibilizado publicamente, facilitando a reprodução dos resultados e o avanço da comunidade.
Insight Técnico: O estudo valida que a combinação de representações espaciais ricas (via modelos pré-treinados em grandes datasets como ImageNet/AffectNet) com mecanismos de correção de viés e suavização temporal é uma estratégia superior para lidar com a natureza ruidosa e desbalanceada dos dados afetivos "in-the-wild".

Em resumo, a equipe provou que uma abordagem pragmática e bem calibrada pode superar soluções de ponta excessivamente complexas, estabelecendo novos patamares de desempenho nas tarefas do ABAW-10.

HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

1. O Grande Desafio: Ler o Rosto em Meio ao Caos

2. A Estratégia Principal: O "Sistema de Dupla Checagem" (Para Emoções)

3. Ajustando a Balança (GLA)

4. Detectando Violência: O Detetive de Ação

5. O Resultado Final

Visão Geral

1. Metodologia Proposta

A. Tarefas de Análise Facial (EXPR, VA, AU)

B. Detecção de Violência (VD)

2. Principais Contribuições

3. Resultados Experimentais

4. Significância e Conclusão

Mais como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks