Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este artigo apresenta uma solução robusta para o 10º Desafio de Reconhecimento de Expressão da ABAW, utilizando um framework multimodal com atenção cruzada segura e dropout de modalidade para lidar eficazmente com oclusões, dados ausentes e desequilíbrio de classes, alcançando 60,79% de precisão no conjunto de validação Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando entender o que uma pessoa está sentindo apenas olhando para ela. Às vezes, ela está sorrindo, às vezes chorando. Mas e se ela cobrir o rosto com a mão? Ou se ela se virar para o lado e sair da câmera? Ou se a luz estiver ruim?

Neste cenário, um computador "cega" e perde a capacidade de entender a emoção. É exatamente esse o problema que a equipe do 10º Desafio ABAW tentou resolver com uma solução inteligente e robusta.

Aqui está uma explicação simples do que eles criaram, usando analogias do dia a dia:

1. O Problema: O Detetive Cego

A maioria dos sistemas de reconhecimento de emoção funciona como um detetive que só usa a visão. Se o suspeito (a pessoa) esconde o rosto ou sai da sala, o detetive desiste. Além disso, em filmes reais (dados do mundo real), a maioria das cenas mostra pessoas "neutras" ou "felizes", enquanto emoções raras como "medo" ou "nojo" aparecem muito pouco. Isso faz com que o computador aprenda a ignorar essas emoções raras.

2. A Solução: O Duplo Sentinela (Visão + Ouvido)

Os pesquisadores criaram um sistema que funciona como um duplo sentinela:

  • O Olho (Visão): Usa um "super-olho" (chamado BEiT-large) que analisa cada quadro do vídeo para ver expressões faciais.
  • O Ouvido (Áudio): Usa um "super-ouvido" (chamado WavLM-large) que escuta a voz, o tom e a entonação.

A ideia é: se o "Olho" não consegue ver nada (porque a pessoa cobriu o rosto), o "Ouvido" assume o comando e diz: "Ei, a voz dela está trêmula, ela deve estar com medo!".

3. O Truque Mágico: A "Atenção Segura"

A parte mais genial do trabalho é como eles lidam com quando a visão some totalmente.
Imagine que você está dirigindo e a neblina cobre o para-brisa. Um carro comum travaria. Mas o carro deles tem um sistema de segurança.

  • Eles treinaram o sistema propositalmente para "cegar" a visão aleatoriamente durante os estudos (como se fosse um treino de sobrevivência).
  • Quando a visão some de verdade, o sistema não entra em pânico. Ele usa uma "porta de emergência" (chamada Safe Cross-Attention) que bloqueia o sinal de erro e deixa o sistema confiar 100% no áudio. É como se o carro dissesse: "Ok, não vejo nada, vou confiar no GPS e no som do motor para continuar dirigindo".

4. Lidando com a Desigualdade: O "Foco nos Raros"

Como dito antes, o banco de dados tem muitas pessoas felizes e poucas com medo. Se você treinasse um aluno com muitas provas de "felicidade", ele nunca aprenderia a responder "medo".
Para resolver isso, eles usaram uma técnica chamada Focal Loss (Perda Focal).

  • Analogia: Imagine um professor que dá uma nota extra para os alunos que acertam as perguntas mais difíceis e ignora as perguntas fáceis que todo mundo já sabe. O sistema é forçado a prestar atenção nas emoções raras e difíceis, em vez de ficar preguiçoso e apenas adivinhar "feliz" o tempo todo.

5. Suavizando a Resposta: O "Voto Suave"

Às vezes, uma emoção muda rapidamente. Se o sistema analisar quadro por quadro, ele pode ficar confuso: "Agora é feliz, agora é triste, agora é feliz de novo!". Isso cria um efeito de "jitter" (tremedeira).
Para evitar isso, eles usam uma janela deslizante com votação suave.

  • Analogia: Em vez de perguntar a uma pessoa "Como você está?" a cada segundo, eles perguntam a um grupo de amigos sobre um intervalo de tempo (ex: "Como ela estava nos últimos 10 segundos?"). Eles somam todas as opiniões e tiram uma média. Isso suaviza a resposta, fazendo com que a transição de "triste" para "feliz" pareça natural, como uma onda, e não como um interruptor que liga e desliga.

O Resultado Final

Com essa combinação de "super-olho", "super-ouvido", "treino de cegueira" e "foco nos difíceis", o sistema conseguiu:

  • Não quebrar quando a pessoa sai da câmera.
  • Identificar melhor as emoções raras.
  • Ter uma precisão de 60,79% e um índice de qualidade (F1-score) de 0,5029 em um teste muito difícil.

Em resumo: Eles criaram um robô emocional que não é apenas inteligente, mas também resiliente. Ele sabe que o mundo é bagunçado, que as pessoas cobrem o rosto e que as emoções raras importam tanto quanto as comuns. E, principalmente, ele sabe o que fazer quando uma das suas "percepções" falha.