Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando adivinhar o que uma pessoa está sentindo apenas olhando para ela em um vídeo. Às vezes, ela está sorrindo, mas os ombros estão tensos. Às vezes, ela está gritando, mas é de alegria, não de raiva. Fazer isso em um ambiente real (com luzes ruins, pessoas se movendo, barulho de fundo) é como tentar ouvir uma conversa em uma festa lotada: é muito difícil separar o que é importante do que é apenas ruído.

Este artigo descreve como uma equipe de pesquisadores russos (Team RAS) criou um "detetive digital" superpoderoso para resolver esse problema. Eles participaram de uma grande competição chamada ABAW (Análise de Comportamento Afetivo na Natureza) e criaram um sistema que combina três "sentidos" diferentes para entender as emoções humanas com muito mais precisão.

Aqui está a explicação do funcionamento deles, usando analogias simples:

1. Os Três "Detetives" (Os Modos)

Em vez de confiar em apenas uma câmera ou um microfone, o sistema deles contrata três especialistas diferentes, cada um com uma habilidade única:

O Detetive Visual (Rosto):
Este especialista olha apenas para o rosto. Ele usa uma tecnologia chamada GRADA para analisar cada quadro do vídeo, como se fosse um fotógrafo que observa micro-expressões (um leve sobe de sobrancelha, um piscar de olhos rápido). Ele é muito bom em ver o que está acontecendo no momento exato.
- Analogia: É como um fotógrafo profissional que tira fotos de alta velocidade para capturar o momento exato de uma emoção.
O Detetive Comportamental (O "Cérebro" que entende o contexto):
Este é o diferencial da equipe. Eles usaram uma Inteligência Artificial muito avançada chamada Qwen3 (um modelo de linguagem visual). Em vez de apenas olhar para pixels, essa IA "assiste" ao vídeo e escreve uma pequena descrição do que está acontecendo. Ela pensa: "A pessoa está gesticulando muito, o corpo está tenso e o cenário é um escritório, então provavelmente é estresse, não apenas agitação."
- Analogia: Imagine um psicólogo que não só vê o rosto, mas lê a linguagem corporal e o ambiente para entender a história por trás da expressão.
O Detetive Sonoro (A Voz):
Este especialista foca no áudio. Mas ele é esperto: ele sabe que em vídeos reais, muitas vezes a pessoa não está falando, ou o microfone capta barulho de trânsito. Por isso, ele usa um filtro inteligente para ignorar os momentos em que a boca está fechada ou o som é apenas ruído, focando apenas nos momentos de fala real. Ele usa um modelo chamado WavLM para entender o tom e a intensidade da voz.
- Analogia: É como um engenheiro de som que usa fones de ouvido com cancelamento de ruído para ouvir apenas a voz da pessoa, ignorando o barulho da festa.

2. A Reunião de Equipe (A Fusão)

Agora, como esses três detetives trabalham juntos? A equipe testou duas formas de fazer essa "reunião":

Estratégia 1: O "Mestre das Sombras" (MoE Direcionado)
Imagine uma mesa de reunião onde cada especialista pode falar com qualquer outro. O sistema cria "pontes" entre eles. Se o Detetive Visual diz "ela está chorando", o Detetive Sonoro pode confirmar "sim, o choro é audível". Um "gerente" (um mecanismo de controle) decide, a cada segundo, quem está mais confiável. Se a câmera estiver embaçada, ele dá mais peso ao som. Se o som estiver cortado, ele confia mais no rosto.
- Metáfora: É como um maestro de orquestra que ajusta o volume de cada instrumento em tempo real para garantir que a música (a emoção) soe perfeita, mesmo que um instrumento falhe.
Estratégia 2: O "Filtro de Confiabilidade" (RAAV)
Nesta abordagem, o sistema foca principalmente no visual (rosto e comportamento) para definir o ritmo da emoção. O áudio entra como um "conselheiro" que dá dicas extras quando necessário. Se o visual é claro, o sistema ignora o áudio. Se o visual é ambíguo, ele pede ajuda ao áudio.
- Metáfora: É como dirigir um carro à noite. Você olha para a estrada (visual) o tempo todo, mas usa os faróis de neblina (áudio) apenas quando a visibilidade está ruim para ter certeza de que não há obstáculos.

3. O Resultado

O sistema foi testado em um banco de dados gigante de vídeos reais (Aff-Wild2), onde as pessoas estão em situações do dia a dia, não em estúdios perfeitos.

O que eles descobriram?
A combinação dos três "detetives" funcionou muito melhor do que qualquer um trabalhando sozinho.
- O "Detetive Comportamental" (o que usa a IA para descrever a cena) provou ser surpreendentemente útil, muitas vezes entendendo melhor a emoção do que apenas olhar para o rosto.
- A melhor estratégia foi a RAAV (a segunda opção), que conseguiu um índice de precisão de 0,658 (em uma escala onde 1 é perfeito). Isso é um resultado muito competitivo, mostrando que a equipe está no topo do mundo nessa tecnologia.

Resumo Final

A equipe Team RAS criou um sistema que não apenas "vê" e "ouve", mas também "compreende" o contexto. Ao misturar a análise de rostos, a leitura de linguagem corporal por uma IA avançada e a análise de voz, eles conseguiram ensinar o computador a entender as emoções humanas de forma muito mais humana e precisa, mesmo em situações caóticas e reais. É como dar ao computador um "olho clínico" e um "ouvido treinado" para sentir o que as pessoas estão sentindo.

Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

1. Os Três "Detetives" (Os Modos)

2. A Reunião de Equipe (A Fusão)

3. O Resultado

Resumo Final

Título: Abordagem Multimodal para Estimativa de Valência e Arousal na 10ª Competição ABAW

1. O Problema

2. Metodologia Proposta

A. Modalidade de Rosto (Face)

B. Modalidade de Comportamento (Behavior)

C. Modalidade de Áudio

D. Estratégias de Fusão Multimodal

3. Contribuições Principais

4. Resultados Experimentais

5. Significância e Conclusão

Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

1. Os Três "Detetives" (Os Modos)

2. A Reunião de Equipe (A Fusão)

3. O Resultado

Resumo Final

Título: Abordagem Multimodal para Estimativa de Valência e Arousal na 10ª Competição ABAW

1. O Problema

2. Metodologia Proposta

A. Modalidade de Rosto (Face)

B. Modalidade de Comportamento (Behavior)

C. Modalidade de Áudio

D. Estratégias de Fusão Multimodal

3. Contribuições Principais

4. Resultados Experimentais

5. Significância e Conclusão

Mais como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks