Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando adivinhar se uma pessoa está realmente decidida a fazer algo ou se ela está dudando (hesitando) e dividida (ambivalente) sobre o assunto.

Esse é o desafio que a equipe LEYA enfrentou na 10ª Competição Mundial de Análise de Comportamento (ABAW). Eles criaram um "detetive digital" chamado LEYA para assistir a vídeos e descobrir se a pessoa está confusa ou indecisa.

Aqui está a explicação de como eles fizeram isso, usando analogias do dia a dia:

1. O Problema: O "Dilema" Humano

Quando alguém está indeciso, raramente mostra isso de um jeito óbvio. Não é como um sorriso de felicidade ou uma cara de raiva. É algo sutil.

A pessoa pode dizer "sim" (texto), mas a voz pode tremer (áudio).
O rosto pode parecer neutro, mas o corpo está inquieto (cena).
É como tentar ouvir uma conversa em uma festa barulhenta onde todos estão falando coisas diferentes ao mesmo tempo.

2. A Solução: A Equipe de Quatro Especialistas

Em vez de confiar em apenas uma pista, a equipe LEYA criou um sistema que funciona como uma equipe de detetives, onde cada um olha para uma parte diferente da história. Eles usam quatro "sentidos" (modos) ao mesmo tempo:

🎥 O Detetive da Cena (Vídeo): Ele não olha apenas para o rosto, mas para o cenário inteiro. É como se ele estivesse observando a "energia" do ambiente. Se a pessoa está se mexendo muito, se o fundo muda, isso ajuda a entender a dinâmica. Ele usa uma tecnologia avançada (VideoMAE) que aprendeu a ver vídeos como se fosse um aluno de cinema muito estudioso.
👤 O Detetive do Rosto (Face): Este foca apenas no rosto. Ele usa uma lupa digital para pegar cada microexpressão. Ele não olha para o rosto inteiro de uma vez, mas tira "fotos" rápidas, analisa a emoção de cada uma e depois faz uma média estatística (como um professor que tira a média das notas de um aluno para ver o desempenho geral).
🎤 O Detetive da Voz (Áudio): Ele ouve a voz, mas não apenas as palavras. Ele analisa o tom, o ritmo e a emoção na voz. É como um cantor que consegue dizer se você está nervoso só pelo jeito que você canta, mesmo que você diga "estou calmo". Eles usam uma IA chamada Mamba para entender a sequência de sons, como se estivesse lendo uma partitura musical.
📝 O Detetive das Palavras (Texto): Este lê o que a pessoa diz. Ele sabe que, às vezes, o que dizemos é o oposto do que sentimos. Ele usa modelos de linguagem (como um tradutor superinteligente) para entender o contexto e as nuances das frases.

3. A Grande Reunião: O "Fusão"

Aqui está a mágica. Ter quatro detetives é bom, mas eles precisam conversar entre si.

O sistema pega as conclusões de cada um e as coloca em uma sala de reuniões virtual.
Eles usam uma técnica especial chamada "Protótipos". Imagine que, antes da reunião, o sistema tem em mente dois "arquétipos" (modelos ideais): um de uma pessoa 100% decidida e outro de uma pessoa 100% indecisa.
Durante a análise, o sistema pergunta: "A combinação do que o Detetive da Voz, do Rosto, da Cena e do Texto disseram, se parece mais com o modelo de 'Decidido' ou com o de 'Indeciso'?"

4. O Resultado: A Vantagem da Equipe

O que eles descobriram foi fascinante:

Sozinho, o texto era o melhor detetive. Ler o que a pessoa diz era a pista mais forte.
Mas juntos, eles eram imparáveis. Quando os quatro trabalhavam juntos, a precisão subiu drasticamente.
O Segredo Final: Para ganhar a competição, eles não confiaram em apenas um "modelo final". Eles criaram 5 versões ligeiramente diferentes dessa equipe de detetives e pediram que todas votassem. A decisão final foi a média desses 5 votos. Isso é como ter 5 juízes em um concurso de culinária; se todos concordam, a nota é muito mais confiável.

Resumo em uma frase

A equipe LEYA venceu mostrando que, para entender a indecisão humana, não basta olhar para o rosto ou ouvir a voz; você precisa ouvir, ver, ler e sentir o ambiente ao mesmo tempo, e depois deixar que uma "inteligência coletiva" de várias IAs tome a decisão final.

Onde está o código?
Eles são generosos e deixaram todo o "manual de instruções" (o código) disponível publicamente para que outros pesquisadores possam aprender com eles e criar seus próprios detetives digitais!

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

1. O Problema: O "Dilema" Humano

2. A Solução: A Equipe de Quatro Especialistas

3. A Grande Reunião: O "Fusão"

4. O Resultado: A Vantagem da Equipe

Resumo em uma frase

Resumo Técnico: Abordagem Multimodal para Reconhecimento de Ambivalência/Hesitação

1. Problema e Contexto

2. Metodologia Proposta

3. Resultados Experimentais

4. Contribuições Principais

5. Significado e Conclusão

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

1. O Problema: O "Dilema" Humano

2. A Solução: A Equipe de Quatro Especialistas

3. A Grande Reunião: O "Fusão"

4. O Resultado: A Vantagem da Equipe

Resumo em uma frase

Resumo Técnico: Abordagem Multimodal para Reconhecimento de Ambivalência/Hesitação

1. Problema e Contexto

2. Metodologia Proposta

3. Resultados Experimentais

4. Contribuições Principais

5. Significado e Conclusão

Mais como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks