Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

Este artigo apresenta a abordagem multimodal da equipe LEYA para a 10ª Competição ABAW, que integra cenas, rosto, áudio e texto para reconhecimento de ambivalência e hesitação, alcançando uma pontuação de 71,43% em testes finais através de um ensemble de modelos de fusão aprimorados.

Elena Ryumina, Alexandr Axyonov, Dmitry Sysoev, Timur Abdulkadirov, Kirill Almetov, Yulia Morozova, Dmitry Ryumin

Publicado 2026-03-16
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando adivinhar se uma pessoa está realmente decidida a fazer algo ou se ela está dudando (hesitando) e dividida (ambivalente) sobre o assunto.

Esse é o desafio que a equipe LEYA enfrentou na 10ª Competição Mundial de Análise de Comportamento (ABAW). Eles criaram um "detetive digital" chamado LEYA para assistir a vídeos e descobrir se a pessoa está confusa ou indecisa.

Aqui está a explicação de como eles fizeram isso, usando analogias do dia a dia:

1. O Problema: O "Dilema" Humano

Quando alguém está indeciso, raramente mostra isso de um jeito óbvio. Não é como um sorriso de felicidade ou uma cara de raiva. É algo sutil.

  • A pessoa pode dizer "sim" (texto), mas a voz pode tremer (áudio).
  • O rosto pode parecer neutro, mas o corpo está inquieto (cena).
  • É como tentar ouvir uma conversa em uma festa barulhenta onde todos estão falando coisas diferentes ao mesmo tempo.

2. A Solução: A Equipe de Quatro Especialistas

Em vez de confiar em apenas uma pista, a equipe LEYA criou um sistema que funciona como uma equipe de detetives, onde cada um olha para uma parte diferente da história. Eles usam quatro "sentidos" (modos) ao mesmo tempo:

  • 🎥 O Detetive da Cena (Vídeo): Ele não olha apenas para o rosto, mas para o cenário inteiro. É como se ele estivesse observando a "energia" do ambiente. Se a pessoa está se mexendo muito, se o fundo muda, isso ajuda a entender a dinâmica. Ele usa uma tecnologia avançada (VideoMAE) que aprendeu a ver vídeos como se fosse um aluno de cinema muito estudioso.
  • 👤 O Detetive do Rosto (Face): Este foca apenas no rosto. Ele usa uma lupa digital para pegar cada microexpressão. Ele não olha para o rosto inteiro de uma vez, mas tira "fotos" rápidas, analisa a emoção de cada uma e depois faz uma média estatística (como um professor que tira a média das notas de um aluno para ver o desempenho geral).
  • 🎤 O Detetive da Voz (Áudio): Ele ouve a voz, mas não apenas as palavras. Ele analisa o tom, o ritmo e a emoção na voz. É como um cantor que consegue dizer se você está nervoso só pelo jeito que você canta, mesmo que você diga "estou calmo". Eles usam uma IA chamada Mamba para entender a sequência de sons, como se estivesse lendo uma partitura musical.
  • 📝 O Detetive das Palavras (Texto): Este lê o que a pessoa diz. Ele sabe que, às vezes, o que dizemos é o oposto do que sentimos. Ele usa modelos de linguagem (como um tradutor superinteligente) para entender o contexto e as nuances das frases.

3. A Grande Reunião: O "Fusão"

Aqui está a mágica. Ter quatro detetives é bom, mas eles precisam conversar entre si.

  • O sistema pega as conclusões de cada um e as coloca em uma sala de reuniões virtual.
  • Eles usam uma técnica especial chamada "Protótipos". Imagine que, antes da reunião, o sistema tem em mente dois "arquétipos" (modelos ideais): um de uma pessoa 100% decidida e outro de uma pessoa 100% indecisa.
  • Durante a análise, o sistema pergunta: "A combinação do que o Detetive da Voz, do Rosto, da Cena e do Texto disseram, se parece mais com o modelo de 'Decidido' ou com o de 'Indeciso'?"

4. O Resultado: A Vantagem da Equipe

O que eles descobriram foi fascinante:

  • Sozinho, o texto era o melhor detetive. Ler o que a pessoa diz era a pista mais forte.
  • Mas juntos, eles eram imparáveis. Quando os quatro trabalhavam juntos, a precisão subiu drasticamente.
  • O Segredo Final: Para ganhar a competição, eles não confiaram em apenas um "modelo final". Eles criaram 5 versões ligeiramente diferentes dessa equipe de detetives e pediram que todas votassem. A decisão final foi a média desses 5 votos. Isso é como ter 5 juízes em um concurso de culinária; se todos concordam, a nota é muito mais confiável.

Resumo em uma frase

A equipe LEYA venceu mostrando que, para entender a indecisão humana, não basta olhar para o rosto ou ouvir a voz; você precisa ouvir, ver, ler e sentir o ambiente ao mesmo tempo, e depois deixar que uma "inteligência coletiva" de várias IAs tome a decisão final.

Onde está o código?
Eles são generosos e deixaram todo o "manual de instruções" (o código) disponível publicamente para que outros pesquisadores possam aprender com eles e criar seus próprios detetives digitais!

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →