BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Este artigo apresenta o conjunto de dados BAH, um recurso multimodal com 1.427 vídeos de 300 participantes, destinado ao reconhecimento automático de ambivalência e hesitação em intervenções digitais de mudança comportamental, incluindo anotações de especialistas e resultados de benchmarks que destacam a necessidade de modelos avançados para essa tarefa.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan, Masoumeh Sharafi, Muhammad Haseeb Aslam, Marco Pedersoli, Alessandro Lameiras Koerich, Simon L Bacon, Eric Granger

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando convencer um amigo a começar a fazer exercícios, mas ele fica meio "meio a meio". Ele diz "sim, eu quero", mas ao mesmo tempo dá de ombros, olha para o lado e hesita antes de responder. Essa mistura de sentimentos — querer e não querer ao mesmo tempo — é o que os cientistas chamam de Ambivalência ou Hesitação.

No mundo da saúde digital (como aplicativos que ajudam você a parar de fumar ou a comer melhor), detectar essa hesitação é crucial. Se o aplicativo não perceber que o usuário está em dúvida, ele não saberá como ajudar. Mas, até agora, ensinar computadores a "ler" essa dúvida era como tentar adivinhar o que um gato está pensando: muito difícil e sem muitas pistas.

É aqui que entra este novo estudo, publicado por um grupo de pesquisadores canadenses, apresentando o Dataset BAH.

O que é o Dataset BAH?

Pense no BAH como um "Livro de Receitas de Dúvidas".

Os pesquisadores criaram um banco de dados gigante com 1.427 vídeos de 300 pessoas reais no Canadá. Eles não apenas filmaram as pessoas; eles as colocaram em uma situação específica: um "avatar" (um boneco virtual na tela) fazia perguntas sobre hábitos de vida, como "O que você faz ao acordar?" ou "O que você gosta, mas sabe que deveria parar?".

O objetivo? Fazer as pessoas revelarem suas dúvidas e hesitações naturalmente. O resultado foi um arquivo de vídeo de mais de 10 horas, onde as pessoas mostram, sem querer, quando estão indecisas.

Como os cientistas "ensinaram" o computador?

Para criar esse livro de receitas, eles precisaram de especialistas humanos (como chefs de cozinha) para analisar cada vídeo. Três especialistas assistiram aos vídeos e marcaram exatamente quando a hesitação acontecia e quais eram os sinais.

Eles olharam para quatro "ingredientes" principais:

  1. O Rosto: Um sorriso que não chega aos olhos, um olhar para o lado.
  2. A Voz: Uma pausa estranha, um tom de voz trêmulo.
  3. As Palavras: Usar palavras como "talvez", "mas", ou repetir coisas.
  4. O Corpo: Mexer as mãos, mudar de postura, suspirar.

O mais interessante é que a hesitação muitas vezes acontece quando há um conflito. Por exemplo: a pessoa diz "Sim, eu vou fazer isso" (palavras), mas balança a cabeça negativamente (corpo) e tem um tom de voz triste (voz). O computador precisa aprender a detectar essa "briga" entre os sinais.

O Desafio: Por que é tão difícil?

O estudo mostrou que, mesmo com esse "livro de receitas" novo e completo, os computadores atuais ainda têm dificuldade. É como tentar ensinar um robô a dançar samba apenas mostrando fotos de pessoas dançando.

Os testes iniciais revelaram que:

  • O contexto importa: Olhar apenas para um quadro congelado (uma foto) não ajuda. O computador precisa ver a sequência, como uma cena de filme, para entender a hesitação.
  • A mistura é complexa: Não basta olhar só para o rosto ou só para a voz. O computador precisa entender como a voz e o rosto "conversam" (ou brigam) entre si.
  • É sutil: A hesitação dura poucos segundos (em média 4 segundos). É um flash rápido de dúvida que exige atenção total.

Por que isso é importante para você?

Imagine um personal trainer virtual ou um terapeuta de bolso no seu celular.

  • Hoje: Se você hesitar, o aplicativo pode insistir na mesma mensagem chata, e você pode desistir de usar o app.
  • Com o BAH: No futuro, o aplicativo poderá "perceber" que você está hesitante. Ele pode mudar de tática: "Ei, notei que você está em dúvida. Vamos conversar sobre o que te preocupa?" ou "Que tal começarmos com algo bem pequeno?".

Isso torna a tecnologia mais humana, mais empática e muito mais eficaz para mudar comportamentos de saúde.

Resumo da Ópera

Os pesquisadores criaram o maior e mais detalhado "arquivo de dúvidas humanas" já feito para vídeos. Eles mostraram que, embora seja difícil ensinar máquinas a entender essa nuance emocional, agora temos as ferramentas (os dados e o código) para começar a construir assistentes digitais que não apenas veem o que você diz, mas sentem o que você está realmente pensando.

É um passo gigante para que a tecnologia de saúde deixe de ser um robô frio e passe a ser um parceiro que realmente entende a nossa humanidade.