BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Este artículo presenta el conjunto de datos BAH, un recurso multimodal con 1.427 videos de 300 participantes etiquetados por expertos para el reconocimiento automático de ambivalencia y hesitación en intervenciones digitales de cambio de comportamiento, junto con resultados de referencia que destacan la necesidad de modelos espaciotemporales adaptados.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan, Masoumeh Sharafi, Muhammad Haseeb Aslam, Marco Pedersoli, Alessandro Lameiras Koerich, Simon L Bacon, Eric Granger

Publicado 2026-03-05
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un amigo muy sabio, un "detective de emociones", que puede decirte exactamente cuándo alguien está dudando o si está dividido entre hacer algo y no hacerlo. Normalmente, solo los terapeutas o médicos expertos pueden hacer esto mirando a una persona a los ojos, escuchando su voz y notando si sus manos se mueven de forma nerviosa.

Pero, ¿qué pasa si quieres que una app o un robot haga lo mismo? ¡Es muy difícil!

Esta paper (artículo científico) presenta una solución genial: un nuevo "libro de entrenamiento" llamado BAH (por sus siglas en inglés: Ambivalencia/Reticencia Conductual).

Aquí te explico de qué trata, usando analogías sencillas:

1. El Problema: El "Sí, pero..." de la vida real

Imagina que alguien quiere empezar a hacer ejercicio.

  • La parte positiva: "¡Quiero correr, me sentiré genial!"
  • La parte negativa: "Pero... hace frío, me da pereza, y además me duele la rodilla."

Esa mezcla confusa de sentimientos se llama Ambivalencia o Reticencia. Es como estar en el medio de un río, flotando entre la corriente que te empuja hacia adelante y la que te empuja hacia atrás. Es un estado muy sutil y difícil de detectar. Si una app de salud no puede detectar este "conflicto interno", no podrá ayudar a la persona a dar el paso final.

2. La Solución: El "Simulador de Dudas" (El Dataset BAH)

Los científicos crearon algo llamado BAH. Piensa en esto como un gimnasio para entrenar a las inteligencias artificiales.

  • ¿Qué hay dentro? No es solo un video cualquiera. Es una colección de 1,427 videos (unas 10 horas de contenido) grabados por 300 personas reales en Canadá.
  • ¿Cómo se grabaron? Imagina que entras a una web, y un avatar (un personaje virtual amigable) te hace 7 preguntas. Algunas son fáciles ("¿Qué te gusta hacer?"), pero otras están diseñadas para sacarte esa duda: "¿Hay algo que te gustaría dejar de hacer pero no te atreves?" o "¿Algo que sabes que deberías hacer pero lo estás postergando?".
  • El resultado: Las personas respondieron con sus cámaras web y micrófonos. A veces decían "sí" con la boca, pero su cara se veía triste, o su voz temblaba, o miraban hacia otro lado. ¡Esa es la "duda" que buscaban!

3. La "Brújula" de los Expertos

Para que la computadora aprenda, tres expertos humanos (psicólogos y científicos del comportamiento) vieron todos esos videos.

  • Actuaron como detectives: Miraron la cara, la voz, el lenguaje corporal y lo que decían.
  • Etiquetaron el momento exacto: Marcaron en el video cuándo empezó la duda y cuándo terminó.
  • El secreto: Les enseñaron a la IA no solo a ver "tristeza" o "felicidad", sino a detectar inconsistencias. Por ejemplo: "La persona dice 'estoy muy emocionado' (texto), pero su voz suena lenta y triste (audio), y sus hombros están caídos (cuerpo)". ¡Esa contradicción es la clave!

4. ¿Por qué es importante? (El "Entrenamiento")

Antes de este trabajo, las computadoras eran como niños pequeños que solo podían decir "está feliz" o "está triste". No entendían los matices.

Con este nuevo dataset (BAH), los investigadores probaron varias "estrategias de entrenamiento" (modelos de IA) y descubrieron cosas interesantes:

  • Ver solo la cara no basta: Si solo miras la foto de alguien, es difícil saber si duda.
  • Escuchar la voz ayuda: A veces la voz delata la inseguridad.
  • Leer lo que dicen es clave: Las palabras que usan (como "quizás", "tal vez", "pero...") son pistas enormes.
  • El contexto es el rey: No basta con mirar un solo segundo del video. La IA necesita ver un "trozo" de tiempo (como un clip de 4 segundos) para entender la historia completa de la duda.

5. El Futuro: Tu "Entrenador Personal" Digital

El objetivo final es que, en el futuro, cuando uses una app para dejar de fumar, perder peso o aprender un idioma, el entrenador virtual pueda decirte:

"Oye, noto que estás dudando. Tu voz suena insegura y miraste hacia abajo cuando mencionaste el ejercicio. ¿Quieres que hablemos de eso?"

Esto haría que las apps de salud fueran mucho más humanas, inteligentes y efectivas, ayudando a las personas a superar sus miedos y a cambiar sus hábitos de verdad.

En resumen:
Los científicos crearon un libro de texto gigante lleno de videos de personas dudando, para enseñarle a las computadoras a entender esa parte confusa de la mente humana. Es un paso gigante para que la tecnología deje de ser un robot frío y se convierta en un compañero empático que realmente entiende cómo nos sentimos.

¡Y lo mejor es que este "libro de texto" es público, para que cualquier investigador en el mundo pueda usarlo para crear mejores herramientas de salud!