BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Cet article présente le jeu de données BAH, un ensemble multimodal de vidéos annoté par des experts pour la reconnaissance automatique de l'ambivalence et de l'hésitation dans les interventions numériques de changement de comportement, comblant ainsi un vide critique pour le développement de modèles d'apprentissage machine adaptés.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan, Masoumeh Sharafi, Muhammad Haseeb Aslam, Marco Pedersoli, Alessandro Lameiras Koerich, Simon L Bacon, Eric Granger

Publié 2026-03-05
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Film : "Le Dilemme Humain"

Imaginez que vous êtes face à un ami qui vous dit : "Je devrais vraiment arrêter de manger du sucre, c'est mauvais pour ma santé."

Mais en même temps, il ajoute : "Mais bon, ce gâteau au chocolat a l'air si bon..."

Son visage sourit (il aime le gâteau), sa voix hésite (il doute), et il se gratte la tête (il est nerveux). Il est tiraillé entre deux mondes : l'envie et la raison. En psychologie, on appelle cela l'ambivalence ou l'hésitation.

C'est un état très subtil. C'est comme être au milieu d'une corde raide, entre le "oui" et le "non". Souvent, c'est la raison pour laquelle les gens abandonnent leurs bonnes résolutions (comme faire du sport ou arrêter de fumer).

🤖 Le Problème : Les Robots sont Trop Bêtes

Aujourd'hui, si vous parlez à un médecin en personne, ce dernier peut voir ces signes subtils : un regard fuyant, une voix qui tremble, un sourire forcé. Le médecin comprend : "Ah, il est ambivalent, il a besoin d'aide."

Mais si vous essayez de faire la même chose avec une application de santé sur votre téléphone, c'est un désastre. Les robots actuels sont comme des enfants qui ne comprennent que les émotions "grossières" : "Je suis heureux !" ou "Je suis triste !". Ils ne comprennent pas le "Je suis en train de me battre intérieurement".

Pour entraîner un robot à comprendre cette subtilité, il faut lui montrer des milliers d'exemples. Et là, le problème : il n'existait aucun livre de recettes (aucune base de données) pour apprendre aux robots ce qu'est l'ambivalence.

🎒 La Solution : Le "BAH" (La Boîte à Outils)

C'est là que l'équipe de chercheurs (González et ses collègues) intervient. Ils ont créé quelque chose d'unique : le jeu de données BAH.

Imaginez que vous voulez apprendre à un chien à détecter des truffes. Vous ne pouvez pas lui expliquer avec des mots, vous devez lui faire sentir des milliers de truffes. C'est exactement ce qu'ils ont fait pour les robots :

  1. Le Recrutement : Ils ont invité 300 personnes à travers le Canada (des gens de tous âges, de toutes origines) à venir jouer un jeu en ligne.
  2. Le Jeu : Sur un site web, un avatar (un petit personnage virtuel) leur posait 7 questions pièges. Par exemple : "Parlez-moi d'une activité que vous aimez mais que vous devriez arrêter."
  3. La Capture : Les gens répondaient devant leur webcam. Ils parlaient, ils faisaient des gestes, ils hésitaient.
  4. Le Résultat : Ils ont récolté 1 427 vidéos (plus de 10 heures de film).

🕵️‍♀️ Les Détectives Humains

Une fois les vidéos enregistrées, trois experts en comportement humain (des "détectives") ont regardé chaque seconde de chaque vidéo.

Ils ont cherché les indices (les "cues") qui trahissent l'hésitation :

  • Le visage : Un regard qui fuit, un sourire qui ne va pas avec les mots.
  • La voix : Des "euh...", des pauses, un ton qui change.
  • Le corps : Se gratter la tête, changer de posture, hocher la tête "non" en disant "oui".

Ils ont annoté tout cela : "Ici, à la 12ème seconde, la personne hésite." C'est comme si ils avaient écrit un scénario détaillé pour chaque film, indiquant exactement où se cachent les doutes.

🧪 L'Expérience : Est-ce que ça marche ?

Ensuite, les chercheurs ont donné ces vidéos à des intelligences artificielles (des modèles d'apprentissage automatique) pour voir si elles pouvaient apprendre à repérer l'hésitation.

Le verdict ? C'est difficile !
Les robots ont eu du mal. C'est comme essayer d'entendre un chuchotement dans une tempête. Les modèles actuels ne sont pas assez fins. Ils ont besoin de :

  • Regarder le contexte : Ne pas juste regarder une photo, mais voir ce qui se passe avant et après.
  • Écouter tout : Croiser ce qui est dit (texte), ce qu'on entend (voix) et ce qu'on voit (visage).
  • Comprendre les contradictions : Si quelqu'un dit "Je suis content" mais a un visage triste, le robot doit comprendre qu'il y a un conflit.

🚀 Pourquoi c'est important pour vous ?

Pourquoi se donner autant de mal ?

Imaginez un coach de sport virtuel ou un thérapeute en ligne.

  • Sans ce système : Le robot vous dit : "Allez, courrez 5 km !" alors que vous êtes en train de pleurer intérieurement et que vous n'avez aucune envie. Vous abandonnez.
  • Avec ce système (BAH) : Le robot détecte votre hésitation. Il se dit : "Ah, il est tiraillé. Il ne faut pas le pousser trop fort." Il adapte son message : "On commence doucement, juste 10 minutes, si tu veux."

Cela rend les applications de santé plus humaines, plus efficaces et moins chères (car on n'a pas besoin d'un humain pour chaque conversation).

En résumé

Cette recherche, c'est comme avoir créé le premier dictionnaire universel des doutes humains pour les robots. Ils ont filmé 300 personnes, annoté chaque hésitation, et montré aux développeurs : "Voici à quoi ressemble le doute. Maintenant, essayez de le comprendre."

C'est une première étape cruciale pour que nos futurs assistants numériques ne soient pas juste de froids calculateurs, mais de véritables complices de notre bien-être.