BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Questo paper introduce il dataset BAH, un nuovo insieme di dati multimodale composto da 1.427 video annotati da esperti per il riconoscimento automatico dell'ambivalenza e dell'esitazione nei contesti di cambiamento comportamentale digitale, fornendo anche risultati preliminari che evidenziano la necessità di modelli spaziotemporali avanzati.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan, Masoumeh Sharafi, Muhammad Haseeb Aslam, Marco Pedersoli, Alessandro Lameiras Koerich, Simon L Bacon, Eric Granger

Pubblicato 2026-03-05
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🎭 Il "Dubbio" Digitale: Come insegnare alle macchine a capire quando non siamo sicuri di noi stessi

Immagina di essere in una conversazione con un amico. Lui ti chiede: "Vuoi davvero smettere di mangiare la pizza ogni sera?".
Tu rispondi: "Sì, certo! Voglio stare meglio..." (ma la tua voce trema, i tuoi occhi guardano altrove e il tuo corpo si rannicchia).

In quel momento, stai vivendo un conflitto interiore. In psicologia, questo si chiama Ambivalenza (avere due sentimenti opposti) o Esitazione (dubitare). È quel momento in cui sei "sì e no" allo stesso tempo.

Il problema è che, mentre un bravo terapeuta umano può accorgersene guardando il tuo tono di voce e il tuo sguardo, i computer (e le app di salute digitale) sono ancora molto "stupidi" su questo. Vedono solo che hai detto "Sì", e basta. Non colgono il "ma..." nascosto nel tuo sguardo.

📸 La Nuova "Scuola di Dubbio": Il Dataset BAH

Gli autori di questo paper (un gruppo di ricercatori canadesi) hanno detto: "Basta! Dobbiamo insegnare alle macchine a leggere questi segnali sottili". Ma per farlo, avevano bisogno di un "libro di testo". E così hanno creato il Dataset BAH.

Ecco come funziona, spiegato con un'analogia:

1. La "Finta Intervista" (La Raccolta Dati)

Immagina di entrare in una stanza virtuale. C'è un avatar (un omino digitale) che ti fa 7 domande sulla tua vita.

  • "Cosa ti piace fare?"
  • "Cosa odi fare?"
  • "C'è qualcosa che vorresti fare ma non riesci a iniziare?"

Mentre rispondi, la tua webcam e il tuo microfono registrano tutto: la tua faccia, la tua voce, le tue mani che si muovono e le parole che dici. Hanno fatto questo con 300 persone in Canada, per un totale di oltre 10 ore di video.

2. I "Detective del Dubbio" (L'Annotazione)

Qui viene la parte magica. Hanno preso questi video e li hanno mostrati a tre esperti umani (psicologi e comportamentisti).
Questi esperti hanno agito come detective:

  • Hanno guardato il video e detto: "Ehi, qui c'è un dubbio!".
  • Hanno segnato esattamente quando iniziava e finiva quel dubbio (anche solo per pochi secondi).
  • Hanno scritto perché lo pensavano: "Guarda, ha detto 'sì' ma ha scrollato la testa" oppure "La sua voce era incerta mentre parlava di un hobby".

Hanno creato una "mappa" di 1.427 video, segnando ogni singolo momento di esitazione.

3. Cosa ci insegnano i risultati? (Le Scoperte)

Quando hanno provato a far "studiare" questi video a dei computer (modelli di Intelligenza Artificiale), è successo qualcosa di interessante:

  • È difficile! Anche per i computer più intelligenti, capire il dubbio è come cercare di sentire un sussurro in una stanza rumorosa. I computer attuali fanno fatica.
  • Non basta guardare la faccia: Se guardi solo la faccia, perdi il 50% dell'informazione. Devi ascoltare anche la voce e leggere le parole. È come se per capire se una persona è arrabbiata, dovessi guardare il suo viso, sentire il tono della voce e leggere il suo diario.
  • Il tempo conta: Il dubbio non è un'istantanea. È come un'onda che va e viene. Il computer deve guardare un pezzetto di video (un contesto), non un singolo fotogramma, per capire cosa sta succedendo.

🚀 Perché è importante? (L'Obiettivo Finale)

Immagina un personal trainer digitale o un assistente virtuale che ti aiuta a smettere di fumare o a mangiare meglio.
Oggi, se tu esiti, l'assistente potrebbe dirti: "Bravo! Continua così!" (perché ha letto solo le parole).
Con il nuovo sistema basato su questo dataset, l'assistente potrebbe dire: "Sento che sei un po' indeciso su questo punto. Vuoi parlarne? È normale avere dubbi".

Questo rende la tecnologia più umana, più empatica e più efficace. Invece di essere un robot che dà ordini, diventa un compagno che capisce le tue emozioni vere, anche quelle che non dici ad alta voce.

📝 In sintesi

Gli autori hanno creato la più grande "biblioteca di dubbi" al mondo (BAH) per insegnare alle macchine a leggere tra le righe delle nostre emozioni. È un passo fondamentale per rendere le app di salute non solo intelligenti, ma anche comprensive.

Il messaggio chiave: Per capire davvero le persone, non basta ascoltare le parole; bisogna guardare il modo in cui le dici, come ti muovi e come la tua voce trema quando sei in dubbio. E ora, finalmente, anche i computer stanno imparando a farlo.