BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Dieses Paper stellt das BAH-Dataset vor, eine multimodale Videodatenbank mit 1.427 Aufnahmen von 300 Teilnehmern, die zur automatischen Erkennung von Ambivalenz und Zögern in digitalen Verhaltensänderungsinterventionen dient und erste Benchmark-Ergebnisse für die Entwicklung angepasster Modelle liefert.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan, Masoumeh Sharafi, Muhammad Haseeb Aslam, Marco Pedersoli, Alessandro Lameiras Koerich, Simon L Bacon, Eric Granger

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, jemanden davon zu überzeugen, gesünder zu leben – vielleicht mehr zu laufen oder weniger Süßigkeiten zu essen. Oft passiert das nicht durch einen einzigen „Nein", sondern durch ein zögerndes „Vielleicht, aber..." oder ein inneres Zögern. In der Psychologie nennt man das Ambivalenz (Zwiespalt) oder Hesitanz (Zögern). Es ist dieser seltsame Zustand, in dem man gleichzeitig „Ja" und „Nein" sagt.

Das Problem: Wenn ein Arzt oder Therapeut das in einem echten Gespräch bemerkt, kann er sofort reagieren. Aber wenn wir digitale Gesundheits-Apps nutzen, fehlt oft jemand, der diese feinen Signale erkennt. Die Apps sind wie blinde Roboter.

Hier kommt diese neue Forschung vor, die wie ein großes, digitales Detektiv-Team arbeitet.

1. Der Fall: Die unsichtbaren Signale

Ambivalenz ist schwer zu fangen. Sie ist wie ein zerrissenes Seil: Ein Ende zieht nach vorne (ich will es tun), das andere nach hinten (ich habe Angst davor).

  • Das Signal: Manchmal sagt der Mund „Ja", aber die Augen schauen weg, die Stimme zittert oder die Schultern hängen. Oder man sagt „Ich mache das morgen", während man gleichzeitig mit dem Fuß ungeduldig auf den Boden klopft.
  • Die Herausforderung: Computer sind gut darin, ein Lächeln oder eine Träne zu erkennen. Aber sie sind schlecht darin, dieses innere Ringen zu verstehen, das oft nur in kleinen Widersprüchen zwischen Gesicht, Stimme und Körperhaltung steckt.

2. Die Lösung: Der „BAH"-Schatz

Die Forscher (eine Gruppe aus Kanada) haben etwas Neues geschaffen: Den BAH-Datensatz. Stell dir das wie einen riesigen Kochbuch-Schatz vor, aber statt Rezepte enthält er 1.427 Videos von 300 echten Menschen.

  • Wie es funktioniert: Die Teilnehmer saßen vor ihren Webcams (in ihren eigenen Wohnungen, also ganz natürlich) und beantworteten sieben Fragen. Eine Frage war zum Beispiel: „Erzähl uns von etwas, das du gerne tust, aber wünschst, du würdest es aufhören."
  • Der Clou: Während sie antworteten, haben sie ihre echten Gefühle gezeigt. Die Forscher haben diese Videos dann von drei Experten wie Filmkritiker genau analysiert. Sie haben markiert: „Aha, genau in dieser Sekunde zögert er!" oder „Hier passt die Stimme nicht zum Gesicht."

3. Was ist neu daran?

Bisher gab es keine „Lehrbücher" für Computer, um dieses spezielle Zögern zu lernen. Die KI-Modelle waren wie Schüler, die nur „Glücklich" oder „Traurig" gelernt hatten, aber nie „Zweifelnd".

  • Der Datensatz ist wie ein Trainingslager: Er gibt den Computern genau das Material, das sie brauchen, um zu lernen, wie man diese inneren Konflikte sieht.
  • Die Details: Es ist nicht nur das Video. Es gibt auch den Text (was gesagt wurde), die Tonspur (wie es gesagt wurde) und sogar die genauen Zeitstempel, wann das Zögern begann und endete.

4. Die ersten Ergebnisse: Noch ist es schwer

Die Forscher haben ihre KI-Modelle getestet, und das Ergebnis war ehrlich: Es ist noch sehr schwierig.

  • Die Analogie: Stell dir vor, du versuchst, ein sehr leises Flüstern in einem lauten Stadion zu hören. Die aktuellen Computermodelle hören das Flüstern (das Zögern) nur selten richtig.
  • Die Erkenntnis: Die KI muss lernen, nicht nur auf ein Bild zu schauen, sondern auf das Zusammenspiel von Bild, Ton und Text. Sie muss verstehen, dass ein „Ja" mit einem Kopfschütteln eigentlich ein „Nein" bedeutet.

5. Warum ist das wichtig?

Wenn wir KI-Systeme bauen können, die dieses Zögern verstehen, könnten digitale Gesundheits-Apps viel besser werden.

  • Das Szenario: Statt stur zu sagen: „Du musst heute 10.000 Schritte gehen!", könnte eine intelligente App merken: „Oh, dieser Nutzer zögert gerade. Er ist unsicher." Dann könnte die App sanfter antworten: „Kein Stress, lass uns erst mal 500 Schritte machen."
  • Das Ziel: So helfen wir Menschen, ihre Gewohnheiten zu ändern, ohne dass sie sich überwacht oder unter Druck gesetzt fühlen.

Zusammenfassung

Diese Arbeit ist wie das Erstellen einer neuen Landkarte für eine unbekannte Insel. Die Insel ist das menschliche Zögern. Bisher war sie für Computer ein undurchdringlicher Dschungel. Mit dem neuen Datensatz (BAH) haben die Forscher den ersten Weg durch den Dschungel geebnet. Es ist noch kein fertiger Pfad, aber jetzt wissen wir, wo wir anfangen müssen zu graben, um digitale Helfer zu bauen, die wirklich verstehen, was in uns vorgeht.