BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

이 논문은 디지털 행동 변화 중 ambivalence(양가성) 와 hesitancy(주저함) 를 자동으로 인식하기 위해 캐나다 300 명으로부터 수집된 1,427 개의 비디오로 구성된 BAH 데이터셋을 소개하고, 이에 대한 벤치마크 실험 결과를 통해 기존 모델의 한계와 향후 다중 모달 및 시공간 모델의 필요성을 제시합니다.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan, Masoumeh Sharafi, Muhammad Haseeb Aslam, Marco Pedersoli, Alessandro Lameiras Koerich, Simon L Bacon, Eric Granger

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이 연구가 필요할까요? (문제 상황)

건강을 위해 운동을 하거나, 금연을 하려고 할 때, 우리 마음속에는 항상 **'하고 싶은 마음'**과 **'하기 싫은 마음'**이 싸우고 있습니다. 이를 심리학에서는 **'양가성 (Ambivalence)'**이나 **'망설임 (Hesitancy)'**이라고 합니다.

  • 비유: 마치 두 마리의 개가 당신을 당겨서 한쪽은 "운동하자!"라고 하고, 다른 한쪽은 "잠자고 싶어!"라고 외치는 상황입니다.
  • 문제: 사람들은 이 갈등을 얼굴 표정, 목소리 톤, 몸짓 등으로 무의식적으로 드러냅니다. 하지만 기존의 AI 는 "행복", "슬픔" 같은 기본 감정은 잘 알아도, 이렇게 서로 충돌하는 복잡한 감정은 구별하지 못합니다.
  • 현재의 한계: 전문가 (의사나 상담사) 는 사람의 눈빛이나 목소리 떨림을 보고 "아, 이 사람은 지금 망설이고 있구나"라고 알 수 있습니다. 하지만 이를 디지털 앱이나 챗봇에 적용하려면 사람이 직접 일일이 확인해야 해서 비용이 너무 많이 들고 비효율적입니다.

2. 이 연구가 뭘 했나요? (해결책: BAH 데이터셋)

연구팀은 캐나다 전역의 300 명에게 웹캠과 마이크를 통해 7 가지 질문을 하고, 그 대답을 녹화했습니다.

  • 질문 예시: "즐겁지만 그만두고 싶은 일이 있나요?" (죄책감 있는 즐거움) 나 "미루고 있는 일이 있나요?" 같은 질문들입니다.
  • 데이터의 양: 총 1,427 개의 영상 (약 10 시간 분량) 을 모았습니다.
  • 전문가의 역할: 심리학 전문가 3 명이 이 영상들을 하나하나 꼼꼼히 보며, **"어디서부터 망설임이 시작되어 어디에서 끝났는지"**를 표시했습니다.
    • 비유: 마치 영화 편집자가 "이 장면에서 배우의 눈빛이 흔들리고, 목소리가 떨리며, 고개를 살짝 돌리는 순간"을 정확히 잘라내어 '망설임'이라는 레이블을 붙인 것과 같습니다.
  • 제공되는 정보: 영상뿐만 아니라, 얼굴 사진, 목소리, 대본 (텍스트), 그리고 "왜 망설임이라고 판단했는지"에 대한 설명 (예: "눈을 피했다", "한숨을 쉬었다" 등) 까지 모두 공개합니다.

3. AI 는 어떻게 배우나요? (실험 결과)

연구팀은 이 데이터를 가지고 AI 모델을 훈련시켜보았습니다. 결과는 다음과 같습니다.

  • 현재 상태: AI 는 아직 인간 전문가만큼 잘하지 못합니다. (성능이 낮음)
  • 이유: 망설임은 매우 미묘하고, 얼굴, 목소리, 말투가 서로 모순될 때 발생합니다.
    • 비유: 입으로는 "네, 할게요"라고 말하면서 (말), 고개는 '아니오'라고 흔들고 (몸짓), 목소리는 떨리고 (목소리) 있는 상황입니다. AI 는 이런 모순된 신호들을 동시에 이해하고 충돌을 감지하는 능력이 아직 부족합니다.
  • 발견:
    1. 맥락이 중요함: 한 프레임 (순간) 만 보면 알 수 없습니다. 몇 초 동안의 흐름을 봐야 합니다.
    2. 모달리티 (감각) 의 충돌이 핵심: 얼굴, 소리, 말투 중 하나만 보는 게 아니라, 이 세 가지가 서로 어떻게 어긋나는지를 분석해야 합니다.

4. 이 연구의 의미와 미래

이 'BAH 데이터셋'은 AI 연구자들에게 첫 번째이자 유일한 중요한 교재입니다.

  • 미래의 모습: 이 기술이 발전하면, 디지털 헬스 앱이나 챗봇이 사용자의 반응을 실시간으로 분석할 수 있게 됩니다.
    • 예시: "사용자가 망설이는 신호를 감지했으니, 강하게 밀어붙이지 말고 조금 더 격려하거나 다른 방법을 제안하자"와 같이 상황에 맞춰 유연하게 반응하는 AI를 만들 수 있습니다.
  • 결론: 아직 AI 가 완벽하지는 않지만, 이 데이터를 통해 앞으로 더 정교하고 인간적인 디지털 건강 관리 시스템을 만들 수 있는 토대가 마련되었습니다.

한 줄 요약:

"사람의 '할까 말까' 하는 복잡한 심리를 AI 가 알아차리게 하기 위해, 전문가들이 꼼꼼히 분석한 실제 영상 데이터와 분석 도구를 처음 세상에 공개한 연구입니다."