UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

이 논문은 중간 텍스트를 거치지 않고 수어 비디오에서 직접 음성을 생성하는 최초의 통합 프레임워크인 UniCUE 와 대규모 중국어 수어 데이터셋 UniCUE-HI 를 제안하여 청각 장애인을 위한 수어-음성 변환의 성능을 획기적으로 개선했습니다.

Jinting Wang, Shan Yang, Chenxing Li, Dong Yu, Li Liu

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'손동작과 입모양으로 말을 하는 사람 (촉수화 사용자) 의 영상을 보고, 그 사람의 목소리를 직접 만들어내는 AI'**에 대한 이야기입니다.

기존의 기술들은 이 작업을 두 단계로 나누어 했는데, 마치 번역기를 거치는 것과 같아 오해가 생기기 쉬웠습니다. 하지만 이 연구팀이 만든 **'UniCUE(유니큐)'**는 마치 통역사가 바로 그 사람의 말투와 리듬을 그대로 따라 하는 것처럼, 영상에서 목소리를 직접 만들어냅니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제 상황: "번역기"를 거치면 왜 문제가 생길까요?

촉수화 (Cued Speech) 는 귀가 들리지 않는 분들이 입모양과 손동작을 조합하여 말을 전달하는 시스템입니다.
기존의 방식은 이렇게 작동했습니다:

  1. 영상 보기: AI 가 손동작과 입모양을 보고 "이건 '안녕하세요'라는 글자구나"라고 텍스트로 번역합니다. (이걸 CSR 이라고 합니다.)
  2. 목소리 만들기: 번역된 텍스트를 컴퓨터가 다시 읽어주는 **텍스트-음성 변환 (TTS)**을 거칩니다.

🚫 문제점:
이 방식은 번역기를 거치는 것과 같습니다.

  • 오류 전파: AI 가 손동작을 잘못 읽어 "안녕하세요"를 "안녕하세"로 잘못 번역하면, 그 잘못된 텍스트를 바탕으로 목소리가 만들어져서 완전히 엉뚱한 소리가 나옵니다.
  • 리듬 불일치: 손동작이 입모양보다 먼저 나오는 특징이 있는데, 텍스트로만 바꾸면 이 미세한 **시간의 흐름 (리듬)**이 사라져서 목소리가 영상과 딱딱 떨어지는 느낌이 듭니다.

2. 해결책: UniCUE (유니큐) - "직접 통역하는 천재 AI"

이 연구팀은 "번역기를 거치지 말고, 영상을 보며 바로 목소리를 만들어보자"고 생각했습니다. 이를 위해 UniCUE라는 새로운 시스템을 만들었습니다.

🌟 핵심 비유: "요리사와 식재료"

기존 방식은 식재료 (영상) → 레시피 (텍스트) → 요리 (목소리) 순서로 갔다면, UniCUE 는 식재료를 보며 바로 요리하는 요리사입니다.

UniCUE 는 세 가지 특별한 도구를 가지고 있습니다:

① 포즈 인식 시각 프로세서 (Pose-Aware Visual Processor)

  • 비유: "눈과 귀를 동시에 쓰는 마법 안경"
  • 설명: AI 가 영상을 볼 때, 단순히 얼굴만 보는 게 아니라 손의 모양과 입의 움직임을 동시에 정밀하게 분석합니다. 마치 마법 안경을 써서 손가락 하나하나의 움직임까지 놓치지 않고 파악하는 것처럼요.

② 의미 정렬 풀 (Semantic Alignment Pool)

  • 비유: "손동작과 말소리를 연결하는 다리를 놓는 작업"
  • 설명: 손동작이 어떤 소리를 의미하는지, 입모양이 어떤 말인지 AI 가 스스로 학습하게 합니다. 마치 손동작과 소리가 서로 "친구"가 되어 서로를 이해하도록 연결해 주는 역할을 합니다.

③ 비조포네틱 어댑터 (VisioPhonetic Adapter)

  • 비유: "요리사의 레시피를 요리하는 방식에 맞춰 변환해 주는 비서"
  • 설명: AI 가 이해한 '손동작의 의미'를, 목소리를 만들어내는 AI(확산 모델) 가 바로 이해할 수 있는 '음성 코드'로 바꿔줍니다. 이 과정을 통해 손동작의 미세한 뉘앙스까지 목소리에 담을 수 있습니다.

3. 새로운 재료: "UniCUE-HI" 데이터셋

이 기술을 가르치기 위해 연구팀은 새로운 **교재 (데이터)**를 만들었습니다.
기존 데이터는 청각 장애가 없는 사람들이 만든 영상만 있었는데, UniCUE 는 청각 장애인 (촉수화 사용자) 과 정상 청각자의 영상을 모두 포함했습니다.

  • 의미: 청각 장애인의 입모양은 사람마다 다르고, 손동작도 독특할 수 있습니다. 이 다양한 데이터를 학습함으로써 AI 는 실제 사용자들의 목소리를 더 자연스럽게 따라 할 수 있게 되었습니다.

4. 결과: 왜 이것이 중요한가요?

실험 결과, UniCUE 는 기존 방식보다 훨씬 뛰어난 성과를 보였습니다.

  • 정확도: 손동작을 잘못 읽어서 생기는 오류가 훨씬 줄었습니다.
  • 리듬: 손동작이 입모양보다 먼저 나오는 특징을 완벽하게 따라가서, 목소리가 영상과 딱딱 떨어지지 않고 자연스럽게 들립니다.
  • 자연스러움: 청각 장애인의 목소리 특성을 그대로 살려서, 마치 그 사람이 직접 말하는 것처럼 생생합니다.

🎯 한 줄 요약

"UniCUE 는 손동작과 입모양을 '텍스트'로 번역하는 게 아니라, 그 영상을 보며 바로 '목소리'를 통역해 주는 AI 로, 청각 장애인의 목소리를 더 정확하고 자연스럽게 복원해 줍니다."

이 기술은 청각 장애인과 일반인이 대화할 때, 상대방의 손동작을 실시간으로 목소리로 바꿔주어 더 자연스러운 소통을 가능하게 할 것입니다.