UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'손동작과 입모양으로 말을 하는 사람 (촉수화 사용자) 의 영상을 보고, 그 사람의 목소리를 직접 만들어내는 AI'**에 대한 이야기입니다.

기존의 기술들은 이 작업을 두 단계로 나누어 했는데, 마치 번역기를 거치는 것과 같아 오해가 생기기 쉬웠습니다. 하지만 이 연구팀이 만든 **'UniCUE(유니큐)'**는 마치 통역사가 바로 그 사람의 말투와 리듬을 그대로 따라 하는 것처럼, 영상에서 목소리를 직접 만들어냅니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "번역기"를 거치면 왜 문제가 생길까요?

촉수화 (Cued Speech) 는 귀가 들리지 않는 분들이 입모양과 손동작을 조합하여 말을 전달하는 시스템입니다.
기존의 방식은 이렇게 작동했습니다:

영상 보기: AI 가 손동작과 입모양을 보고 "이건 '안녕하세요'라는 글자구나"라고 텍스트로 번역합니다. (이걸 CSR 이라고 합니다.)
목소리 만들기: 번역된 텍스트를 컴퓨터가 다시 읽어주는 **텍스트-음성 변환 (TTS)**을 거칩니다.

🚫 문제점:
이 방식은 번역기를 거치는 것과 같습니다.

오류 전파: AI 가 손동작을 잘못 읽어 "안녕하세요"를 "안녕하세"로 잘못 번역하면, 그 잘못된 텍스트를 바탕으로 목소리가 만들어져서 완전히 엉뚱한 소리가 나옵니다.
리듬 불일치: 손동작이 입모양보다 먼저 나오는 특징이 있는데, 텍스트로만 바꾸면 이 미세한 **시간의 흐름 (리듬)**이 사라져서 목소리가 영상과 딱딱 떨어지는 느낌이 듭니다.

2. 해결책: UniCUE (유니큐) - "직접 통역하는 천재 AI"

이 연구팀은 "번역기를 거치지 말고, 영상을 보며 바로 목소리를 만들어보자"고 생각했습니다. 이를 위해 UniCUE라는 새로운 시스템을 만들었습니다.

🌟 핵심 비유: "요리사와 식재료"

기존 방식은 식재료 (영상) → 레시피 (텍스트) → 요리 (목소리) 순서로 갔다면, UniCUE 는 식재료를 보며 바로 요리하는 요리사입니다.

UniCUE 는 세 가지 특별한 도구를 가지고 있습니다:

① 포즈 인식 시각 프로세서 (Pose-Aware Visual Processor)

비유: "눈과 귀를 동시에 쓰는 마법 안경"
설명: AI 가 영상을 볼 때, 단순히 얼굴만 보는 게 아니라 손의 모양과 입의 움직임을 동시에 정밀하게 분석합니다. 마치 마법 안경을 써서 손가락 하나하나의 움직임까지 놓치지 않고 파악하는 것처럼요.

② 의미 정렬 풀 (Semantic Alignment Pool)

비유: "손동작과 말소리를 연결하는 다리를 놓는 작업"
설명: 손동작이 어떤 소리를 의미하는지, 입모양이 어떤 말인지 AI 가 스스로 학습하게 합니다. 마치 손동작과 소리가 서로 "친구"가 되어 서로를 이해하도록 연결해 주는 역할을 합니다.

③ 비조포네틱 어댑터 (VisioPhonetic Adapter)

비유: "요리사의 레시피를 요리하는 방식에 맞춰 변환해 주는 비서"
설명: AI 가 이해한 '손동작의 의미'를, 목소리를 만들어내는 AI(확산 모델) 가 바로 이해할 수 있는 '음성 코드'로 바꿔줍니다. 이 과정을 통해 손동작의 미세한 뉘앙스까지 목소리에 담을 수 있습니다.

3. 새로운 재료: "UniCUE-HI" 데이터셋

이 기술을 가르치기 위해 연구팀은 새로운 **교재 (데이터)**를 만들었습니다.
기존 데이터는 청각 장애가 없는 사람들이 만든 영상만 있었는데, UniCUE 는 청각 장애인 (촉수화 사용자) 과 정상 청각자의 영상을 모두 포함했습니다.

의미: 청각 장애인의 입모양은 사람마다 다르고, 손동작도 독특할 수 있습니다. 이 다양한 데이터를 학습함으로써 AI 는 실제 사용자들의 목소리를 더 자연스럽게 따라 할 수 있게 되었습니다.

4. 결과: 왜 이것이 중요한가요?

실험 결과, UniCUE 는 기존 방식보다 훨씬 뛰어난 성과를 보였습니다.

정확도: 손동작을 잘못 읽어서 생기는 오류가 훨씬 줄었습니다.
리듬: 손동작이 입모양보다 먼저 나오는 특징을 완벽하게 따라가서, 목소리가 영상과 딱딱 떨어지지 않고 자연스럽게 들립니다.
자연스러움: 청각 장애인의 목소리 특성을 그대로 살려서, 마치 그 사람이 직접 말하는 것처럼 생생합니다.

🎯 한 줄 요약

"UniCUE 는 손동작과 입모양을 '텍스트'로 번역하는 게 아니라, 그 영상을 보며 바로 '목소리'를 통역해 주는 AI 로, 청각 장애인의 목소리를 더 정확하고 자연스럽게 복원해 줍니다."

이 기술은 청각 장애인과 일반인이 대화할 때, 상대방의 손동작을 실시간으로 목소리로 바꿔주어 더 자연스러운 소통을 가능하게 할 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 수화 (Cued Speech, CS) 는 청각 장애인에게 구두 언어의 모든 음소 (phoneme) 를 시각적으로 정확하게 전달하기 위해 입술 움직임과 손 모양/위치를 결합한 보조 의사소통 시스템입니다.
목표: CS 비디오를 이해 가능한 음성 신호로 변환하는 CS 비디오 - 음성 생성 (CSV2S) 작업입니다.
기존 접근법의 한계:
1. CSR + TTS 파이프라인: 기존 연구는 주로 CS 인식 (CSR, 비디오를 텍스트로 변환) 과 텍스트 - 음성 (TTS) 시스템을 결합하는 방식을 사용했습니다. 하지만 이 방식은 중간에 텍스트를 거치므로 **오류 전파 (error propagation)**가 발생하고, CS 비디오의 미세한 시공간적 동적 정보와 생성된 음성 간의 시간적 불일치 (temporal misalignment) 문제가 발생합니다.
2. 직접 생성 (Direct CSV2S) 의 어려움: 비디오에서 직접 음성을 생성하는 방식은 다중 모달 (입술 + 손) 의 복잡한 상관관계를 모델링해야 하며, CS 데이터의 양이 부족하여 모델 학습에 한계가 있었습니다. 또한, 기존 립리딩 (lip-reading) 기반 모델들은 CS 의 핵심인 '손' 정보를 무시하여 음소 구분이 불명확해지는 문제가 있었습니다.
핵심 과제: 텍스트 중간 매개체 없이 CS 비디오에서 직접 자연스럽고 정확한 음성을 생성하면서도, 청각 장애인 사용자의 특징 (비정상적인 입 모양 등) 을 반영하고 시간적 동기화를 유지하는 것.

2. 방법론 (Methodology: UniCUE)

저자들은 UniCUE라는 최초의 통합 프레임워크를 제안했습니다. 이는 CS 인식 (CSR, 이해 작업) 과 CSV2S (생성 작업) 를 하나의 아키텍처로 통합하여, 인식 단계에서 얻은 미세한 시각 - 의미적 단서가 음성 생성을 안내하도록 설계되었습니다.

주요 구성 요소

Pose-Aware Visual Processor (자세 인식 시각 처리기):
- 기존 CS 방법론이 입술과 손을 별도로 처리하거나 원시 비디오 임베딩에 의존하는 것과 달리, **비디오 프레임과 포지 맵 (OpenPose 추출)**을 결합합니다.
- 공유된 시각 인코더를 통해 공간적 특징을 추출한 후, 1D 시간 합성곱과 Transformer 를 통해 장거리 시간적 의존성을 모델링합니다.
- 비디오 특징 ( $Z_v$ ) 과 포지 특징 ( $Z_p$ ) 을 채널 방향으로 연결 (Concatenation) 하고 MLP 를 통과시켜 **혼합 시각 임베딩 ( $Z_{mv}$ )**을 생성합니다. 이는 손이 입술보다 먼저 움직이는 '손 - 선행 (hand-preceding)' 현상을 정밀하게 모델링합니다.
Semantic Alignment Pool (시맨틱 정렬 풀):
- 시각 특징과 텍스트 의미 간의 정밀한 매핑을 위해 **대조 학습 (Contrastive Learning)**을 도입합니다.
- 비디오, 포지, 텍스트 (Ground Truth) 임베딩을 공유 잠재 공간으로 투영하여, 동일한 샘플의 쌍을 양 (Positive), 다른 샘플을 음 (Negative) 으로 간주하여 손실 함수를 최소화합니다.
- 이를 통해 시각적 특징이 언어적 의미와 강하게 정렬되도록 하여, 생성된 음성의 정확도를 높입니다.
VisioPhonetic Adapter (VPA, 비시오포네틱 어댑터):
- CSR 경로에서 학습된 시각 - 언어 임베딩 ( $Z_{mv}$ ) 을 직접 확산 (Diffusion) 모델에 입력할 수 없는 형식 불일치를 해결합니다.
- Q-Former 스타일의 크로스 어텐션 메커니즘을 사용하여, 학습 가능한 쿼리 (phonetic slots) 가 시각 특징에서 관련 패턴을 추출하고 재구성합니다.
- 이를 통해 시각적 이해 정보를 확산 모델 (Latent Diffusion Model) 이 처리할 수 있는 **음소 인식 조건 신호 ( $Z'_{mv}$ )**로 변환하여, 시간적 일관성과 언어적 충실도를 보장합니다.

학습 전략

CSR 경로: 자동 회귀 (Auto-regressive) Transformer 디코더를 사용하여 텍스트를 생성하며, 마스킹 언어 모델링 손실과 시퀀스 레벨 교차 엔트로피 손실을 병합하여 학습합니다.
CSV2S 경로: 잠재 확산 모델 (LDM) 을 기반으로 하며, VPA 를 통해 변환된 시각 임베딩을 조건 (Condition) 으로 사용하여 멜-스펙트로그램을 생성하고, 이후 보코더를 통해 음성으로 변환합니다.
통합: 두 작업이 공유된 시각 처리기를 통해 연결되어, 인식의 정확성이 생성의 품질을 직접적으로 향상시킵니다.

3. 주요 기여 (Key Contributions)

최초의 통합 프레임워크 (UniCUE): CS 인식 (CSR) 과 비디오 - 음성 생성 (CSV2S) 을 통합한 최초의 프레임워크를 제안했습니다. 중간 텍스트 변환 없이 직접 음성을 생성하면서도 인식 능력을 활용하여 성능을 극대화합니다.
새로운 대규모 데이터셋 (UniCUE-HI): 기존 데이터셋이 청각 장애인이 아닌 정상 청각화자 (Normal-hearing) 만 포함했던 한계를 극복하기 위해, 8 명의 청각 장애인과 6 명의 정상 청각화자로 구성된 총 11,282 개의 중국어 CS 비디오를 포함한 대규모 데이터셋을 구축했습니다.
혁신적인 모듈 설계:
- 자세 인식 시각 처리기 (Pose-aware Visual Processor) 를 통해 손과 입술의 미세한 시공간적 상호작용을 포착.
- 시맨틱 정렬 풀 (Semantic Alignment Pool) 을 통해 다중 모달 간의 의미 정렬 강화.
- VPA 를 통해 시각 이해와 음성 생성 간의 격차 해소.

4. 실험 결과 (Results)

데이터셋: 구축된 UniCUE-HI 데이터셋 (정상 청각화자 및 청각 장애인 포함) 에서 평가 수행.
정량적 평가 (Quantitative):
- 음성 정확도 (WER): UniCUE 는 기존 최첨단 (SOTA) 방법들 (CSR+TTS 파이프라인, LipVoicer 등) 보다 낮은 단어 오류율 (WER) 을 기록했습니다. (정상 청각화자: 0.205, 청각 장애인: 0.248).
- 동기화 및 품질: LSE-C(동기화 신뢰도), LSE-D(시간 거리), DNSMOS(자연스러움), STOI(가청성) 모든 지표에서 SOTA 를 상회하는 성능을 보였습니다.
- 청각 장애인 특화: 청각 장애인의 경우 입술 움직임이 불명확한 경우가 많으나, UniCUE 는 손 정보를 효과적으로 활용하여 다른 방법들보다 월등히 높은 성능을 달성했습니다.
정성적 평가 (Qualitative): 멜-스펙트로그램 시각화 결과, 기존 방법들보다 시간적 동기화가 우수하고 음향 구조가 명확함을 확인했습니다.
사용자 연구 (User Study): 20 명의 참가자를 대상으로 한 평가에서 정확도, 자연스러움, 동기화 모든 항목에서 다른 모델들보다 유의미하게 높은 점수를 받았습니다.
Ablation Study: Pose-aware 처리기, Semantic Alignment Pool, VPA 모듈을 제거했을 때 성능이 급격히 하락하여 각 구성 요소의 필수성을 입증했습니다.

5. 의의 및 결론 (Significance)

기술적 의의: CS 비디오에서 직접 음성을 생성하는 과제를 해결하기 위해, '이해 (Recognition)'와 '생성 (Generation)' 작업을 통합한 새로운 패러다임을 제시했습니다. 이는 텍스트 중개 없이 다중 모달 정보를 직접 활용하여 오류 전파를 방지하고 시간적 정합성을 확보한 사례입니다.
사회적 기여: 청각 장애인을 위한 보조 의사소통 시스템의 실용성을 크게 높였습니다. 특히 청각 장애인의 비정형적인 발음과 입술 움직임을 고려한 데이터셋과 모델을 통해, 실제 교육 및 사회적 환경에서 청각 장애인과 정상 청각화자 간의 자연스러운 실시간 소통을 가능하게 합니다.
향후 전망: 이 연구는 시각 - 음성 생성 분야에서 다중 모달 이해와 생성의 통합이 얼마나 중요한지를 보여주었으며, 향후 다른 시각 기반 음성 생성 작업에도 적용 가능한 확장성을 가집니다.

요약하자면, UniCUE는 CS 비디오의 복잡한 시각적 정보 (입술 + 손) 를 정밀하게 이해하고 이를 확산 모델에 효과적으로 전달하여, 청각 장애인을 포함한 모든 사용자에게 정확하고 자연스러운 음성을 생성하는 획기적인 프레임워크입니다.