MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Each language version is independently generated for its own context, not a direct translation.

이 논문은 MoXaRt(모자트) 라는 새로운 증강현실 (XR) 기술을 소개합니다. 쉽게 말해, **"귀를 위한 스마트한 믹싱 콘솔"**을 안경에 달아주는 기술이라고 생각하시면 됩니다.

지금까지 우리는 시야 (눈) 에만 디지털 정보를 입혀왔지만, 소리는 여전히 복잡하게 뒤섞인 '잡음' 덩어리였습니다. MoXaRt 는 이 문제를 해결해 줍니다.

아래는 이 기술을 일상적인 비유로 쉽게 설명한 내용입니다.

🎧 MoXaRt: 당신의 귀를 위한 '실시간 사운드 디제이'

1. 문제: "칵테일 파티의 혼란"

생각해 보세요. 시끄러운 콘서트장이나 붐비는 카페에 있다고 가정해 봅시다.

옆에서 누군가 떠들고, 무대에서는 기타 소리가 나고, 배경음악이 울려 퍼집니다.
우리 귀는 이 모든 소리를 한꺼번에 받아들이기 때문에, 누가 무슨 말을 하는지 구분하기 어렵습니다. 마치 여러 개의 라디오 방송이 한 번에 켜져 있는 것처럼요.
기존 이어폰은 단순히 '소리를 줄여주는 (노이즈 캔슬링)' 역할만 했습니다. 하지만 MoXaRt 는 다릅니다.

2. 해결책: "소리의 레고 블록을 분리하다"

MoXaRt 는 안경 (XR 기기) 을 통해 **눈으로 본 것 (시각)**과 **귀로 들은 것 (청각)**을 동시에 분석합니다.

비유: 마치 요리사가 복잡한 스튜 (소음) 를 끓이고 있을 때, 눈으로 채소를 보고, 손으로 채소를 골라내어 따로 그릇에 담는 것과 같습니다.
작동 원리:
1. 안경이 주변을 비추면, AI 가 "저기 사람 A 가 말하고 있네", "저기 피아노가 연주 중이네"라고 눈으로 식별합니다.
2. 동시에 귀에 들리는 소리를 분석해서, "사람 A 의 목소리", "피아노 소리", "배경 잡음"으로 소리를 쪼개줍니다.
3. 이제 사용자는 스마트폰의 볼륨 조절처럼, 각 소리의 크기를 직접 조절할 수 있습니다.
  - "피아노 소리는 작게, 친구 목소리는 크게!"
  - "주변 잡음은 끄고, 가수의 솔로 부분만 크게!"

3. 핵심 기술: "2 초 만에 마법 같은 분리"

이 기술은 매우 빠릅니다. 소리를 듣고 분리하는 데 걸리는 시간이 약 2 초뿐입니다.

비유: 마치 요리사가 재료를 다듬는 속도가 매우 빨라서, 손님이 주문하자마자 바로 요리를 만들어 내는 것과 같습니다.
이 시스템은 단 하나의 마이크 (안경에 달린 작은 마이크) 로도 복잡한 소리를 분리해냅니다. 과거에는 거대한 마이크 배열이 필요했지만, 이제는 안경 하나면 됩니다.

4. 실생활에서의 활용 예시

🎻 콘서트장에서:
- 바이올린 솔로가 나올 때 기타 소리를 줄이고 바이올린 소리만 크게 들어보세요. 마치 실시간으로 지휘자가 되어 오케스트라를 내 마음대로 조율하는 느낌입니다.
🗣️ 시끄러운 회의나 파티에서:
- 여러 명이 동시에 떠들 때, 관심 있는 사람의 목소리만 크게 들을 수 있습니다. 마치 마법 같은 집중력을 얻은 것처럼, 다른 소리는 자동으로 줄어듭니다.
- 이는 청력이 약한 분들에게도 큰 도움이 되어, 소리를 듣기 위해 뇌가 쓰는 노력 (인지 부하) 을 크게 줄여줍니다.
🤖 AI 비서에게:
- AI 가 여러 사람의 말을 혼동하지 않고, "피터가 뭐라고 했지?"라고 물어보면, 피터의 목소리만 분리해서 정확히 대답해 줄 수 있습니다.

5. 연구 결과: "소리를 듣는 것이 훨씬 쉬워졌다"

연구진은 22 명의 참가자를 대상으로 실험을 했습니다.

결과: MoXaRt 를 사용할 때, 시끄러운 환경에서도 이해도가 36.2% 나 향상되었습니다.
느낌: 참가자들은 "소리가 훨씬 선명해졌고, 정신이 덜 피곤하다"고 평가했습니다.

💡 요약

MoXaRt는 단순히 소리를 차단하는 것이 아니라, 세상의 소리를 '레고 블록'처럼 분리해서 내가 원하는 것만 골라 들을 수 있게 해주는 기술입니다.

앞으로 이 기술이 발전하면, 우리는 시끄러운 세상 속에서도 내 마음대로 소리의 세계를 디자인하며, 더 명확하고 편안한 소통을 할 수 있게 될 것입니다. 마치 내 귀를 위한 나만의 사운드 디제이가 항상 곁에 있는 것과 같죠!

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

확장 현실 (XR) 환경에서 사용자는 복잡한 음향 환경 (다수의 대화, 배경 음악, 소음 등) 에 노출될 때, 여러 소리 출처가 뒤섞여 있어 중요한 소리에 집중하기 어렵고 인지 부하가 증가하는 문제를 겪습니다.

기존 기술의 한계:
- 하드웨어 제약: XR 헤드셋은 소형화되어 있어 마이크 어레이의 공간적 개구부 (aperture) 가 제한적이며, 먼 거리 (>3m) 의 소음원 분리에는 한계가 있습니다.
- 계산 비용: 실시간으로 고해상도 소리 분리를 수행하는 기존 딥러닝 모델은 계산량이 많아 XR 기기에서 실시간 상호작용에 적합하지 않습니다.
- 상호작용 부재: 기존 소리 분리 기술은 대부분 오프라인 처리용이거나, 특정 소음만 차단하는 이진 필터 (Binary filter) 수준에 그쳐, 사용자가 여러 소리 출처를 세밀하게 제어하고 믹싱할 수 있는 기능이 부족했습니다.

2. 방법론 (Methodology)

MoXaRt 는 단일 오디오 채널에서 오디오 - 비주얼 (Audio-Visual) 단서를 활용하여 소리 출처를 분리하고, 사용자가 이를 실시간으로 제어할 수 있게 하는 XR 시스템입니다. 핵심 아키텍처는 계단식 (Cascaded) 구조로 설계되었습니다.

A. 시스템 아키텍처

거친 분리 (Coarse Sound Separation):
- 입력된 단일 오디오 채널을 먼저 '음성', '음악', '소음'과 같은 대분류로 분리합니다.
- 이 단계에서는 시각 정보를 사용하지 않고 오디오 전용 모델 (AudioScopeV2 기반) 을 사용하여 초기 분리를 수행하며, 계산 부하를 줄입니다.
시각적 앵커 감지 (Visual Anchor Detection):
- 병렬로 비디오 스트림을 분석하여 '얼굴 (화자)'과 '악기'를 감지합니다.
- 얼굴 감지 (YOLOv8-face) 와 악기 감지 (DeepLabv3+ + MobileNetV2) 를 통해 각 소리 출처의 시각적 위치를 파악합니다.
정제 네트워크 (Refinement Networks):
- 음성 정제: 감지된 얼굴 정보를 기반으로 거친 음성 트랙을 개별 화자별로 분리합니다. (AV-MossFormer2 기반의 증류된 경량 모델 사용)
- 음악 정제: 감지된 악기 정보를 기반으로 거친 음악 트랙을 개별 악기 (피아노, 바이올린 등) 로 분리합니다. (Band Split Roformer 기반의 전문가 모델 앙상블을 증류하여 경량화한 모델 사용)
실시간 오디오 리믹싱:
- 분리된 각 소리 트랙 (Stems) 에 사용자의 볼륨 조절 입력을 적용하여 최종 오디오를 합성하고, XR 헤드셋으로 스트리밍합니다.

B. 구현 및 파이프라인

하드웨어: Meta Quest 3 헤드셋, Rode Wireless GO II 마이크, 외부 PC (NVIDIA RTX 5080 GPU).
데이터 전송: WebRTC 를 사용하여 헤드셋의 비디오/오디오를 PC 로 전송하고, 처리된 리믹스 오디오를 다시 스트리밍합니다.
지연 시간: 1 초 단위의 청크 처리와 60 초의 컨텍스트 윈도우를 사용하여 약 2 초의 처리 지연을 유지하며 실시간성을 확보했습니다.

3. 주요 기여 (Key Contributions)

MoXaRt 시스템: XR 환경에서 실시간 오디오 - 비주얼 소리 분리를 핵심 원시 기능 (Primitive) 으로 통합하여, 사용자가 실제 소리를 세밀하게 분리하고 믹싱할 수 있는 최초의 시스템.
계단식 오디오 - 비주얼 트랜스포머 모델: 시각적 단서 (얼굴, 악기) 를 활용하여 단일 채널 오디오에서 다중 화자와 비음성 소스를 강력하게 분리하는 모델 아키텍처.
새로운 데이터셋: 복잡한 음향 환경 (최대 5 명의 화자 + 3 개의 악기) 을 포함한 30 개의 1 분 길이 오디오 - 비주얼 레코딩으로 구성된 새로운 평가 데이터셋 공개.
종합적 평가: 기술적 성능 (분리 정확도) 과 사용자 연구 (인지 부하, 이해도 향상) 를 모두 수행하여 시스템의 유효성을 입증.

4. 결과 (Results)

A. 기술적 평가 (Technical Evaluation)

데이터셋: 30 개의 복잡한 혼합 오디오 - 비주얼 레코딩 (화자 1~~5 명, 악기 1~~3 개, 혼합 시나리오 포함).
성능:
- 음성 명료도: 오프라인 모델 기준 Word Error Rate (WER) 가 0.3824로, 기존 최첨단 모델 (AV-Mossformer2, Sound of Pixels 등) 보다 우수한 성능을 보였습니다.
- 실시간 모델: 지식 증류 (Distillation) 를 통해 실시간 모델을 구축했으며, AudioScopeV2 기반 모델 대비 WER 을 0.5263 에서 0.4990으로 크게 개선하면서도 DNSMOS(음질 평가) 점수를 유지했습니다.
- 분리 능력: 최대 5 개의 동시 소리 출처 (예: 2 명 화자 + 3 개 악기) 를 실시간으로 분리 가능.

B. 사용자 연구 (User Study, N=22)

시나리오: 6 가지 XR 환경 (다중 대화, 콘서트, 리허설 등) 에서 MoXaRt 사용 시와 사용 시 (Baseline) 비교.
객관적 지표 (청취 이해도):
- MoXaRt 사용 시 TOEFL 청취 이해도 점수가 36.2% 향상 ( $p=0.0058$ ).
- 특히 소음이 심한 환경이나 Baseline 에서 점수가 낮았던 사용자에게서 성능 향상이 두드러졌습니다.
주관적 지표:
- 인지 부하 감소: MoXaRt 사용 시 인지 부하가 유의미하게 감소 ( $p<0.001$ ).
- 명확도 및 몰입도: 소리의 명확성과 몰입도가 Baseline 대비 크게 향상되었으며, 전반적인 사용자 경험 점수가 10 점 만점에 7.66 (MoXaRt) 대 3.60 (Baseline) 으로 높게 평가되었습니다.

5. 의의 및 의의 (Significance)

XR 오디오 상호작용의 패러다임 전환: 소리를 단순히 재생하거나 노이즈를 차단하는 것을 넘어, 사용자가 '누가 무엇을 말하고 있는지'를 시각적으로 식별하고 각 소리 출처의 볼륨을 직접 조절할 수 있는 능동적인 오디오 제어를 가능하게 했습니다.
실용적 가치:
- 사회적 상호작용: 시끄러운 파티나 회의에서 특정 대화 상대의 목소리를 선별하여 청취할 수 있어 사회적 고립감을 줄이고 소통을 원활하게 합니다.
- 음악 및 교육: 라이브 콘서트나 리허설에서 특정 악기 소리를 강조하거나 약화시켜 개인 맞춤형 청취 경험을 제공합니다.
- AI 어시스턴트: 분리된 청크 오디오는 실시간 다국어 번역이나 화자 기반의 질의응답 (RAG) 과 같은 차세대 AI 기능의 입력 데이터로 활용 가능합니다.
미래 과제: 현재는 외부 PC 의존적이며, 가림 (Occlusion) 이 발생했을 때의 대체 전략, 그리고 사회적 윤리 (타인의 소리를 의도적으로 차단하는 것의 윤리적 문제) 에 대한 논의가 필요함을 제시했습니다.

결론적으로 MoXaRt 는 XR 환경의 복잡한 음향 문제를 해결하고, 사용자의 인지 부하를 줄이며 소통과 몰입을 극대화하는 획기적인 기술로 평가됩니다.