Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

이 논문은 X-Codec-2.0 의 잠재 공간 레이트를 50Hz 에서 25Hz 로 낮추고 샘플링 주파수를 16kHz 에서 24kHz 로 높이는 간단한 구조 개선을 통해 다국어 음성 모델의 효율성과 음질 (MOS 점수 0.29 향상) 을 동시에 개선한 결과를 제시합니다.

Husein Zolkepli

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'X-Codec-2.0'**이라는 인공지능 오디오 기술의 성능을 더 좋게, 그리고 더 효율적으로 만든 방법에 대해 설명하고 있습니다. 어렵게 들릴 수 있는 기술 용어들을 일상적인 비유로 풀어서 설명해 드릴게요.

🎧 핵심 아이디어: "고화질로, 더 가볍게"

기존의 X-Codec-2.0 은 오디오를 압축할 때 **초당 50 개의 조각 (토큰)**으로 나누어 처리했습니다. 이는 마치 1 초 분량의 소리를 50 개의 작은 퍼즐 조각으로 잘게 쪼개는 것과 같습니다. 이 방식은 나쁘지 않았지만, 두 가지 문제가 있었습니다.

  1. 소리가 약간 뭉개짐: 고음 (높은 주파수) 이 잘 살아나지 않아 소리가 약간 탁하게 들릴 수 있었습니다.
  2. 데이터가 너무 많음: 1 초를 표현하는 데 50 개의 조각이 필요해서, AI 가 처리해야 할 퍼즐 조각이 너무 많았습니다.

저자는 이 문제를 해결하기 위해 **"조각을 더 크게 만들되, 소리는 더 선명하게"**라는 아이디어를 적용했습니다.


🛠️ 어떻게 고쳤을까요? (두 가지 간단한 변화)

저자는 AI 의 구조를 크게 바꾼 것이 아니라, 두 가지 작은 조정만 했습니다.

1. 퍼즐 조각을 두 배로 키우기 (Latent Rate 50Hz → 25Hz)

  • 비유: 기존에는 1 초를 50 개의 작은 조각으로 나눴다면, 이제는 25 개의 더 큰 조각으로 나눴습니다.
  • 효과: AI 가 처리해야 할 조각의 개수가 절반으로 줄어듭니다. 마치 100 개의 작은 퍼즐 대신 50 개의 큰 퍼즐을 맞추는 것처럼, AI 가 훨씬 더 가볍고 빠르게 일할 수 있게 됩니다.

2. 소리의 샘플링 속도 높이기 (16kHz → 24kHz)

  • 비유: 기존에는 소리를 1 초에 16,000 번 찍어 (샘플링) 저장했다면, 이제는 24,000 번 찍어 저장합니다.
  • 효과: 더 많은 디테일을 기록하게 되므로, 고음 부분의 소리가 훨씬 선명하고 생생해집니다. 마치 사진의 해상도를 낮게 잡은 것에서 고해상도로 바꾼 것과 같습니다.

3. 기존 지식을 살린 '이동' (Decoder Weight Interpolation)

  • 비유: 새로 조각 크기를 바꿨는데, 기존에 훈련된 AI 의 지식 (가중치) 을 버리면 너무 아깝습니다. 그래서 저자는 기존 지식의 크기를 부드럽게 늘려서 (선형 보간) 새로운 조각 크기에 맞춰주었습니다.
  • 효과: 처음부터 다시 배우지 않아도, 기존에 배운 지식을 새로운 방식에 바로 적용할 수 있어 학습 시간이 단축되고 성능이 안정적으로 나옵니다.

🏆 결과는 어땠나요?

이 간단한 변경을 통해 얻은 성과는 놀라웠습니다.

  • 더 선명한 소리: 다양한 언어 (영어, 중국어, 말레이어 등 100 개 이상) 로 테스트한 결과, 소리의 자연스러움과 선명도가 기존보다 약 0.29 점이나 향상되었습니다. (사람들이 소리를 듣고 점수를 매기는 'MOS' 기준)
  • 최고의 효율: 같은 속도로 (초당 25 조각) 작동하는 다른 모든 오디오 압축 기술들보다 가장 좋은 성능을 냈습니다.
  • 저장 공간 절약: 조각 수가 절반이 되었기 때문에, 같은 소리를 저장하거나 전송할 때 필요한 데이터 양이 줄어듭니다.

🚧 아직 남은 과제와 미래

물론 완벽하지는 않습니다.

  • 다양성 부족: 학습 데이터가 주로 깨끗한 목소리였기 때문에, 시끄러운 배경음이나 감정이 실린 목소리 (연기, 노래 등) 에는 아직 약할 수 있습니다.
  • 검증 필요: 현재는 컴퓨터가 점수를 매긴 것 (UTMOSv2) 이라, 실제 사람이 듣고 평가한 결과가 더 필요할 수 있습니다.

💡 결론

이 연구는 **"무조건 복잡한 구조를 만드는 것이 답이 아니다"**를 보여줍니다.
기존의 훌륭한 AI 모델에 **조금 더 큰 퍼즐 조각 (25Hz)**을 사용하고, **더 선명한 렌즈 (24kHz)**를 끼워주기만 해도, AI 는 더 가볍고 더 좋은 소리를 만들어낼 수 있다는 것을 증명했습니다.

이는 앞으로 AI 가 우리 말소리를 더 자연스럽게 이해하고, 더 적은 데이터로 더 높은 품질의 음성을 만들어내는 데 큰 도움이 될 것입니다.