Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

이 논문은 고비트 심도 (24 비트) 오디오의 손실 압축을 위해 어휘 크기를 상수 수준으로 줄이는 'Trilobyte' 바이트 단위 토큰화 방식을 제안하여, 기존 코덱을 능가하는 언어 모델 기반의 실용적 오디오 압축을 가능하게 했음을 보여줍니다.

Phillip Long, Zachary Novack, Chris Donahue

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎧 1. 문제: "고해상도 사진"을 압축하는 난제

소리를 디지털로 저장할 때 **'비트 깊이 (Bit Depth)'**라는 개념이 있습니다.

  • 8 비트: 흑백 사진처럼 소리의 디테일이 적고, 파일 크기가 작습니다. (옛날 전화음 수준)
  • 16 비트/24 비트: 고화질 컬러 사진처럼 소리의 미세한 떨림까지 모두 담고 있습니다. (CD 나 프로급 녹음실 수준)

기존의 문제점:
기존 AI(언어 모델) 는 소리를 압축할 때, 소리의 한 '점 (샘플)'을 하나의 '단어'로 취급했습니다.

  • 8 비트라면 단어장이 256 개만 있으면 되니 쉽습니다.
  • 하지만 24 비트가 되면, 소리의 한 점을 표현하기 위해 **약 1,670 만 개 (16.7M)**의 단어가 필요합니다.
  • 비유: 마치 8 비트는 "A, B, C" 같은 짧은 단어로 글을 쓰지만, 24 비트는 1,670 만 개의 고유한 이름을 모두 외워서 글을 써야 하는 상황입니다. AI 가 이걸 기억하고 예측하는 건 컴퓨터 메모리상 **불가능 (Intractable)**에 가깝습니다.

💡 2. 해결책: '트리로바이트 (Trilobyte)'라는 새로운 방식

연구팀은 이 문제를 해결하기 위해 **'트리로바이트 (Trilobyte)'**라는 새로운 방법을 고안했습니다.

  • 기존 방식: 소리의 한 점을 통째로 '하나의 단어'로 취급. (단어장 크기 폭발!)
  • 트리로바이트 방식: 소리의 한 점을 **8 개의 작은 조각 (바이트)**으로 잘게 쪼개서 처리합니다.
    • 비유: 24 비트의 거대한 '소나타' 악보를 한 번에 외우려 하지 않고, 8 개의 작은 페이지로 나누어 한 페이지씩 읽는 방식입니다.
    • 중요한 건, 이 8 개의 페이지를 읽을 때 필요한 단어장은 항상 **256 개 (0~255)**로 고정됩니다. 비트 깊이가 높아져도 단어장 크기는 변하지 않습니다.

이 덕분에 AI 는 24 비트의 고음질 소리도 자연스럽게 학습하고 압축할 수 있게 되었습니다.

📊 3. 실험 결과: 얼마나 잘 압축되었나?

연구팀은 음악, 말소리, 새 소리 등 다양한 데이터를 가지고 실험했습니다.

  1. 8 비트 (낮은 화질):

    • AI 가 기존 방식 (FLAC) 보다 압도적으로 잘 압축했습니다. (약 2~3 배 더 작아짐)
    • 비유: 흑백 사진은 AI 가 패턴을 아주 잘 찾아서 부피를 줄입니다.
  2. 16 비트 (CD 화질):

    • AI 가 여전히 기존 방식보다 조금 더 잘 압축했습니다. (약 18% 개선)
    • 비유: 컬러 사진도 AI 가 잘 압축하지만, 흑백만큼 극적인 차이는 아닙니다.
  3. 24 비트 (프로급 고음질):

    • 가장 중요한 발견: AI 가 24 비트를 압축할 수 있게 된 것은 획기적이지만, 기존 방식 (FLAC) 에는 아직 미치지 못했습니다. (약 9% 뒤처짐)
    • 이유: 24 비트의 끝자리에 있는 미세한 소리들은 사실 사람이 들을 수 없는 '잡음'인 경우가 많습니다. 기존 방식은 이 잡음을 아주 효율적으로 처리하는 반면, AI 는 아직 이 미세한 노이즈의 패턴을 완벽히 파악하지 못했습니다.

🏁 4. 결론 및 의미

이 연구의 핵심 메시지는 다음과 같습니다:

  • 성공: AI 가 고음질 (24 비트) 오디오를 압축할 수 있는 첫 번째 실용적인 방법을 찾았습니다. (기존에는 컴퓨터가 감당하지 못했습니다.)
  • 한계: 하지만 아직은 AI 가 소리를 압축하는 속도가 기존 방식보다 훨씬 느리고, 압축률도 24 비트에서는 아직 뒤처집니다.
  • 미래: "비트 깊이 (화질)"가 높을수록 AI 가 소리를 더 잘 압축하기 어렵다는 것을 발견했습니다. 하지만 이 기술은 앞으로 더 발전하면, 우리가 좋아하는 고음질 음악을 훨씬 더 작게 저장할 수 있는 가능성을 열었습니다.

한 줄 요약:

"AI 가 고음질 소리를 압축할 수 있게 되었지만, 아직은 기존 방식보다 조금 느리고 덜 잘 압축합니다. 하지만 '불가능'했던 24 비트 압축을 가능하게 만든 첫걸음입니다!"