Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Each language version is independently generated for its own context, not a direct translation.

🎧 1. 문제: "고해상도 사진"을 압축하는 난제

소리를 디지털로 저장할 때 **'비트 깊이 (Bit Depth)'**라는 개념이 있습니다.

8 비트: 흑백 사진처럼 소리의 디테일이 적고, 파일 크기가 작습니다. (옛날 전화음 수준)
16 비트/24 비트: 고화질 컬러 사진처럼 소리의 미세한 떨림까지 모두 담고 있습니다. (CD 나 프로급 녹음실 수준)

기존의 문제점:
기존 AI(언어 모델) 는 소리를 압축할 때, 소리의 한 '점 (샘플)'을 하나의 '단어'로 취급했습니다.

8 비트라면 단어장이 256 개만 있으면 되니 쉽습니다.
하지만 24 비트가 되면, 소리의 한 점을 표현하기 위해 **약 1,670 만 개 (16.7M)**의 단어가 필요합니다.
비유: 마치 8 비트는 "A, B, C" 같은 짧은 단어로 글을 쓰지만, 24 비트는 1,670 만 개의 고유한 이름을 모두 외워서 글을 써야 하는 상황입니다. AI 가 이걸 기억하고 예측하는 건 컴퓨터 메모리상 **불가능 (Intractable)**에 가깝습니다.

💡 2. 해결책: '트리로바이트 (Trilobyte)'라는 새로운 방식

연구팀은 이 문제를 해결하기 위해 **'트리로바이트 (Trilobyte)'**라는 새로운 방법을 고안했습니다.

기존 방식: 소리의 한 점을 통째로 '하나의 단어'로 취급. (단어장 크기 폭발!)
트리로바이트 방식: 소리의 한 점을 **8 개의 작은 조각 (바이트)**으로 잘게 쪼개서 처리합니다.
- 비유: 24 비트의 거대한 '소나타' 악보를 한 번에 외우려 하지 않고, 8 개의 작은 페이지로 나누어 한 페이지씩 읽는 방식입니다.
- 중요한 건, 이 8 개의 페이지를 읽을 때 필요한 단어장은 항상 **256 개 (0~255)**로 고정됩니다. 비트 깊이가 높아져도 단어장 크기는 변하지 않습니다.

이 덕분에 AI 는 24 비트의 고음질 소리도 자연스럽게 학습하고 압축할 수 있게 되었습니다.

📊 3. 실험 결과: 얼마나 잘 압축되었나?

연구팀은 음악, 말소리, 새 소리 등 다양한 데이터를 가지고 실험했습니다.

8 비트 (낮은 화질):
- AI 가 기존 방식 (FLAC) 보다 압도적으로 잘 압축했습니다. (약 2~3 배 더 작아짐)
- 비유: 흑백 사진은 AI 가 패턴을 아주 잘 찾아서 부피를 줄입니다.
16 비트 (CD 화질):
- AI 가 여전히 기존 방식보다 조금 더 잘 압축했습니다. (약 18% 개선)
- 비유: 컬러 사진도 AI 가 잘 압축하지만, 흑백만큼 극적인 차이는 아닙니다.
24 비트 (프로급 고음질):
- 가장 중요한 발견: AI 가 24 비트를 압축할 수 있게 된 것은 획기적이지만, 기존 방식 (FLAC) 에는 아직 미치지 못했습니다. (약 9% 뒤처짐)
- 이유: 24 비트의 끝자리에 있는 미세한 소리들은 사실 사람이 들을 수 없는 '잡음'인 경우가 많습니다. 기존 방식은 이 잡음을 아주 효율적으로 처리하는 반면, AI 는 아직 이 미세한 노이즈의 패턴을 완벽히 파악하지 못했습니다.

🏁 4. 결론 및 의미

이 연구의 핵심 메시지는 다음과 같습니다:

성공: AI 가 고음질 (24 비트) 오디오를 압축할 수 있는 첫 번째 실용적인 방법을 찾았습니다. (기존에는 컴퓨터가 감당하지 못했습니다.)
한계: 하지만 아직은 AI 가 소리를 압축하는 속도가 기존 방식보다 훨씬 느리고, 압축률도 24 비트에서는 아직 뒤처집니다.
미래: "비트 깊이 (화질)"가 높을수록 AI 가 소리를 더 잘 압축하기 어렵다는 것을 발견했습니다. 하지만 이 기술은 앞으로 더 발전하면, 우리가 좋아하는 고음질 음악을 훨씬 더 작게 저장할 수 있는 가능성을 열었습니다.

한 줄 요약:

"AI 가 고음질 소리를 압축할 수 있게 되었지만, 아직은 기존 방식보다 조금 느리고 덜 잘 압축합니다. 하지만 '불가능'했던 24 비트 압축을 가능하게 만든 첫걸음입니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 생성형 AI 와 언어 모델 (LM) 을 활용한 오디오 압축 연구가 활발하지만, 기존 연구들은 대부분 8-bit 오디오에 국한되어 있었습니다. 실제 산업 표준인 고충실도 (Full-fidelity) 오디오 (16-bit, 24-bit, CD 품질 이상) 에서는 다음과 같은 주요 문제점이 존재합니다.

어휘 크기 (Vocabulary Size) 의 기하급수적 증가: 표준 샘플 단위 토큰화 (Sample-level tokenization) 방식은 비트 깊이 (bit depth) 에 따라 어휘 크기가 $2^b$로 증가합니다.
- 8-bit: 256 토큰 (관리 가능)
- 16-bit: 65,536 토큰 (관리 어려움)
- 24-bit: 약 1,677 만 토큰 (계산적으로 처리 불가능, Intractable)
실용성 부재: 8-bit 오디오는 음질이 낮아 실제 무손실 압축이 필요한 프로페셔널 환경 (음악 제작, 고해상도 녹음 등) 에서는 거의 사용되지 않습니다.
기존 코덱과의 경쟁력 불명확: 무손실 압축의 표준인 FLAC 코덱과 비교하여, 고비트 심도 환경에서 머신러닝 기반 압축이 경쟁력을 가질 수 있는지 여부가 불확실했습니다.

2. 방법론 (Methodology)

A. Trilobyte: 계층적 바이트 단위 토큰화 (Hierarchical Byte-Level Tokenization)

저자들은 24-bit 오디오를 포함한 고비트 심도 오디오를 처리하기 위해 Trilobyte라는 새로운 토큰화 방식을 제안했습니다.

핵심 아이디어: 각 오디오 샘플 (b-bit) 을 $B = \lceil b/8 \rceil$ 개의 바이트로 분해합니다.
상수 어휘 크기: 샘플 단위 토큰화가 비트 깊이에 따라 지수적으로 ( $O(2^b)$ ) 어휘가 커지는 반면, Trilobyte 는 각 바이트 위치에서 256 가지 값 (0~255) 만 예측하므로 어휘 크기를 상수 ( $O(1)$ ) 로 유지합니다.
구조: 오디오 샘플의 바이트들을 MSB(가장 상위 비트) 부터 LSB(가장 하위 비트) 순서로 교차하여 시퀀스로 배치하고, 이를 GPT-2 아키텍처와 같은 자기회귀 (AR) 모델에 입력합니다.
스테레오 처리: 좌우 채널을 샘플 단위로 번갈아 배치하는 대신, 한 채널의 모든 바이트 시퀀스 뒤에 다른 채널의 시퀀스를 이어붙여 (Concatenation) 모델이 채널 간 상관관계를 학습하도록 합니다.

B. 압축 파이프라인

모델 학습: AR 모델이 이전 바이트 시퀀스를 기반으로 다음 바이트의 확률 분포 $P(x_i | x_{<i})$ 를 학습합니다.
압축 (인코딩): 학습된 확률 분포를 기반으로 산술 부호화 (Arithmetic Coding) 를 사용하여 비트 스트림으로 변환합니다.
압축률 추정: 모델의 교차 엔트로피 손실 (Cross-entropy loss) 을 통해 이론적인 압축률을 직접 추정할 수 있습니다.

C. 실험 설정

데이터셋: 음악 (MusDB18, 상업용 16/24-bit 데이터, Beethoven 등), 음성 (LibriSpeech, LJSpeech 등), 생물음향 (Birdvox), 효과음 (Epidemic Sound) 등 다양한 도메인.
비트 심도: 8-bit, 16-bit, 24-bit.
비교 대상:
- FLAC: 업계 표준 무손실 코덱 (최대 압축 레벨 8).
- Standard LM: 샘플 단위 토큰화를 사용한 기존 방식 (8-bit 에서는 Trilobyte 와 동일, 16/24-bit 에서는 계산 불가).
- In-context LM: 사전 학습된 Llama-2-7B 를 텍스트처럼 오디오 바이트를 처리하여 압축하는 방식.

3. 주요 기여 (Key Contributions)

Trilobyte 제안: 비트 깊이에 따른 어휘 크기 증가를 지수적 ( $O(2^b)$ ) 에서 상수 ( $O(1)$ ) 로 줄여, 24-bit 오디오에 대한 최초의 실용적인 LM 기반 무손실 압축을 가능하게 함.
포괄적인 벤치마킹: 16-bit 및 24-bit 고충실도 오디오에 대한 최초의 종합적인 LM 압축 평가 수행 (다양한 도메인, 샘플링 레이트, 비트 심도 포함).
성능 격차 분석: 비트 심도가 증가함에 따라 학습된 압축기 (LM) 와 전통적인 코덱 (FLAC) 간의 성능 격차가 어떻게 변화하는지에 대한 경험적 증거 제시.

4. 실험 결과 (Results)

A. 8-bit 오디오

Trilobyte 와 표준 LM 은 동등하게 작동하며, FLAC 대비 약 217% (평균) 의 압축률 개선을 보임.
음악 데이터 (피아노 솔로 등) 에서 압축률이 매우 높았음 (최대 7.94 배).

B. 16-bit 오디오 (CD 품질)

FLAC 대비 약 18% 의 평균 개선을 보임. (예: Epidemic Sound 에서 29% 개선).
샘플 단위 토큰화 (Standard) 는 16-bit 에서도 Trilobyte 와 유사한 성능을 보이지만, 24-bit 로 가면 계산 불가능해짐.
샘플링 레이트 (16kHz vs 48kHz) 보다는 비트 심도가 압축 성능의 주요 제한 요인으로 작용함.

C. 24-bit 오디오 (프로페셔널 품질)

표준 방식: 1,677 만 개의 어휘로 인해 계산적으로 불가능 (Intractable).
Trilobyte: 24-bit 오디오를 처리할 수 있는 최초의 LM 기반 압축 방식.
성능: FLAC 대비 약 9% 뒤처짐 (FLAC 1.63 배 vs Trilobyte 1.48 배).
- 원인 분석: 24-bit 오디오의 하위 비트 (LSB) 에는 인간의 귀로 들을 수 없는 잡음이 포함되어 있을 가능성이 높으며, FLAC 의 Rice 부호화가 이러한 잡음 압축에 거의 최적에 가까운 성능을 발휘하는 것으로 추정됨.

D. 전이 학습 (Transfer Learning)

하나의 Trilobyte 모델로 다양한 비트 심도 (8, 16, 24-bit) 의 오디오를 동시에 학습 및 압축 가능.
하위 비트 바이트를 마스킹 (Null token) 하여 학습함으로써, 단일 모델이 다양한 비트 심도의 데이터를 처리할 수 있음을 입증.

5. 의의 및 결론 (Significance & Conclusion)

기술적 장벽 극복: 고비트 심도 오디오에서 발생하는 '어휘 폭발 (Vocabulary Explosion)' 문제를 Trilobyte 를 통해 해결하여, 24-bit 오디오에 대한 언어 모델링을 가능하게 함.
현실적 한계와 통찰:
- 8-bit 에서는 ML 기반 압축이 압도적으로 우세하지만, 16-bit 이상으로 갈수록 FLAC 와의 성능 격차가 급격히 축소됨.
- 이는 FLAC 가 고충실도 오디오의 엔트로피 한계 (Entropy bound) 에 근접해 있음을 시사하며, 현재 ML 기반 방식의 압축 이득이 계산 비용 (FLAC 보다 수백 배 느림) 을 정당화하기에는 아직 부족함을 의미함.
미래 방향: 현재는 압축률 이득이 작고 속도가 느리지만, 이 연구는 고충실도 무손실 압축에 대한 첫 번째 포괄적인 벤치마크를 제공했습니다. 향후 모델 스케일링이나 효율성 향상을 통해 FLAC 를 능가하는 성능을 달성할 수 있을 것으로 기대됩니다.

요약하자면, 이 논문은 고충실도 오디오 (16/24-bit) 에 대한 무손실 압축을 위해 Trilobyte라는 새로운 토큰화 방식을 제안하고, 이를 통해 24-bit 오디오를 처리할 수 있는 최초의 LM 기반 압축기를 구현했습니다. 결과는 16-bit 에서 FLAC 를 능가하는 소폭의 개선을 보였으나, 24-bit 에서는 아직 FLAC 에 미치지 못함을 보여주며, 비트 심도가 ML 압축의 주요 병목 현상임을 규명했습니다.