Discovering and Steering Interpretable Concepts in Large Generative Music Models

Each language version is independently generated for its own context, not a direct translation.

🎵 1. 문제: AI 는 음악을 잘 만들지만, 왜 잘 만드는지 모릅니다

우리가 음악을 만들 때는 "이건 재즈야", "드럼 소리가 필요해"라고 생각하며 만듭니다. 하지만 AI(특히 'MusicGen' 같은 거대 모델) 는 방대한 데이터를 통계적으로 학습해서 음악을 만듭니다.

비유: AI 가 100 만 장의 앨범을 듣고 음악을 배웠다면, 그 AI 는 "재즈"라는 단어를 알지 못해도, 재즈 특유의 리듬과 소리를 완벽하게 흉내 낼 수 있습니다.
질문: "AI 가 실제로 어떤 '개념'을 배우고 있을까? 우리가 아는 음악 이론 (화음, 박자 등) 과 똑같은 걸 배우는 걸까, 아니면 우리가 전혀 모르는 새로운 규칙을 찾아낸 걸까?"

🔍 2. 해결책: '희소 오토인코더 (SAE)'라는 X-레이 기계

연구진은 AI 의 뇌 (내부 레이어) 를 스캔할 수 있는 특수한 도구인 **희소 오토인코더 (Sparse Autoencoder, SAE)**를 사용했습니다.

비유: AI 가 음악을 만들 때 뇌속에서 수많은 뉴런들이 동시에 켜집니다. 이걸 거대한 스프레드 시트라고 상상해보세요. 모든 셀이 다 빛나면 무엇을 의미하는지 알 수 없죠.
SAE 의 역할: 이 스프레드 시트에서 가장 중요한 몇 개의 셀 (뉴런) 만 켜지게 만들어줍니다. 마치 "이 뉴런은 '드럼 소리'를 담당하고, 저 뉴런은 '피아노의 잔향'을 담당한다"고 하나하나 분리해내는 X-레이 같은 역할을 합니다.

🕵️‍♂️ 3. 발견: AI 가 배운 것들 (기존 이론 vs. 새로운 발견)

이 X-레이로 AI 의 뇌를 들여다보니 두 가지 흥미로운 것을 발견했습니다.

A. 우리가 아는 것들 (기존 이론)

AI 는 우리가 아는 음악 개념도 잘 배웠습니다.

예시: "태코 드럼 (Taiko Drums)", "하드스타일 테크노", "바로크 하프시코드" 같은 개념을 정확히 찾아냈습니다.
의미: AI 가 단순히 소리를 흉내 내는 게 아니라, 음악 이론가들이 정의한 개념들도 스스로 학습하고 있다는 증거입니다.

B. 우리가 몰랐던 것들 (새로운 발견) ⭐

더 흥미로운 건, 음악 이론책에 없는 개념을 AI 가 찾아냈다는 점입니다.

예시:
- "전자음의 삐익거리는 소리 (Beeps & Boops)": 이론적으로 정의하기 어렵지만 전자 음악의 핵심인 소리를 하나의 개념으로 묶었습니다.
- "단일 악기, 단일 음 (Single Instrument, Single Note)": 복잡한 화음이 아니라, 악기 하나에서 나오는 긴 단일 음의 특성을 포착했습니다.
- "로맨틱한 팝 MIDI 피아노": 실제 피아노가 아니라 MIDI 로 만들어진, 특유의 기계적인 정교함과 팝 발라드 분위기가 섞인 소리를 구분해냈습니다.
의미: AI 는 인간이 언어로 설명하지 못했던, 하지만 실제로 존재하는 '음악적 뉘앙스'를 스스로 찾아내어 정리하고 있었습니다.

🎛️ 4. 활용: AI 의 뇌를 조종하기 (Steering)

이제 찾아낸 개념을 이용해 AI 를 조종할 수 있습니다.

비유: AI 가 음악을 만들 때, 우리가 찾아낸 '드럼 뉴런'에 전기를 살짝 더 흘려보내면, AI 는 드럼 소리를 더 강조해서 음악을 만듭니다.
실험 결과: "단순한 멜로디"라고만 입력했는데, '테크노' 뉴런을 켜면 테크노 스타일로, '피아노' 뉴런을 켜면 피아노 솔로로 변했습니다.
의미: AI 가 무엇을 배우고 있는지 알면, 우리가 원하는 방향으로 AI 의 창의성을 조종할 수 있게 됩니다.

📝 요약: 이 연구가 왜 중요할까요?

AI 의 투명성: AI 가 어떻게 음악을 생각하는지 그 '블랙박스'를 열어볼 수 있게 되었습니다.
새로운 음악 이론: AI 가 찾아낸 '기존에 없던 개념'들은 음악 이론가들에게 새로운 영감을 줄 수 있습니다. (예: "아, 우리가 언어로 못 표현했던 그 소리가 사실은 이런 구조였구나!")
조종 가능한 AI: 단순히 "재미있는 음악 만들어줘"라고 말하는 걸 넘어, "드럼 소리를 더 강조해서, 약간 신비로운 분위기로 만들어줘"처럼 정교하게 AI 를 통제할 수 있는 길이 열렸습니다.

한 줄 요약:

"우리는 AI 의 뇌를 해부해서 숨겨진 '음악적 직감'을 찾아냈고, 그걸로 AI 의 머릿속을 조종해 원하는 음악을 만들어내는 방법을 발견했습니다."

Each language version is independently generated for its own context, not a direct translation.

이 논문은 대규모 생성형 음악 모델 (Large Generative Music Models) 내부에서 해석 가능한 개념 (Interpretable Concepts) 을 자동으로 발견하고 이를 제어 (Steering) 할 수 있는 방법론을 제시합니다. 저자들은 희소 오토인코더 (Sparse Autoencoders, SAE) 를 활용하여 트랜스포머 모델의 잔여 스트림 (Residual Stream) 에서 추출된 특징들을 분석함으로써, 기존 음악 이론으로 설명되지 않는 새로운 패턴까지 포착하는 것을 목표로 합니다.

다음은 논문의 주요 내용을 기술적으로 요약한 것입니다.

1. 문제 정의 (Problem Statement)

블랙박스 문제: 최신 생성형 AI 모델 (예: MusicGen) 은 통계적 학습을 통해 매우 정교한 음악을 생성하지만, 그 내부 작동 원리는 불투명합니다.
이론과 관행의 간극: 인간은 '화성', '장르', '악기'와 같은 개념을 명시적으로 정의하여 음악을 창작하지만, AI 모델은 이러한 개념을 암묵적으로 학습했을 가능성이 높습니다. 기존 연구는 주로 인간이 이미 알고 있는 개념 (예: 코드 진행, 템포) 을 모델이 얼마나 잘 인코딩하는지 '프로빙 (Probing)'하는 데 집중했습니다.
미발견된 구조: 인간이 아직 언어화하지 못했거나 기존 음악 이론에 명시되지 않은 모델 고유의 조직 원리 (Organizing Principles) 를 발견할 수 있는 체계적인 방법이 부재합니다.

2. 방법론 (Methodology)

저자들은 무감독 개념 발견 (Unsupervised Concept Discovery) 파이프라인을 제안하며, 이는 크게 4 단계로 구성됩니다 (그림 1 참조).

2.1 데이터 및 활성화 추출 (Activation Extraction)

데이터셋: 약 16 만 개의 음악 클립으로 구성된 MusicSet 을 사용했습니다.
모델: 사전 훈련된 MusicGen-Large (MGL) 과 MusicGen-Small (MGS) 모델을 사용했습니다.
활성화 추출: 모델의 잔여 스트림 (Residual Stream) 에서 여러 계층 (Layer) 의 활성화 벡터를 추출했습니다. (MGL 은 5 개 계층, MGS 는 5 개 계층 등).

2.2 희소 오토인코더 (SAE) 학습

목적: 추출된 활성화 벡터 $x$ 를 희소 잠재 표현 $h$ 로 매핑하여 재구성하는 SAE 를 학습합니다.
구조: 인코더와 디코더는 단일 선형 레이어로 구성되며, $k$ -sparse projection 연산자를 통해 잠재 공간의 희소성 (Sparsity) 을 강제합니다.
하이퍼파라미터: 확장 계수 (Expansion Factor, $\epsilon$ ) 를 4 또는 32 로, 희소성 수준 ( $k$ ) 을 32 또는 100 으로 설정하여 다양한 SAE 를 학습시켰습니다.

2.3 특징 필터링 및 예시 선택

필터링: 학습된 수만 개의 특징 중 해석 가능한 후보만 선별합니다.
- 비활성 특징 제거: 검증 세트에서 활성화되지 않는 특징 제거.
- 과도한 보편성 제거: 25% 이상의 트랙에서 활성화되어 특정성이 떨어지는 특징 제거.
- 과도한 희소성 제거: 1% 미만의 트랙에서만 활성화되어 일반화 해석이 어려운 특징 제거.
예시 선정: 각 특징을 설명하기 위해 해당 특징이 가장 강하게 활성화된 상위 10 개의 음악 클립을 선택합니다.

2.4 자동 라벨링 및 검증 (Automated Labeling & Validation)

생성형 라벨링: 상위 10 개 오디오 클립을 연결하여 멀티모달 LLM (Gemini Flash 1.5 등) 에 입력하고, 공통된 음악적 패턴을 식별하여 태그와 설명을 생성하도록 지시합니다.
분류기 기반 라벨링: 사전 훈련된 오디오 분류기 (Essentia) 를 사용하여 장르, 악기, 분위기 등의 태그를 추출합니다.
정량적 평가: 생성된 라벨과 오디오 클립 간의 의미적 정합성을 CLAP (Contrastive Language-Audio Pretraining) 점수로 측정합니다.
인간 검증: 인간 평가자들이 오디오 예시와 후보 라벨을 듣고 일치도를 평가하여 라벨링 품질을 검증했습니다.

2.5 생성 제어 (Generation Steering)

발견된 특징을 모델의 생성 과정을 제어하는 데 활용합니다.
기법: SAE 의 디코더 가중치 벡터 ( $W_d$ ) 를 잔여 스트림 활성화에 가중치 $\alpha$ 를 곱해 추가합니다 ( $x' = x + \alpha \cdot \beta \cdot W_d$ ).
목표: 특정 개념 (예: '드럼 롤', '실로폰') 을 강제로 활성화시켜 생성된 음악의 스타일이나 특성을 변경합니다.

3. 주요 결과 (Key Results)

3.1 발견된 특징의 통계

필터링 전후: 초기에는 특징 활성화가 heavy-tailed 분포를 보였으나, 필터링을 통해 해석 가능한 특징만 선별했습니다.
모델 크기 효과: MusicGen-Large는 Small 모델보다 훨씬 많은 수의 해석 가능한 특징을 생성했으며, 계층별 특징의 구분이 더 명확했습니다.

3.2 기존 음악 개념의 재발견 (Canonical Concepts)

SAE 는 인간이 잘 아는 음악 개념을 정확하게 포착했습니다.

예시: 타이코 드럼 (Taiko Drums), 하드스타일 테크노 (Hardstyle Techno), 바로크 하프시코드, 록 기타 솔로 등.
이는 모델이 통계적 학습을 통해 전통적인 음악 이론과 일치하는 내부 표현을 학습했음을 시사합니다.

3.3 새로운 음악적 규칙성 발견 (Emergent Regularities)

기존 음악 용어로 명확히 정의되지 않았지만 일관된 패턴을 가진 새로운 특징들이 발견되었습니다.

예시:
- Electronic Beeps and Boops: 다양한 합성음과 글리치 소리를 포착하는 특징.
- Single Instrument, Single Note: 다양한 악기에서 지속되는 단일 음을 감지하는 특징.
- Romantic Poppy MIDI Piano: MIDI 피아노의 양자화 (Quantization) 및 압축된 다이나믹 같은 연주 아티팩트와 팝 발라드 스타일의 결합을 포착.
이러한 발견은 모델이 인간이 명시적으로 정의하지 않은 미세한 음색 (Timbre) 이나 제작 기법 (Production Practices) 을 학습하고 있음을 보여줍니다.

3.4 계층 및 모델 크기 효과

깊은 계층: 모델의 깊은 계층 (Late Layers) 일수록 인간이 해석하기 쉬운 개념을 더 잘 인코딩하는 것으로 나타났습니다.
계층별 구분: 대규모 모델 (MGL) 일수록 계층별로 특징의 역할이 더 명확하게 분화되었습니다.

3.5 생성 제어 실험 (Steering)

발견된 특징을 사용하여 생성된 음악을 제어하는 실험을 수행했습니다.
결과: 테스트된 특징 중 15~35% 가 제어 (Steering) 후 CLAP 점수가 향상되었습니다.
청취 평가: 인간 평가자들은 SAE 를 통해 제어된 오디오가 무작위 방향 제어나 베이스라인보다 의도된 특징 (예: 'Synthwave', 'Aggressive Metal') 을 더 잘 반영한다고 평가했습니다 ( $p < .0001$ ).

4. 기여 및 의의 (Contributions & Significance)

오디오/음악 분야 최초의 SAE 적용: 텍스트 및 시각 분야에 국한되었던 희소 오토인코더 기반 해석 가능성 연구를 오디오/음악 생성 모델로 확장했습니다.
규모화된 자동 평가 파이프라인: 수천 개의 잠재적 음악 개념을 인간 개입 없이도 LLM 과 분류기를 통해 자동 라벨링하고 검증하는 체계를 구축했습니다.
새로운 음악 이론의 단서 제공: 기존 음악 이론으로 설명되지 않는 모델 고유의 조직 원리를 발견함으로써, 음악 이론과 AI 모델의 학습 구조 간의 간극을 메우는 실증적 도구를 제시했습니다.
제어 가능한 생성 (Controllable Generation): 발견된 개념을 직접 조작하여 모델의 출력을 원하는 방향으로 유도할 수 있음을 증명했습니다.

5. 결론

이 논문은 대규모 생성 음악 모델이 단순히 데이터를 모방하는 것을 넘어, 인간이 아직 언어화하지 못한 복잡한 음악적 구조와 패턴을 내부적으로 학습하고 있음을 보여줍니다. 제안된 SAE 기반 파이프라인은 모델의 투명성을 높일 뿐만 아니라, 음악 이론의 새로운 발견과 더 정교한 생성형 AI 제어 기술 개발을 위한 강력한 도구로 작용할 수 있습니다.