Each language version is independently generated for its own context, not a direct translation.

오디오X (AudioX): "무엇이든 소리로 바꾸는 마법사"

이 논문은 ICLR 2026에 채택된 최신 연구로, **'오디오X (AudioX)'**라는 새로운 인공지능 모델을 소개합니다. 쉽게 말해, 이 모델은 **텍스트, 영상, 소리 등 어떤 입력이든 받아서 원하는 소리를 만들어내는 '만능 오디오 생성기'**입니다.

기존의 인공지능들은 "글로 소리를 만들거나", "영상을 소리로 바꾸는" 등 한 가지 일만 잘하는 '전문가'들이었습니다. 하지만 오디오X 는 그 모든 일을 한 번에 해내는 '만능 천재'입니다.

이 복잡한 기술을 일상적인 비유로 설명해 드릴게요.

1. 왜 이 연구가 필요할까요? (문제 상황)

지금까지 소리를 만드는 AI 는 마치 조리사가 하나만 전문으로 하는 식당 같았습니다.

음식 A 전문점: 글 (레시피) 만 보고 소리를 만듭니다.
음식 B 전문점: 영상 (재료) 만 보고 소리를 만듭니다.

하지만 우리는 가끔 "이 영상에 맞춰서, '강아지가 짖는 소리 3 번'과 '비 오는 소리'를 섞어서 만들어줘"라고 복잡한 주문을 하고 싶을 때가 있습니다. 기존 AI 들은 이런 복잡한 주문을 잘 못 들었습니다.

2. 오디오X 의 핵심 아이디어 (해결책)

오디오X 는 **모든 재료를 한 번에 다룰 수 있는 '초고급 주방'**입니다.

입력 (재료): 글 (텍스트), 영상 (비디오), 기존 소리 (오디오) 등 무엇이든 들어옵니다.
출력 (요리): 원하는 소리와 음악이 나옵니다.

이 모델이 이렇게 똑똑해질 수 있었던 이유는 두 가지 비밀 무기 때문입니다.

🔑 비밀 무기 1: '만능 융합 모듈' (MAF)

여러 가지 입력 (글, 영상, 소리) 이 한꺼번에 들어오면 서로 소리가 섞여서 혼란스러울 수 있습니다. 마치 여러 사람이 한꺼번에 떠들면 무슨 말인지 못 듣는 것처럼요.

오디오X 는 **'지능적인 요리사 (MAF 모듈)'**를 배치했습니다. 이 요리사는 들어온 정보들을 살펴보고, "이건 중요하니까 크게 들어주고, 이건 잡음이라서 줄여줘"라고 적응적으로 조절합니다. 덕분에 글과 영상이 서로 방해하지 않고, 완벽한 소리로 합쳐집니다.

🔑 비밀 무기 2: '엄청난 레시피 책' (IF-caps 데이터)

요리사가 실력을 키우려면 많은 레시피가 필요합니다. 기존에는 레시피가 부족하거나, 특정 요리 (예: '비 오는 소리'만) 에만 특화되어 있었습니다.

연구팀은 **700 만 개가 넘는 '고급 레시피 (IF-caps)'**를 직접 만들었습니다.

단순히 "비 온다"라고만 적는 게 아니라, **"비 소리가 3 번 들리고, 천둥 소리가 그 뒤를 따르며, 5 초 동안 지속된다"**처럼 정교한 지시사항이 포함된 레시피들입니다.
이 방대한 데이터를 통해 모델은 "지시사항을 정확히 따르는 법"을 배웠습니다.

3. 이 모델이 얼마나 대단한가요? (성과)

오디오X 는 기존에 있던 '전문가'들보다 더 잘합니다.

정밀한 지시 따르기: "강아지가 3 번 짖어"라고 하면, 기존 모델은 1 번만 짖거나 5 번을 짖었지만, 오디오X 는 정확히 3 번을 짖습니다. 시간 순서도 정확히 맞춥니다.
다양한 상황 대처: 글만 줘도 소리를 만들고, 영상만 줘도 소리를 만들고, 둘 다 줘도 소리를 만듭니다. 심지어 소리가 잘린 부분을 채워 넣거나 (인페인팅), 음악을 이어 붙이는 일도 척척 해냅니다.
질적 우수성: 만든 소리가 매우 자연스럽고, 원하는 분위기와 정확히 일치합니다.

4. 요약: 일상 언어로 정리하면?

"오디오X 는 마치 상상력이 뛰어난 마법사 같은 AI 입니다. 당신이 '이 영상에 맞춰서, 3 초 뒤에 강아지가 짖고 그다음 비가 오는 소리'라고 말만 하면, 마법사가 그 복잡한 주문을 정확히 들어내서 완벽한 소리를 만들어냅니다. 기존 AI 들은 한 가지 일만 잘했지만, 오디오X 는 모든 일을 잘하며, 특히 당신의 '구체적인 지시'를 가장 잘 따릅니다."

이 기술이 상용화되면, 영화 제작자가 소리를 일일이 녹음하지 않아도 되거나, 게임 개발자가 상황에 맞는 배경음악을 실시간으로 만들 수 있게 되어 창작의 세계가 훨씬 넓어질 것입니다.

참고: 이 연구의 코드와 데이터는 공개될 예정이며, 누구나 이 '만능 오디오 마법사'를 직접 경험해 볼 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

최근 오디오 및 음악 생성 기술은 멀티미디어 콘텐츠 제작에 중요한 역할을 하고 있으나, 기존 연구들은 다음과 같은 한계점을 가지고 있습니다.

제한된 입력/출력 모달리티: 대부분의 기존 모델은 단일 조건 (예: 텍스트만, 또는 비디오만) 에 의존하거나, 특정 도메인 (사운드 효과 생성 또는 음악 생성 중 하나만) 에만 특화되어 있습니다.
유연성 부족: 텍스트, 비디오, 오디오 등 다양한 모달리티를 결합하거나, 복잡한 지시 (예: 사건의 순서, 개수, 시간적 위치) 를 따르는 생성에는 한계가 있습니다.
데이터 부족: 통합된 모델을 훈련시키기 위한 고품질의 대규모 멀티모달 데이터셋이 부족합니다. 기존 데이터셋은 대부분 특정 작업 (Text-to-Audio 등) 에만 초점을 맞추어 분산되어 있습니다.

이러한 문제들을 해결하기 위해, 어떤 입력 (Anything) 이든 오디오로 변환할 수 있는 통합 프레임워크와 이를 위한 대규모 고품질 데이터셋이 필요합니다.

2. 제안 방법론 (Methodology)

저자들은 AudioX라는 통합 프레임워크를 제안하며, 이는 Diffusion Transformer (DiT) 아키텍처를 기반으로 합니다.

가. 모델 아키텍처: AudioX

DiT 백본: 고충실도 오디오 합성을 위해 Diffusion Transformer 를 기반으로 합니다.
멀티모달 인코더: 비디오 (CLIP-ViT, Synchformer), 텍스트 (T5-base), 오디오 (Audio Autoencoder) 를 각각 전문화된 인코더를 통해 특징 벡터로 변환합니다.
멀티모달 적응적 융합 모듈 (Multimodal Adaptive Fusion, MAF):
- 이 모듈이 AudioX 의 핵심 설계입니다. 서로 다른 모달리티 간의 간섭을 줄이고 효과적인 융합을 위해 설계되었습니다.
- 게이트 (Gate) 메커니즘: 각 모달리티의 특징을 필터링하고 재가중치하여 노이즈를 억제하고 유익한 신호를 유지합니다.
- 학습 가능한 쿼리 (Learnable Queries): 크로스-어텐션 (Cross-attention) 을 통해 다양한 데이터 스트림 간의 증거를 평가하고 집계합니다.
- 자기 어텐션 (Self-attention): 통합된 맥락을 정제하여 최종 조건 임베딩 ( $H_c$ ) 을 생성합니다.
- 이 과정을 통해 텍스트, 비디오, 오디오 입력이 통합된 조건 임베딩이 생성되어 DiT 에게 전달되며, 고품질 오디오 생성을 유도합니다.

나. 데이터셋: IF-caps (Instruction-Following)

통합 모델 훈련을 위해 700 만 개 이상의 샘플로 구성된 대규모 고품질 데이터셋인 IF-caps를 구축했습니다.
- 일반 오디오: 약 130 만 개
- 음악: 약 570 만 개
구조화된 주석 파이프라인:
1. Gemini 2.5 Pro를 사용하여 비디오 - 오디오 클립에 대한 초기 전역 캡션과 구조화된 필드 (사운드 이벤트 분류, 개수, 장르, 악기, 템포 등) 를 생성합니다.
2. Qwen2-Audio를 활용하여 비용 효율적으로 대규모 데이터 증강을 수행합니다. 원본 주석을 기반으로 다양한 표현 방식의 캡션을 생성하여 데이터의 다양성을 확보합니다.
이 데이터셋은 텍스트, 비디오, 오디오 조건을 모두 포함하며, 세부적인 지시 (순서, 개수, 시간 등) 를 따르는 생성을 학습하는 데 필수적입니다.

다. 훈련 및 추론

학습 목표: 노이즈 제거 확산 과정 (Denoising Diffusion) 을 통해 잠재 공간에서 고품질 오디오를 생성하도록 최적화합니다.
지시 따르기 (Instruction-Following): 오디오 인페인팅 (Audio Inpainting), 음악 완성 (Music Completion), 텍스트/비디오 기반 오디오 생성 등 다양한 태스크를 하나의 모델로 처리합니다.

3. 주요 기여 (Key Contributions)

AudioX 프레임워크: 텍스트, 비디오, 오디오 등 다양한 입력을 통합하여 오디오와 음악을 생성하는 최초의 범용 (Generalist) 모델 중 하나를 제안했습니다.
MAF 모듈: 멀티모달 입력 간의 간섭을 줄이고 교차 모달 정렬을 개선하는 경량화된 적응적 융합 모듈을 설계하여 생성 품질과 지시 따르기 능력을 크게 향상시켰습니다.
IF-caps 데이터셋: 700 만 개 이상의 세밀하게 주석된 대규모 멀티모달 데이터셋을 구축하여, 기존에 존재하지 않았던 통합 오디오 생성 모델 훈련을 가능하게 했습니다.
새로운 벤치마크 (T2A-bench): 텍스트 - 오디오 생성 모델의 지시 따르기 능력을 평가하기 위해 카테고리, 개수, 순서, 타임스탬프 정확도를 측정하는 새로운 벤치마크와 자동 평가 파이프라인을 제안했습니다.

4. 실험 결과 (Results)

AudioX 는 다양한 태스크와 벤치마크에서 기존 최첨단 (SOTA) 모델들을 능가하거나 경쟁력 있는 성능을 보였습니다.

종합 성능: Inception Score (IS) 를 포함한 객관적 지표에서 AudioCaps, VGGSound, MusicCaps 등 다양한 데이터셋에서 SOTA 또는 이에 준하는 성능을 기록했습니다.
지시 따르기 능력 (Instruction-Following):
- T2A-bench 및 AudioTime 벤치마크: 카테고리 정확도, 개수 정확도, 순서 정확도, 타임스탬프 정확도 등 모든 측정 항목에서 기존 모델 (AudioGen, AudioLDM, Tango 2 등) 을 압도적으로 능가했습니다.
- 특히 복잡한 시간적 제어 (예: "2 초부터 6 초까지 박수 소리") 나 다중 사운드 이벤트의 순서 제어에서 뛰어난 성능을 보였습니다.
사용자 연구: 10 명의 오디오 전문가를 대상으로 한 주관적 평가에서 전반적 품질 (OVL) 과 지시 관련성 (REL) 에서 대부분의 태스크에서 SOTA 성능을 입증했습니다.
다양한 태스크: 텍스트 - 오디오, 비디오 - 오디오, 텍스트 + 비디오 - 오디오, 오디오 인페인팅, 음악 완성 등 다양한 태스크에서 단일 모델이 모든 작업을 효과적으로 처리함을 보였습니다.

5. 의의 및 결론 (Significance)

통합 모델의 가능성 입증: 단일 모델이 다양한 입력 모달리티와 출력 도메인 (사운드 효과 및 음악) 을 모두 처리할 수 있음을 증명했습니다.
데이터의 중요성: 고품질의 텍스트 주석이 오디오 생성의 품질뿐만 아니라, 비디오나 오디오 조건에서의 정렬 (Alignment) 까지 개선시키는 **교차 모달 정규화 효과 (Cross-modal Regularization Effect)**를 발견했습니다. 이는 고품질 텍스트 데이터가 멀티모달 모델 훈련에 핵심적임을 시사합니다.
세밀한 제어: 단순한 생성을 넘어, 사용자의 복잡한 지시 (순서, 개수, 시간 등) 를 정밀하게 따르는 오디오 생성이 가능해졌으며, 이는 향후 멀티미디어 콘텐츠 제작 및 접근성 기술 발전에 중요한 기여를 할 것으로 기대됩니다.

결론적으로, AudioX 는 데이터 부족과 모델의 분산된 특성을 해결하고, 고품질이며 세밀하게 제어 가능한 범용 오디오 생성을 실현한 획기적인 연구입니다.

AudioX: A Unified Framework for Anything-to-Audio Generation