Each language version is independently generated for its own context, not a direct translation.
🎙️ 물고기 오디오 S2: "말하는 AI"가 이제 진짜 사람처럼 대화하고 지시를 따릅니다!
안녕하세요! 오늘 소개할 Fish Audio S2는 단순히 글자를 읽어주는 것을 넘어, **"자연어 지시 (Natural Language Instructions)"**를 완벽하게 이해하고 따라 하는 차세대 음성 합성 (TTS) 기술입니다.
이 기술이 얼마나 대단한지, 어려운 용어 없이 일상적인 비유로 설명해 드릴게요.
1. 🎭 이전까지의 AI vs. Fish Audio S2: "대본 낭독" vs. "즉흥 연극"
- 과거의 AI (기존 모델):
마치 대본만 외운 배우 같아요. "안녕하세요"라고 말하라고 하면 기계적으로 "안녕하세요"라고 말하지만, "화난 목소리로 말해줘"라고 하면 어색하게 소리를 지르거나, "웃으면서 말해줘"라고 하면 웃음소리가 안 나옵니다. 지시를 따르는 게 서툴렀죠.
- Fish Audio S2:
이제 실력 있는 즉흥 연극 배우가 되었습니다.
- "화난 목소리로, 숨을 헐떡이며, '안녕하세요'라고 말해줘"라고 말하면?
- AI 는 그 즉시 **화난 표정 (톤)**을 짓고, 숨을 헐떡이는 소리를 섞어서, 자연스러운 말투로 "안녕하세요"라고 말합니다.
- 심지어 여러 명이 대화하는 장면도 한 번에 만들어냅니다. "남자가 화를 내며 말하고, 여자가 웃으며 대답하는 대화"를 요청하면, 두 사람의 목소리와 감정을 자연스럽게 섞어서 만들어냅니다.
2. 🏭 이 기적을 만든 3 가지 비밀 무기
이 AI 가 어떻게 이렇게 똑똑해졌을까요? 세 가지 핵심 기술을 요리에 비유해 볼게요.
① 🎛️ 두 단계 요리사 (Dual-Autoregressive Architecture)
이 모델은 두 명의 요리사가 협력합니다.
- 메인 셰프 (Slow AR): "무엇을 만들지?"를 결정합니다. (예: "오늘 메뉴는 매운 국물이다", "감정은 기분이 좋다"). 큰 그림을 그리는 역할입니다.
- 보조 셰프 (Fast AR): "맛을 어떻게 내지?"를 결정합니다. (예: "고춧가루를 얼마나 넣을지", "소금 간을 어떻게 할지"). 메인 셰프의 지시를 받아 **세부적인 맛 (목소리 톤, 리듬)**을 다듬습니다.
- 결과: 큰 그림과 세부적인 맛을 동시에 완벽하게 조절해서, **매우 자연스럽고 빠른 요리 (음성)**를 만들어냅니다.
② 🧹 똑똑한 청소부와 감식가 (데이터 파이프라인 & 보상 모델)
기존에는 AI 를 가르칠 때 '좋은 데이터'를 고르는 과정과 'AI 를 칭찬하는 과정'이 따로 놀아서 AI 가 혼란을 겪었습니다.
- Fish Audio S2 의 방식: 같은 **감식가 (품질 평가 모델)**가 두 가지 일을 합니다.
- 청소: 훈련용 데이터를 고를 때, "이건 소리가 안 좋은 거야"라고 버립니다.
- 감식: AI 가 만들어낸 소리를 들을 때, "이건 소리가 좋네! 칭찬해!"라고 점수를 줍니다.
- 비유: 같은 선생님이 학생을 가르칠 때, 시험지 채점과 수업 중 피드백을 똑같은 기준으로 해주니 학생이 훨씬 빨리 성장하는 셈입니다.
③ 🎮 게임 레벨업 (강화 학습, RL)
AI 는 수많은 연습을 통해 스스로 실력을 키웁니다.
- AI 가 여러 번 소리를 만들어내면, 감식가가 "이건 발음이 틀렸어", "이건 목소리가 변했어"라고 지적합니다.
- AI 는 이 지적을 듣고 **보상 (Reward)**을 받기 위해 스스로 수정합니다.
- 결과: "지시 (Instruction)"를 무시하거나, 소리가 끊기는 현상이 줄어들고, 지시대로 완벽하게 연기하는 능력이 생겼습니다.
3. 🚀 얼마나 빠른가요? (인프라 엔진)
이 AI 는 SGLang이라는 최신 기술을 써서 초고속으로 작동합니다.
- RTF (실시간 인자): 0.195.
- 비유: 1 분 분량의 글을 읽는 데 약 12 초밖에 걸리지 않습니다. 사람이 읽는 것보다 5 배 이상 빠릅니다!
- TTFA (첫 소리까지 시간): 100ms 미만.
- 비유: "말해!"라고 명령하고 0.1 초 만에 목소리가 나옵니다. 전화 연결이 끊기는 것보다 훨씬 빠르죠.
- 스트리밍: 대화하듯 실시간으로 소리를 내면서도 끊김이 없습니다.
4. 🏆 실제로 얼마나 잘하나요? (평가 결과)
연구팀은 이 AI 를 다양한 테스트에 붙여봤습니다.
- 듣기 테스트 (Turing Test): 사람이 만든 말인지 AI 가 만든 말인지 구별하기가 거의 불가능해졌습니다. (약 51% 의 확률로 사람이 AI 라고 생각할 정도)
- 지시 따르기 테스트: "화난 목소리로 웃어" 같은 복잡한 지시도 93% 이상 정확하게 따릅니다.
- 다국어 능력: 영어, 중국어, 일본어 등 24 개 국어를 거의 완벽하게 구사하며, 목소리 특징 (톤) 을 유지하는 능력도 최고 수준입니다.
5. 🎁 결론: 이제 누구나 전문가가 될 수 있습니다
Fish Audio S2 는 오픈 소스로 공개되었습니다.
- 무엇을 할 수 있나요?
- 책 읽어주는 오디오북 제작
- 영화 더빙
- 나만의 캐릭터와 대화하는 챗봇
- 여러 명이 대화하는 드라마 제작
- 누가 쓸 수 있나요?
- 개발자, 콘텐츠 크리에이터, 일반인 누구나! (GitHub 과 Hugging Face 에서 모델과 코드를 무료로 받을 수 있습니다)
한 줄 요약:
"Fish Audio S2 는 이제 '지시'만 내리면, 감정과 톤을 완벽하게 조절하며 사람보다 더 자연스럽고 빠르게 대화하는 '초능력 음성 배우'가 된 것입니다."
이제 여러분도 이 기술을 이용해 상상했던 모든 소리 세계를 만들어보세요! 🌊🐟🎤
Each language version is independently generated for its own context, not a direct translation.
Fish Audio S2: 자연어 지시 기반의 차세대 오픈소스 TTS 시스템
1. 문제 정의 (Problem)
기존의 고품질 텍스트 - 음성 변환 (TTS) 기술은 다음과 같은 한계점을 가지고 있었습니다:
- 세밀한 제어의 부재: 대규모 모델들이 발전했지만, 자연어 설명을 통해 음성의 감정, 억양, 화자 전환 등을 세밀하게 제어하는 것은 여전히 주요 병목 현상이었습니다.
- 데이터 정합성 문제: 사전 학습 (Pre-training) 과 강화 학습 (RL) 정렬 단계에서 서로 다른 데이터 파이프라인을 사용할 경우, 데이터 분포 불일치 (Distribution Mismatch) 가 발생하여 모델 성능이 저하될 수 있습니다.
- 장기 생성 및 다화자 지원의 어려움: 긴 문맥에서 일관된 음성을 유지하거나, 한 번의 생성으로 여러 화자가 등장하는 복잡한 대화를 자연스럽게 구현하는 것은 기술적으로 난이도가 높았습니다.
- 추론 지연: 실시간 스트리밍이 가능한 초저지연 (Ultra-low Latency) 추론 엔진의 부재가 상용화의 걸림돌이었습니다.
2. 방법론 (Methodology)
Fish Audio S2 는 이러한 문제를 해결하기 위해 듀얼 오토레귀시브 (Dual-Autoregressive, Dual-AR) 아키텍처, 이중 목적 데이터 파이프라인, 그리고 다중 보상 강화 학습을 도입했습니다.
가. 아키텍처: Dual-Autoregressive (Dual-AR)
- Slow AR (시간 축 모델링): 사전 학습된 Qwen3-4B 기반의 거대 언어 모델 (LLM) 을 사용하여 텍스트와 오디오 토큰의 시퀀스를 예측합니다. 주로 의미론적 토큰 (Semantic tokens) 을 생성하여 언어 내용과 거친 억양 구조를 계획합니다.
- Fast AR (깊이 축 모델링): Slow AR 이 생성한 의미 토큰을 조건으로 받아, 나머지 9 개의 RVQ (Residual Vector Quantization) 코드북 토큰을 빠르게 생성하여 세밀한 음향 디테일을 복원합니다.
- 효율성: 시간 축은 4B 파라미터 모델이, 코드북 깊이 축은 4 레이어 경량 네트워크가 담당하여 추론 효율성을 극대화합니다.
나. 데이터 파이프라인: 이중 목적 (Dual-Purpose) 설계
- 품질 평가 및 rich-transcription ASR: 음성 품질 평가 모델과 풍부한 전사 (Rich-transcription) ASR 모델을 개발했습니다.
- 일관성 유지: 이 모델들은 사전 학습 단계에서는 데이터 필터링 및 주석 생성 도구로 사용되고, 강화 학습 (RL) 단계에서는 보상 모델 (Reward Model) 로 직접 재사용됩니다. 이를 통해 사전 학습과 RL 정렬 간의 분포 불일치를 원천적으로 제거했습니다.
- 세밀한 주석: ASR 모델은 화자 전환, 웃음, 숨소리, 감정 등 자연어 지시어 (Instruction) 를 텍스트 스트림에 직접 주입하여 제로샷 (Zero-shot) 제어 능력을 학습시킵니다.
다. 강화 학습 (RL) 정렬
- Multi-Reward GRPO: PPO 와 같은 기존 RL 방법 대신, 그룹 상대 정책 최적화 (GRPO) 변형 알고리즘을 적용하여 가치 네트워크 (Value Network) 없이도 효율적으로 학습합니다.
- 다차원 보상: 의미 정확도 (ASR 기반), 음향 선호도 (품질 모델 기반), 화자 유사도 (보이스프린트 모델 기반) 를 동시에 최적화하는 복합 보상 시스템을 구축하여, 할루시네이션을 줄이고 지시 따르기 능력을 강화했습니다.
라. 추론 엔진
- SGLang 기반: LLM 을 위한 최적화 프레임워크인 SGLang 을 기반으로 하여, 오디오 생성에 특화된 수정 (RadixCache 확장, Vocoder 와 LLM 의 동시 스케줄링 등) 을 가했습니다.
- 성능: 스트리밍 생성을 지원하며, RTF(실시간 인자) 0.195 및 TTFA(첫 오디오 도달 시간) 100ms 미만의 초저지연을 달성했습니다.
3. 주요 기여 (Key Contributions)
- 자연어 지시 기반 제어 (Instruction Following): 자유 형식의 자연어 설명 (예: "화난 목소리로 속삭이며") 을 통해 음성 생성의 미세한 특징을 정밀하게 제어할 수 있는 능력을 확보했습니다.
- 네이티브 다화자 및 다턴 생성: 별도의 처리 없이 한 번의 생성으로 여러 화자가 등장하는 복잡한 대화와 긴 형식의 일관된 오디오를 생성할 수 있습니다.
- 생산 준비 완료 (Production-Ready) 추론 엔진: SGLang 기반의 엔진을 오픈소스하여, 대규모 배포 환경에서도 초저지연과 높은 처리량을 보장합니다.
- 새로운 평가 벤치마크: 'Fish Audio Instruction Benchmark'를 도입하여, 기존 WER/MOS 를 넘어선 세밀한 태그 활성화율 (Tag Activation Rate) 과 지시 따르기 능력을 체계적으로 평가할 수 있게 했습니다.
4. 평가 결과 (Results)
- 객관적 평가 (Objective Metrics):
- Seed-TTS-Eval: 영어와 중국어 모두에서 WER(단어 오류율) 에서 최상위권 성능을 보였습니다.
- 다국어 평가 (Minimax & CV3-Eval): 24 개 언어 중 11 개 언어에서 최저 WER, 17 개 언어에서 최고 화자 유사도 (SIM) 를 기록하며 뛰어난 다국어 및 제로샷 보이스 클로닝 능력을 입증했습니다.
- 장기 생성: 긴 오디오 생성 시 WER 와 화자 일관성 (SIM-Std) 에서 기존 모델 (S1, Qwen3-TTS 등) 보다 우수한 안정성을 보였습니다.
- LLM-as-a-Judge 평가:
- Audio Turing Test: 인간과 기계의 구별이 어려운 수준을 평가하는 테스트에서 0.483 의 평균 점수를 기록했으며, 지시어 재작성 시 0.515 로 향상되어 SOTA 를 능가했습니다.
- Emergent TTS Eval: 감정, 비언어적 소리, 복잡한 문장 구조 등 6 가지 난이도 높은 시나리오에서 베이스라인 대비 81.88% 의 승리율 (Win Rate) 을 기록했습니다.
- Instruction Benchmark: 중국어와 영어 모두에서 태그 활성화율 (TAR) 과 자연스러움, 표현력에서 S1 대비 큰 개선을 보였습니다.
5. 의의 및 결론 (Significance)
Fish Audio S2 는 오픈소스 TTS 의 새로운 기준을 제시합니다.
- 기술적 혁신: LLM 의 강력한 언어 이해 능력과 오디오 생성을 결합한 Dual-AR 구조와, 데이터 파이프라인의 일관성을 유지한 RL 정렬 전략은 향후 TTS 연구의 중요한 방향성을 제시합니다.
- 실용성: 초저지연 추론 엔진과 오픈소스화된 모델 가중치, 파인튜닝 코드는 개발자들이 고품질 TTS 를 쉽게 접근하고 상용화할 수 있는 기반을 마련했습니다.
- 지속 가능성: 자연어 지시를 통한 세밀한 제어가 가능해짐으로써, 오디오북, 비디오 더빙, 대화형 AI 등 다양한 분야에서 더욱 자연스럽고 개인화된 음성 콘텐츠 생성이 가능해졌습니다.
이 보고서는 Fish Audio S2 가 단순히 음성을 합성하는 것을 넘어, 의미 있는 지시를 이해하고 실행하는 지능형 음성 생성 시스템으로 진화했음을 입증합니다.