Fish Audio S2 Technical Report

이 논문은 자연어 지시를 통해 다화자 및 다턴 생성이 가능한 오픈소스 TTS 시스템 'Fish Audio S2'를 소개하고, 확장 가능한 훈련 레시피와 실시간 스트리밍이 가능한 고효율 추론 엔진을 공개합니다.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han

게시일 Wed, 11 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎙️ 물고기 오디오 S2: "말하는 AI"가 이제 진짜 사람처럼 대화하고 지시를 따릅니다!

안녕하세요! 오늘 소개할 Fish Audio S2는 단순히 글자를 읽어주는 것을 넘어, **"자연어 지시 (Natural Language Instructions)"**를 완벽하게 이해하고 따라 하는 차세대 음성 합성 (TTS) 기술입니다.

이 기술이 얼마나 대단한지, 어려운 용어 없이 일상적인 비유로 설명해 드릴게요.


1. 🎭 이전까지의 AI vs. Fish Audio S2: "대본 낭독" vs. "즉흥 연극"

  • 과거의 AI (기존 모델):
    마치 대본만 외운 배우 같아요. "안녕하세요"라고 말하라고 하면 기계적으로 "안녕하세요"라고 말하지만, "화난 목소리로 말해줘"라고 하면 어색하게 소리를 지르거나, "웃으면서 말해줘"라고 하면 웃음소리가 안 나옵니다. 지시를 따르는 게 서툴렀죠.
  • Fish Audio S2:
    이제 실력 있는 즉흥 연극 배우가 되었습니다.
    • "화난 목소리로, 숨을 헐떡이며, '안녕하세요'라고 말해줘"라고 말하면?
    • AI 는 그 즉시 **화난 표정 (톤)**을 짓고, 숨을 헐떡이는 소리를 섞어서, 자연스러운 말투로 "안녕하세요"라고 말합니다.
    • 심지어 여러 명이 대화하는 장면도 한 번에 만들어냅니다. "남자가 화를 내며 말하고, 여자가 웃으며 대답하는 대화"를 요청하면, 두 사람의 목소리와 감정을 자연스럽게 섞어서 만들어냅니다.

2. 🏭 이 기적을 만든 3 가지 비밀 무기

이 AI 가 어떻게 이렇게 똑똑해졌을까요? 세 가지 핵심 기술을 요리에 비유해 볼게요.

① 🎛️ 두 단계 요리사 (Dual-Autoregressive Architecture)

이 모델은 두 명의 요리사가 협력합니다.

  • 메인 셰프 (Slow AR): "무엇을 만들지?"를 결정합니다. (예: "오늘 메뉴는 매운 국물이다", "감정은 기분이 좋다"). 큰 그림을 그리는 역할입니다.
  • 보조 셰프 (Fast AR): "맛을 어떻게 내지?"를 결정합니다. (예: "고춧가루를 얼마나 넣을지", "소금 간을 어떻게 할지"). 메인 셰프의 지시를 받아 **세부적인 맛 (목소리 톤, 리듬)**을 다듬습니다.
  • 결과: 큰 그림과 세부적인 맛을 동시에 완벽하게 조절해서, **매우 자연스럽고 빠른 요리 (음성)**를 만들어냅니다.

② 🧹 똑똑한 청소부와 감식가 (데이터 파이프라인 & 보상 모델)

기존에는 AI 를 가르칠 때 '좋은 데이터'를 고르는 과정과 'AI 를 칭찬하는 과정'이 따로 놀아서 AI 가 혼란을 겪었습니다.

  • Fish Audio S2 의 방식: 같은 **감식가 (품질 평가 모델)**가 두 가지 일을 합니다.
    1. 청소: 훈련용 데이터를 고를 때, "이건 소리가 안 좋은 거야"라고 버립니다.
    2. 감식: AI 가 만들어낸 소리를 들을 때, "이건 소리가 좋네! 칭찬해!"라고 점수를 줍니다.
  • 비유: 같은 선생님이 학생을 가르칠 때, 시험지 채점수업 중 피드백을 똑같은 기준으로 해주니 학생이 훨씬 빨리 성장하는 셈입니다.

③ 🎮 게임 레벨업 (강화 학습, RL)

AI 는 수많은 연습을 통해 스스로 실력을 키웁니다.

  • AI 가 여러 번 소리를 만들어내면, 감식가가 "이건 발음이 틀렸어", "이건 목소리가 변했어"라고 지적합니다.
  • AI 는 이 지적을 듣고 **보상 (Reward)**을 받기 위해 스스로 수정합니다.
  • 결과: "지시 (Instruction)"를 무시하거나, 소리가 끊기는 현상이 줄어들고, 지시대로 완벽하게 연기하는 능력이 생겼습니다.

3. 🚀 얼마나 빠른가요? (인프라 엔진)

이 AI 는 SGLang이라는 최신 기술을 써서 초고속으로 작동합니다.

  • RTF (실시간 인자): 0.195.
    • 비유: 1 분 분량의 글을 읽는 데 약 12 초밖에 걸리지 않습니다. 사람이 읽는 것보다 5 배 이상 빠릅니다!
  • TTFA (첫 소리까지 시간): 100ms 미만.
    • 비유: "말해!"라고 명령하고 0.1 초 만에 목소리가 나옵니다. 전화 연결이 끊기는 것보다 훨씬 빠르죠.
  • 스트리밍: 대화하듯 실시간으로 소리를 내면서도 끊김이 없습니다.

4. 🏆 실제로 얼마나 잘하나요? (평가 결과)

연구팀은 이 AI 를 다양한 테스트에 붙여봤습니다.

  • 듣기 테스트 (Turing Test): 사람이 만든 말인지 AI 가 만든 말인지 구별하기가 거의 불가능해졌습니다. (약 51% 의 확률로 사람이 AI 라고 생각할 정도)
  • 지시 따르기 테스트: "화난 목소리로 웃어" 같은 복잡한 지시도 93% 이상 정확하게 따릅니다.
  • 다국어 능력: 영어, 중국어, 일본어 등 24 개 국어를 거의 완벽하게 구사하며, 목소리 특징 (톤) 을 유지하는 능력도 최고 수준입니다.

5. 🎁 결론: 이제 누구나 전문가가 될 수 있습니다

Fish Audio S2 는 오픈 소스로 공개되었습니다.

  • 무엇을 할 수 있나요?
    • 책 읽어주는 오디오북 제작
    • 영화 더빙
    • 나만의 캐릭터와 대화하는 챗봇
    • 여러 명이 대화하는 드라마 제작
  • 누가 쓸 수 있나요?
    • 개발자, 콘텐츠 크리에이터, 일반인 누구나! (GitHub 과 Hugging Face 에서 모델과 코드를 무료로 받을 수 있습니다)

한 줄 요약:

"Fish Audio S2 는 이제 '지시'만 내리면, 감정과 톤을 완벽하게 조절하며 사람보다 더 자연스럽고 빠르게 대화하는 '초능력 음성 배우'가 된 것입니다."

이제 여러분도 이 기술을 이용해 상상했던 모든 소리 세계를 만들어보세요! 🌊🐟🎤