FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

이 논문은 화성음성 인식 (ASR), 음성 활동 감지 (VAD), 언어 식별 (LID), 구두점 예측 (Punc) 모듈을 통합하여 방언 및 코드스위칭까지 포괄하는 산업용 수준의 최첨단 자동 음성 인식 시스템 'FireRedASR2S'를 제안하고, 각 모듈이 기존 모델들을 능가하는 성능을 달성했음을 보고합니다.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao Hu

게시일 Thu, 12 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🔥 "파이어레드 ASR2S": 모든 것을 한 번에 해결하는 '슈퍼 통역사' 이야기

이 논문은 Xiaohongshu(샤오홍슈) 의 '슈퍼 지능 팀'이 개발한 'FireRedASR2S' 라는 아주 똑똑한 음성 인식 시스템을 소개합니다.

기존의 음성 인식 프로그램이 "말만 듣고 글자로 바꿔주는 것"에 그쳤다면, 이 시스템은 "말을 듣고, 누가 말했는지 구분하고, 어떤 언어인지 알아보고, 마침표와 쉼표를 찍어주는" 모든 일을 한 번에 해내는 올인원 (All-in-One) 슈퍼 스타입니다.

이 시스템을 쉽게 이해할 수 있도록 **4 명의 전문가로 구성된 '만능 팀'**에 비유해 설명해 드릴게요.


🎙️ 1. 팀의 구성원: 4 명의 전문가

이 시스템은 크게 네 가지 역할을 하는 모듈 (구성 요소) 로 이루어져 있습니다. 마치 한 편의 영화를 만들 때 감독, 편집자, 번역가, 교정자가 함께 일하는 것과 같습니다.

FireRedVAD (불꽃 VAD): "침묵과 소음을 가르는 귀"

  • 역할: 녹음된 파일에는 말소리뿐만 아니라 배경음악, 노래, 침묵, 잡음도 섞여 있습니다. 이 팀은 "지금 진짜 사람이 말하고 있는 구간만 딱 잘라내는" 역할을 합니다.
  • 특징: 아주 가볍고 빠릅니다 (머리 크기가 0.6M 에 불과함). 마치 초경량 나비처럼 가볍지만, 노래와 말소리를 구별하는 능력은 타의 추종을 불허합니다.
  • 비유: 시끄러운 파티에서 "지금 누가 말하고 있나?"를 정확히 찾아내어, 말하지 않는 시간에는 귀를 막아주는 현명한 도우미입니다.

FireRedLID (불꽃 LID): "언어와 사투리를 알아보는 눈"

  • 역할: 들어온 소리가 영어인지, 중국어인지, 아니면 중국 내의 특정 사투리 (광둥어, 상해어 등) 인지 순간적으로 판단합니다.
  • 특징: 100 개 이상의 언어와 20 개 이상의 중국 사투리를 다룹니다.
  • 비유: 외국인이 들어와도 "아, 이 사람은 프랑스 사람이고, 그 사람은 베이징 사투리를 쓰는 중국 사람이구나!"라고 순간적으로 알아보는 통역사입니다.

FireRedASR2 (불꽃 ASR2): "소리를 글자로 바꾸는 대가"

  • 역할: 말소리를 듣고 정확한 텍스트로 변환하는 메인 캐릭터입니다.
  • 두 가지 버전:
    • LLM 버전 (8B+): 거대한 두뇌를 가진 슈퍼 천재. 정확도가 매우 높지만 무겁습니다. (노래 가사나 복잡한 말도 잘 알아듣습니다.)
    • AED 버전 (1B+): 가볍고 빠른 실전 전문가. 정확도도 좋으면서도 속도가 빨라 일상에서 쓰기 좋습니다.
  • 비유: 마법사처럼 입으로 내뱉은 소리를 순식간에 종이에 글자로 적어줍니다. 심지어 노래 가사나 다양한 사투리도 완벽하게 해독합니다.

FireRedPunc (불꽃 Punc): "문장을 다듬는 편집자"

  • 역할: 말소리를 글자로 바꾸면 쉼표나 마침표가 없어서 읽기 힘듭니다. 이 팀은 적절한 곳에 쉼표와 마침표를 찍어 문장을 자연스럽게 만들어줍니다.
  • 비유: 막 쓰인 초고를 받아 문장 부호를 넣어주고 가독성을 높여주는 편집장입니다.

🚀 2. 이 시스템이 특별한 이유 (기존 기술과의 차이점)

기존의 음성 인식 시스템들은 각 전문가를 따로 구해서 연결하는 경우가 많았습니다. 하지만 이 시스템은 하나의 팀으로 통합되어 있습니다.

  • 🧩 퍼즐 조각이 아닌, 완성된 그림: 보통은 VAD(소리 구분), LID(언어 판별), ASR(인식), Punc(문장 부호) 를 각각 다른 곳에서 가져와서 연결하면, 데이터가 끊기거나 오류가 생기기 쉽습니다. 하지만 이 시스템은 하나의 파이프라인으로 설계되어, 소리가 들어오면 자연스럽게 처리되어 나옵니다.
  • 📚 방대한 학습 데이터: 이 시스템은 약 20 만 시간의 다양한 데이터 (일반 말소리, 노래, 다양한 사투리, 영어 등) 로 훈련되었습니다. 마치 수백 권의 책을 읽은 박사처럼, 낯선 말소리나 억양에도 강합니다.
  • 👨‍🏫 인간이 직접 가르침: 특히 '소리 구분 (VAD)' 부분은 기존처럼 기계가 자동으로 만든 데이터를 쓰는 게 아니라, 사람이 직접 "여기는 노래, 여기는 말소리"라고 표시한 데이터로 학습했습니다. 그래서 노래와 말이 섞인 복잡한 상황에서도 매우 정확하게 작동합니다.

🌟 3. 실제 성능: 얼마나 잘할까요?

논문에서 공개한 결과에 따르면, 이 시스템은 전 세계적으로 유명한 여러 테스트에서 **최고의 성능 (SOTA)**을 기록했습니다.

  • 중국어 방언/사투리: 중국어 방언 19 개를 테스트했을 때, 다른 유명 시스템들 (Doubao, Qwen 등) 보다 훨씬 낮은 오류율을 보였습니다.
  • 노래 인식: 노래 가사를 텍스트로 바꾸는 능력에서도 압도적인 성적을 냈습니다.
  • 다국어 인식: 100 개 이상의 언어를 구분하는 능력에서도 기존 최고 수준 모델들을 압도했습니다.

💡 4. 결론: 왜 이 시스템이 중요한가요?

FireRedASR2S는 단순히 "말을 글로 바꿔주는" 것을 넘어, **실제 세상에서 일어나는 복잡한 소리 상황 (노래, 잡음, 다양한 언어, 사투리)**까지 완벽하게 처리할 수 있는 산업 수준의 올인원 솔루션입니다.

이제 개발자들은 이 시스템을 통해:

  1. 더 정확한 자막을 만들 수 있고,
  2. 다양한 언어를 쓰는 사용자를 위한 서비스를 쉽게 구축할 수 있으며,
  3. 노래나 사투리가 섞인 콘텐츠도 쉽게 분석할 수 있게 됩니다.

마치 모든 언어와 상황을 이해하는 만능 비서가 우리 곁에 온 것과 같습니다. 이 시스템의 코드와 모델은 공개되어 있어, 누구나 연구하고 활용할 수 있습니다.