SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models

이 논문은 2001 년부터 2024 년까지의 33 만 개의 연설 대본 (6,600 만 단어) 과 2,806 시간의 정렬된 오디오를 포함한 대규모 슬로바키아 의회 말뭉치 'SloPal'과 이를 기반으로 Whisper ASR 모델의 단어 오류율을 최대 70% 감소시킨 파인튜닝 모델들을 공개하여 저자원 언어인 슬로바키아어 음성 인식의 새로운 기준을 제시합니다.

Erik Božík, Marek Šuppa

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "배고픈 AI"와 "비어 있는 도서관"

지금까지 AI 가 말을 알아듣는 기술 (음성 인식) 은 영어처럼 자료가 풍부한 언어에서는 아주 잘 작동했습니다. 하지만 슬로바키아어는 마치 **"식탁에 음식이 거의 없는 배고픈 아이"**와 같았습니다.

  • 상황: 슬로바키아어 학습용 녹음 자료는 공개된 것만 100 시간도 채 되지 않았습니다. (영어는 수만 시간입니다.)
  • 결과: AI 가 슬로바키아어를 배우려 해도 배울 게 없어서 실력이 늘지 않았습니다.

2. 해결책: 거대한 "국회 도서관"을 발견하다

연구팀은 슬로바키아 의회 (국회) 기록을 발견했습니다. 의회에서는 매일 의원들이 연설하고, 그 내용이 텍스트로 정확히 기록되어 있습니다.

  • SloPal (슬로팔) 프로젝트: 연구팀은 2001 년부터 2024 년까지의 **33 만 개의 연설 기록 (약 6,600 만 단어)**을 모았습니다.
  • 비유: 이는 마치 **"거대한 도서관에서 20 년 치의 모든 연설 대본을 찾아낸 것"**과 같습니다. 하지만 문제는 대본 (텍스트) 은 있는데, 실제 목소리 (오디오) 가 대본과 딱 맞춰져 있지 않다는 점입니다.

3. 핵심 기술: "자석"으로 맞추기 (정렬 과정)

이 프로젝트의 가장 큰 성과는 이 대본과 녹음 파일을 자동으로 딱딱 맞춰주는 기술을 개발한 것입니다.

  • 과거의 방법: 보통은 사람이 일일이 "여기부터 여기까지가 이 사람의 말"이라고 표시해야 했습니다.
  • 새로운 방법 (앵커 기반 정렬): 연구팀은 AI 가 먼저 대략적인 내용을 듣고, 그 내용과 원본 대본에서 **공통된 단어 (자석/앵커)**를 찾아내어 시간을 맞춰주는 방식을 썼습니다.
    • 비유: 두 개의 긴 줄 (녹음 파일과 대본) 이 있는데, 그 안에 공통된 "자석" 같은 단어를 찾아서 두 줄을 딱 붙여놓는 것입니다.
  • 결과: 이렇게 해서 2,806 시간에 달하는 완벽한 "목소리 + 대본" 짝꿍 데이터를 만들었습니다.

4. 훈련: "작은 천재"를 키우다

이제 이 방대한 데이터를 가지고 AI (Whisper 모델) 를 훈련시켰습니다.

  • 기적 같은 결과: 원래는 거대한 AI (빅 모델) 가 좋은 성능을 냈는데, 이 새로운 데이터로 훈련한 **작은 AI (작은 모델)**가 거대 AI 와 거의 비슷한 실력을 냈습니다.
  • 비유: 마치 **"고등학교 학생 (작은 모델) 이 2,800 시간의 특강을 듣고, 대학원 교수 (거대 모델) 와 거의 똑같은 시험 점수를 맞은 것"**과 같습니다.
  • 효율성: 큰 모델을 쓰지 않아도 되므로, AI 를 실행하는 데 필요한 컴퓨터 성능 (비용) 을 6 배나 아낄 수 있게 되었습니다.

5. 결론: 모두에게 열린 선물

연구팀은 이 모든 자료 (텍스트, 오디오, 훈련된 AI) 를 무료로 공개했습니다.

  • 의의: 슬로바키아어는 이제 '자원이 부족한 언어'에서 벗어나, AI 가 잘 알아듣는 언어가 되었습니다.
  • 미래: 이 방법은 슬로바키아뿐만 아니라 다른 언어의 국회 기록에도 적용할 수 있어, 전 세계의 소수 언어를 위한 AI 기술 발전의 새로운 길이 열렸습니다.

한 줄 요약

"배고팠던 슬로바키아어 AI 에게 의회 기록이라는 '거대한 식탁'을 차려주고, 최신 기술로 '정갈하게 식사'를 시켜주니, 작은 AI 가 거대 AI 를 이겨내는 놀라운 실력을 얻게 되었다!"

이 프로젝트는 SloPal이라는 이름으로 공개되었으며, 누구나 무료로 사용할 수 있습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →