Statistical Machine Translation for Indic Languages

이 논문은 MOSES 툴킷과 Samanantar 및 OPUS 데이터를 활용하여 영어와 15 개의 저자원 인도어 간 통계적 기계 번역 (SMT) 모델을 개발하고, 다양한 전처리 기법과 구문 재배열 방식을 적용하여 BLEU, METEOR, RIBES 지표를 통해 번역 품질을 평가한 연구입니다.

Sudhansu Bala Das, Divyajoti Panda, Tapas Kumar Mishra, Bidyut Kr. Patra

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 요리사의 목표: 언어 장벽을 허무는 '자동 통역 로봇'

인도는 15 개 이상의 주요 언어를 사용하는 거대한 나라입니다. 영어는 전 세계 공용어지만, 인도 사람들은 자신의 모국어 (힌디어, 벵골어, 타밀어 등) 로만 소통하는 경우가 많습니다.

이 연구팀은 **"영어를 인도어로, 혹은 인도어를 영어로 자동으로 바꿔주는 로봇 (기계 번역 시스템)"**을 만들고 싶었습니다. 특히, 인터넷에 자료가 별로 없는 '저자원 (Low-resource)' 언어들을 어떻게 잘 번역할지 고민했습니다.

2. 어떤 요리를 만들었나? (SMT vs NMT)

최근에는 '신경망 (NMT)'이라는 최신 AI 기술이 번역을 잘한다고 알려져 있습니다. 하지만 이 연구팀은 **"오래된 레시피지만, 자료가 부족할 때는 더 신뢰할 수 있는 '통계적 기계 번역 (SMT)'"**을 선택했습니다.

  • 비유: 최신 AI 는 '요리 천재'처럼 모든 것을 기억하고 창의적으로 요리하지만, 재료가 부족하면 망칠 수 있습니다. 반면, SMT 는 '엄격한 레시피'를 가진 요리사처럼, 수많은 기존 요리 (데이터) 를 분석해 가장 확률이 높은 조합을 찾아냅니다. 자료가 적은 언어에는 이 '레시피 방식'이 더 안정적일 수 있다는 것입니다.

3. 재료 준비: 거대한 데이터 도서관 (Samanantar & OPUS)

요리를 하려면 재료가 필요합니다. 이 연구팀은 SamanantarOPUS라는 거대한 도서관에서 영어와 인도어 15 개 언어의 '병행 문장 (원문과 번역문이 짝을 이룬 자료)'을 모았습니다.

  • 힌디어, 벵골어처럼 재료가 풍부한 언어도 있고, 신드어, 싱할라어처럼 재료가 조금 부족한 언어도 있었습니다.

4. 재료 손질: '노이즈' 제거하기 (전처리)

도서관에서 가져온 자료는 그 자체로 쓰기엔 더러웠습니다. 오타가 있거나, 불필요한 기호가 섞여 있었죠.
연구팀은 데이터 청소부 역할을 했습니다.

  • 쓸모없는 기호를 지우고, 숫자를 언어에 맞게 고치고, 문장을 잘게 쪼개는 (토큰화) 작업을 했습니다. 마치 요리 전에 채소를 씻고, 껍질을 벗기고, 알맞은 크기로 자르는 과정과 같습니다.

5. 요리법 개발: 문장 순서 바꾸기 (재배열)

인도어 15 개 언어 중 대부분은 문장 구조가 영어와 다릅니다.

  • 영어: "나는 (주어) 사과 (목적어) 를 먹는다 (동사)" -> SVO
  • 인도어 (대부분): "나는 (주어) 사과 (목적어) 를 먹는다 (동사)" -> SOV (동사가 맨 뒤에 옴)

이 로봇이 문장을 번역할 때, 단어 순서를 그대로 두면 엉뚱한 뜻이 나옵니다. 그래서 연구팀은 **'거리 기반 재배열'**이라는 기술을 썼습니다.

  • 비유: 영어 문장을 번역할 때, 동사가 맨 뒤에 가야 한다는 것을 알고, **"동사를 문장 끝으로 데려가는 이동 비용"**을 계산해서 문장을 다시 정리하는 것입니다.

6. 맛보기 테스트: 점수 매기기 (평가)

만든 로봇이 잘 번역하는지 확인하기 위해 세 가지 점수판을 사용했습니다.

  1. BLEU: 번역된 문장이 원본과 얼마나 똑같은 단어를 쓰는지 비교 (단어 일치율).
  2. METEOR: 동의어까지 고려해서 얼마나 자연스러운지 확인.
  3. RIBES: 단어 순서가 얼마나 논리적인지 확인.

7. 결과: 어떤 요리가 맛있었나?

  • 성공한 언어: **힌디어 (HI)**와 **벵골어 (BN)**는 데이터가 풍부하고 깨끗해서 번역 품질이 가장 좋았습니다. 마치 신선한 재료를 많이 쓴 요리처럼 맛있습니다.
  • 아쉬운 언어: **싱할라어 (SI)**는 데이터 양은 많았지만, 번역된 내용이 엉망인 경우가 많아 점수가 낮았습니다. **타밀어 (TA)**도 데이터에 애매모호한 부분이 있어 번역이 잘 안 됐습니다.
  • 교훈: **"데이터의 양보다 '품질'이 더 중요하다"**는 것을 깨달았습니다. 비싼 식재료를 많이 사와도 (데이터 양 많음), 상한 재료가 섞여 있으면 (품질 나쁨) 맛있는 요리를 할 수 없습니다.

8. 결론 및 앞으로의 계획

이 연구는 자료가 부족한 인도어 15 개 언어에 대해 통계적 기계 번역이 얼마나 잘 작동하는지 **기초 지표 (Baseline)**를 세웠습니다.

  • 한계: 아직 완벽하지 않습니다. 특히 문법 구조가 복잡한 언어 (드라비다어족 등) 나 데이터가 더러운 언어는 번역 품질이 떨어집니다.
  • 미래: 앞으로는 데이터의 '더러운 부분'을 더 깨끗하게 청소하고, 단어의 작은 조각 (형태소) 을 분석하는 기술을 더해 더 맛있는 번역을 만들 계획입니다.

한 줄 요약:

"데이터가 부족한 인도어 15 개 언어를 위해, 최신 AI 대신 **'엄격한 통계 레시피'**를 사용해 번역 로봇을 만들었고, **"재료가 많기보다 깨끗한 것이 더 중요하다"**는 것을 증명했습니다."