Towards Orthographically-Informed Evaluation of Speech Recognition Systems for Indian Languages

이 논문은 LLM 을 활용하여 인도어권의 철자 변형을 고려한 새로운 평가 프레임워크 (OIWER) 를 제안함으로써 기존 WER 의 과도한 부정적 평가를 완화하고 인간 지각과 더 잘 부합하는 음성 인식 시스템 평가가 가능함을 입증합니다.

Kaushal Santosh Bhogale, Tahir Javed, Greeshma Susan John, Dhruv Rathi, Akshayasree Padmanaban, Niharika Parasa, Mitesh M. Khapra

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎤 핵심 문제: "오해받기 쉬운 음성 인식 시스템"

상상해 보세요. 당신이 친구에게 "오늘 점심에 김치찌개 먹자"라고 말했는데, 친구가 메모장에 **"김치찌개"**라고 적었습니다. 그런데 친구가 "아니, 나는 **'김치찌개'**라고 들었어!"라고 주장하며 메모장을 보여줍니다.

  • 실제 상황: '김치찌개'와 '김치찌개'는 발음도 같고 의미도 똑같은데, 철자만 조금 다릅니다.
  • 기존 평가 (WER): 컴퓨터는 "철자가 다르니 틀렸다!"라고 판단해 **실수 (Error)**로 기록합니다.
  • 현실: 사람들은 둘 다 같은 말로 이해합니다.

인도 언어는 특히 이 문제가 심각합니다.

  1. 철자 자유도: 같은 단어도 지역이나 사람에 따라 철자가 여러 가지로 쓰입니다. (예: 'Colored' vs 'Coloured')
  2. 단어 합치기/나누기: 두 단어를 붙여 쓸 수도, 띄어 쓸 수도 있습니다.
  3. 혼합 언어: 영어와 인도어를 섞어 쓰는 경우가 많아 표준 철자가 정해지지 않은 경우가 많습니다.

기존 평가 방식은 이런 허용 가능한 철자 차이까지 모두 '오류'로 간주해 점수를 깎아댔습니다. 그래서 실제 사람이 듣기엔 잘 들리는 시스템도 점수는 매우 낮게 나오는 **'비관적인 평가'**가 이어졌습니다.


💡 해결책: "모든 변형을 인정하는 새로운 심판 (OIWER)"

연구팀은 **"철자가 조금 달라도 뜻이 통하면 정답으로 인정하자"**는 새로운 규칙을 만들었습니다. 이를 **OIWER(Orthographically-Informed Word Error Rate)**라고 부릅니다.

1. 어떻게 만들었나요? (LLM 의 역할)

과거에는 모든 철자 변형을 사람이 일일이 찾아서 목록을 만들어야 했습니다. 하지만 인도 언어는 너무 다양해서 불가능에 가까웠습니다.

  • 비유: 모든 인도어 철자 변형을 사람이 일일이 외우려다 보면 미쳐버립니다.
  • 해결책: 연구팀은 **LLM(인공지능)**을 고용했습니다. AI 에게 "이 단어의 가능한 철자 변형들을 모두 나열해 줘"라고 시켰습니다. AI 는 방대한 데이터를 바탕으로 '김치찌개', '김치찌개', '김치찌개' 등 모든 가능한 버전을 자동으로 생성해 냈습니다.
  • 검수: AI 가 만든 목록을 인도 언어 전문가들이 살짝만 다듬어 (수정/삭제) 완성했습니다.

2. 새로운 평가 방식 (OIWER)

이제 음성 인식 시스템을 평가할 때, 시스템이 내린 답이 원래 정답과 철자가 달라도, AI 가 생성한 '허용된 변형 목록'에 있다면 정답으로 인정합니다.


📊 어떤 결과가 나왔나요?

이 새로운 방식을 적용하자 놀라운 변화가 일어났습니다.

  1. 점수가 현실적으로 올라갔습니다:

    • 기존 방식 (WER) 은 시스템을 너무 혹독하게 평가해서 점수가 낮게 나왔습니다.
    • 새로운 방식 (OIWER) 을 적용하자 평균 6.3 점이나 점수가 올랐습니다. 이는 시스템이 실제로는 훨씬 잘 작동하고 있다는 것을 의미합니다.
  2. 모델 간 격차가 줄었습니다:

    • 예전에는 A 모델이 B 모델보다 18.1 점이나 못 한다고 평가받았습니다.
    • 하지만 새로운 방식으로는 그 격차가 11.5 점으로 줄었습니다. 즉, "A 가 B 보다 훨씬 못 한다"는 과장된 평가가 "A 가 B 보다 조금 더 낫다"는 정확한 평가로 바뀌었습니다.
  3. 사람의 느낌과 가장 잘 맞습니다:

    • 사람들이 "이거 잘 들린다"라고 느끼는 정도와 AI 가 계산한 점수가 가장 가까워졌습니다. (이전 방법보다 4.9 점 더 일치함)
  4. 인간이 일일이 할 필요 없게 되었습니다:

    • AI 가 생성한 변형 목록이 인간 전문가가 직접 수정한 목록과 90% 이상 일치했습니다. 이는 앞으로 시간과 비용을 크게 아낄 수 있음을 의미합니다.

🌟 요약: 왜 이 연구가 중요할까요?

이 논문은 **"인도 언어처럼 철자 변형이 풍부한 언어를 평가할 때는, 기계적인 철자 비교만 해서는 안 된다"**는 것을 증명했습니다.

  • 과거: "철자가 다르면 틀린 거야!" (시스템을 너무 혹독하게 평가)
  • 현재 (이 논문): "철자가 달라도 뜻이 통하면 OK! AI 가 모든 변형을 찾아줬으니까." (시스템의 실제 능력을 공정하게 평가)

이처럼 AI 가 인간의 언어적 유연성을 이해하고 평가 기준을 조정함으로써, 인도어 음성 인식 기술의 진정한 발전 속도를 제대로 볼 수 있게 되었습니다. 이는 저자원 (데이터가 적은) 언어를 가진 다른 국가나 언어에도 큰 영감을 주는 연구입니다.