Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

본 논문은 43 개 가나 언어에 걸쳐 19 개 대규모 언어 모델의 제로샷 번역 성능을 평가하는 포괄적인 벤치마크인 Nsanku 를 소개하며, Gemini-2.5-flash 와 같은 최상위 모델이 중간 점수를 달성하지만 현재 어떤 모델도 높은 성능과 일관성을 동시에 보여주지 않아 이러한 언어들의 대규모 번역에 아직 신뢰할 수 있게 사용할 수 없음을 밝힌다.

원저자: Stephen E. Moore, Mich-Seth Owusu, Akwasi Asare, Lawrence Adu Gyamfi, Paul Azunre, Joel Budu, Jonathan Asiamah, Elias Dzobo, Kelvin Newman, Edmund O. Benefo, Gerhardt Datsomor, Onesimus Addo Appiah, A
게시일 2026-05-07
📖 4 분 읽기☕ 가벼운 읽기

원저자: Stephen E. Moore, Mich-Seth Owusu, Akwasi Asare, Lawrence Adu Gyamfi, Paul Azunre, Joel Budu, Jonathan Asiamah, Elias Dzobo, Kelvin Newman, Edmund O. Benefo, Gerhardt Datsomor, Onesimus Addo Appiah, Ama Branoa Banful, Lucas Woedem Kpatah, Saani Mustapha Deishini, John Ayernor

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

Nsanku 보고서: 가나의 언어로 AI 번역기를 테스트하다

거대한 도서관에 19 개의 서로 다른"초두뇌"(AI 모델) 가 있다고 상상해 보세요. 일부는 거대 기술 기업들이 소유하고 있고, 다른 일부는 커뮤니티가 구축한 오픈소스 프로젝트입니다. 당신은 알고 싶습니다:이 두뇌들 중 어떤 것이 가나에서 사용되는 43 개 언어로 영어를 번역할 수 있을까요? 물론, 그 특정 언어를 한 번도 배운 적이 없다면요?

이것이 바로Nsanku논문이 수행한 작업입니다."Nsanku"라는 이름은 아칸어에서 유래했으며"악기"를 의미합니다. 밴드가 음악을 만들기 위해 다양한 악기가 필요하듯, 이 프로젝트는 가나 언어의 다양한"음악"을 얼마나 잘 처리하는지 테스트하기 위해 다양한 AI 모델이 필요했습니다.

다음은 그들이 발견한 내용을 쉽게 설명한 이야기입니다.


1. 설정: 엄격한"제로샷"테스트

이 AI 모델들을 깜짝 시험을 치르는 학생들로 생각해보세요.

  • 규칙: 그들은 사전에 공부할 수 없었습니다. 가나 데이터로"파인튜닝"(재학습) 될 수 없었습니다. 그들은 일반 학습을 통해 이미 알고 있던 것에만 전적으로 의존해야 했습니다. 이를제로샷테스트라고 합니다.
  • 시험 자료: 시험 문제는 43 개의 서로 다른 가나 언어로 번역된 성경의 300 문장이었습니다. 연구자들은 거의 모든 이러한 언어의 문자화된 버전을 한 곳에서 찾을 수 있는 몇 안 되는 곳 중 하나이기 때문에 성경을 사용했습니다.
  • 채점: 그들은 두 가지 다른 채점 시스템을 사용했습니다.
    • BLEU: 정확한 단어를 사용했는지 확인하는 엄격한 선생님처럼.
    • chrF: 정확한 단어가 조금 달라도 문장의 일반적인 음과 구조가 맞는지 확인하는 더 유연한 선생님처럼.

2. 결과: 누가 통과했나? 누가 낙제했나?

"스타 학생들"(상용 모델)

구글, Anthropic, 오픈AI 의 유명 AI 모델 세 개가 최상위를 차지했습니다.

  • Gemini-2.5-flash가 가장 높은 점수로 반장 (valedictorian) 이 되었습니다.
  • Claude-sonnet-4-5GPT-4.1이 그 뒤를 바짝 추격했습니다.
  • 비유: 이들은 가장 비싼 사립학교에 다닌 학생들처럼 보입니다. 그들은 많은 데이터를 보았기 때문에 누구보다도 더 잘 추측할 수 있지만, 여전히 완벽하지는 않습니다.

"커뮤니티 학생들"(오픈가중치 모델)

나머지 모델들은 오픈소스 (무료 사용 및 수정 가능) 였습니다.

  • 이 그룹 중 가장 좋은 모델은kimi-k2-instruct였지만, 여전히"스타 학생들"보다 점수가 현저히 낮았습니다.
  • 격차: 비싼 사설 모델과 무료 커뮤니티 모델 사이에는 명확한 격차가 있습니다. 현재 사설 모델이 이러한 언어를 이해하는 데 훨씬 더 뛰어납니다.

"언어 난이도"요인

모든 언어가 번역하기 equally 쉽지는 않았습니다.

  • Siwu는 AI 가 번역하기에"가장 쉬운"언어였습니다 (최고 점수).
  • Nkonya는"가장 어려운"언어였습니다 (최저 점수).
  • 반전: 놀랍게도 가장 널리 사용되는 언어들 (트위어 등) 이 항상 최고 점수를 받은 것은 아닙니다. 때로는 화자 수가 적은 언어가 더 높은 점수를 받기도 했습니다. 왜일까요? 해당 언어에 사용된 특정 성경 번역본이 인기 있는 언어들의 번역본보다 더 명확하고 완전했기 때문입니다. 마치 큰 도시보다 작은 마을을 위한 더 명확한 지도를 가진 것과 같습니다.

3. 큰 문제:"불안정한 친구"문제

이것이 이 논문의 가장 중요한 발견입니다. 연구자들은 평균 점수만 본 것이 아니라일관성을 살펴보았습니다.

  • 비유: 이탈리아 요리는 훌륭하지만 태국 요리는 형편없는 친구가 있다고 상상해보세요. 무작위 식사를 부탁하면 맛있는 저녁을 먹을지, 아니면 타버린 망친 요리를 먹을지 결코 알 수 없습니다.
  • 발견: 단 하나의 AI 모델도"높은 성능"과"일관성"을 동시에 갖춘 경우는 없었습니다.
    • 최고의 모델들은"높은 성능이지만 일관성이 부족했습니다". 그들은 Siwu 를 완벽하게 번역할 수도 있지만 Nkonya 에서는 처참하게 실패할 수도 있었습니다.
    • 일관된 모델들은"일관적이지만 평균적이었습니다". 그들은 모든 언어에 대해 동일한 평범한 결과를 내놓았으며, 나쁘게 실패한 적은 없지만 잘한 적도 없었습니다.
    • "리더"사분면: 연구자들은 네 모서리가 있는 차트를 그렸습니다. 오른쪽 위 모서리는"리더"영역 (고품질 + 고일관성) 입니다.어떤 모델도 어떤 언어도 이 영역에 도달하지 못했습니다.

4. 이것이 의미하는 바 (논문에 따르면)

이 논문은 이러한 AI 모델들이 인상적이지만, 가나 언어에 대해 실제 업무 (정부 문서, 의료 조언, 뉴스 번역 등) 에 사용되기에는 아직 신뢰할 수 있을 만큼 충분히 신뢰할 수 없다고 결론지었습니다.

  • "성경적"한계: 이 테스트는 성경 구절을 사용하여 수행되었습니다. 저자들은 이러한 모델들이 일상 대화, 뉴스, 또는 법적 텍스트에서는 훈련 과정에서 이러한 유형의 단어를 보지 못했기 때문에 더 나쁜 결과를 보일 수 있다고 경고합니다.
  • "데이터"문제: 낮은 점수는 언어가"어렵거나"부서져 있기 때문이 아닙니다. AI 가 충분한 예시를 보지 못했기 때문입니다. 마치 한 권의 책만 읽어서 언어를 배우려는 것과 같습니다. 대략적인 의미는 파악할 수 있지만 미묘한 뉘앙스는 놓치게 됩니다.

요약

Nsanku프로젝트는 43 개의 가나 언어에 대한 19 개의 AI 모델을 테스트하기 위한 거대한 점수판을 구축했습니다.

  1. 빅테크 모델이 현재 가장 우수하지만, 무료 모델이 따라잡고 있습니다.
  2. 문자 기반 채점(chrF) 은 단어 대 단어 채점 (BLEU) 보다 이러한 언어를 평가하는 더 나은 방법입니다.
  3. 가장 중요한 점: 현재 어떤 AI 도 이러한 언어에 대해 신뢰할 수 있을 만큼 충분히 신뢰할 수 없습니다. 그들은 특정 언어에 따라 때로는 A+ 를 받고 때로는 F 를 받는 학생과 같습니다. 일관되게 좋은 모델을 볼 때까지는 중요한 작업에 대해 완전히 신뢰할 수 없습니다.

이 논문은 모든 데이터와 코드를 공개하여 연구자들이 계속 테스트하고 이러한 모델을 개선하여 결국 그"리더"사분면을 채우기를 희망하고 있습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →