Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

이 논문은 오픈 소스 커뮤니티에서 저자원 언어인 바스크어를 위한 강력한 멀티모달 대형 언어 모델을 개발하기 위해 자체 데이터셋을 구축하고, 바스크어 지시형 백본 모델이 필수적이지 않으며 소량의 바스크어 멀티모달 데이터만으로도 우수한 성능을 달성할 수 있음을 입증했습니다.

Lukas Arana, Julen Etxaniz, Ander Salaberria, Gorka Azkune

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 1. 문제 상황: "영어 요리책만 있는 상황"

지금까지 인공지능 (MLLM) 은 주로 영어라는 풍부한 식재료 (데이터) 로만 요리해 왔습니다. 그래서 영어로 된 그림을 보고 설명하거나 질문을 답하는 데는 매우 능숙합니다. 하지만 바스크어처럼 식재료가 거의 없는 언어로 요리를 하려면, 영어 요리책을 그대로 번역해서 쓰거나 아예 새로운 재료를 구해야 하는 어려움이 있었습니다.

🛠 2. 연구의 목표: "바스크어 전용 레시피 만들기"

연구팀은 바스크어 사용자를 위해 첫 번째 오픈 소스 멀티모달 (이미지 + 텍스트) 인공지능을 만들기로 했습니다. 이를 위해 다음과 같은 일을 했습니다:

  • 새로운 재료 확보: 영어로 된 그림과 설명 데이터 (300 만 개 이상) 를 가져와, 바스크어 원어민과 AI 가 힘을 합쳐 바스크어로 번역했습니다. 마치 영어 요리책을 바스크어 요리책으로 번역하는 작업입니다.
  • 평가 기준 마련: 이 인공지능이 실제로 잘하는지 확인하기 위해 바스크어 시험지 (벤치마크) 도 직접 만들었습니다.

🔍 3. 실험과 놀라운 발견 (3 가지 핵심)

연구팀은 두 가지 다른 '기본 요리사 (LLM)'를 사용했습니다. 하나는 영어만 잘하는 요리사 (Llama), 다른 하나는 바스크어에 특화된 요리사 (Latxa) 입니다. 그리고 이들에게 영어와 바스크어 데이터를 섞어 가르쳤습니다.

🌟 발견 1: "바스크어 재료가 20% 만 있으면 충분하다!"

  • 비유: 바스크어 요리를 가르치기 위해 바스크어 재료를 100% 다 쓸 필요는 없습니다. 영어 재료 80% 에 바스크어 재료 20% 만 섞어도, 바스크어 시험에서 아주 좋은 점수를 받았습니다.
  • 의미: 저자원 언어를 위한 인공지능을 만들 때, 해당 언어의 데이터가 아주 적어도 된다는 뜻입니다. 영어 데이터가 주를 이루고 있어도, 소량의 해당 언어 데이터만 섞으면 효과를 볼 수 있습니다.

🌟 발견 2: "바스크어 특화 요리사 (Latxa) 가 꼭 필요하지 않다!"

  • 비유: 우리는 "바스크어 요리를 잘하려면 바스크어 출신 요리사 (Latxa) 가 있어야겠다"라고 생각했습니다. 하지만 실험 결과, 영어만 잘하는 요리사 (Llama) 가 바스크어 데이터를 조금만 섞어 가르쳐도 똑같이 잘했습니다.
  • 의미: 이미 영어로 잘 훈련된 인공지능이라도, 해당 언어의 데이터만 조금 더 주면 그 언어로도 훌륭하게 작동한다는 뜻입니다. 이는 비용과 시간을 아낄 수 있는 큰 발견입니다.

🌟 발견 3: "글자만 있는 책 (텍스트 데이터) 이 그림책 (멀티모달) 을 가르친다?"

  • 비유: 바스크어 그림책 (이미지 데이터) 이 부족할 때, 바스크어 글자만 있는 책 (텍스트 데이터) 을 함께 가르치면, 인공지능이 그림을 이해하는 능력도 함께 좋아졌습니다.
  • 의미: 해당 언어의 '이미지 데이터'가 부족해도, '텍스트 데이터'만으로도 그 언어의 능력을 끌어올릴 수 있다는 놀라운 사실입니다.

🎯 4. 결론: "작은 씨앗이 큰 나무가 될 수 있다"

이 연구는 **"저자원 언어 (바스크어) 를 위한 인공지능을 만드는 데, 엄청난 양의 해당 언어 데이터가 필수는 아니다"**라고 증명했습니다.

  • 영어 데이터가 주를 이루고, 해당 언어 데이터는 20% 정도만 섞으면 됩니다.
  • 해당 언어에 특화된 기본 모델이 없어도, 영어 기반 모델로도 충분합니다.
  • 그림 데이터가 부족해도 글자 데이터로 보완할 수 있습니다.

이 연구는 앞으로 아랍어, 스와힐리어, 혹은 우리말처럼 데이터가 부족한 다른 언어들을 위한 인공지능을 만들 때, 훨씬 더 쉽고 저렴하게 접근할 수 있는 길을 열어주었습니다. 마치 영어 요리책 한 권만 있으면, 소량의 현지 재료만 추가해 전 세계 어느 나라 요리든 맛있게 만들어낼 수 있는 비결을 찾은 것과 같습니다.