Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

이 논문은 제한된 컴퓨팅 환경에서 투명하고 재현 가능한 파이프라인으로 구축된 고품질 한국어 말뭉치 (GigaLekh) 를 기반으로 훈련된 06 억 파라미터 규모의 힌디어 전용 언어 모델 'LilMoo'를 소개하며, 이는 동급의 다국어 베이스라인 모델들을 능가하는 성능을 보여줍니다.

Shiza Fatimah, Aniket Sen, Sophia Falk, Florian Mai, Lucie Flek, Nicholas Kluge Corrêa

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 거인들만 남는 언어의 불평등

지금까지 인공지능 (AI) 세계는 거대한 '다국어 모델'들이 지배해 왔습니다. 마치 수만 명의 학생을 한꺼번에 가르치는 거대한 학교 같은데, 이 학교에서는 영어, 중국어 등 인구가 많은 언어의 학생들만 집중적으로 교육받습니다.

그 결과, 힌디어처럼 인구는 많지만 디지털 자료가 부족한 언어는 학교 구석에서 혼자 방치된 아이처럼 되었습니다. 기존에 힌디어를 잘하는 AI 를 만들려면, 이 거대한 학교 (다국어 모델) 에서 힌디어만 따로 공부시키는 '전수 교육' 방식을 썼는데, 이는 원래 학교의 비전공자 (데이터) 를 모르고 하는 교육이라 한계가 있었습니다.

2. 해결책: LilMoo(릴무) - 작지만 똑똑한 힌디어 전문 학생

연구팀은 "거대한 학교에 의존하지 말고, 힌디어만 전문으로 가르치는 작은 학교를 직접 지어보자"라고 생각했습니다.

  • LilMoo(릴무): 이름처럼 작고 귀엽지만 (약 6 억 개의 파라미터, 즉 뇌세포 수), 힌디어에 특화된 전문 학생입니다.
  • 핵심 철학: "크기가 중요하지 않다. 질 좋은 자료와 올바른 교육 방법이 중요하다."

3. 교육 과정 (데이터와 학습법)

A. 깨끗한 교재 만들기 (GigaLekh)

AI 를 가르치려면 좋은 책 (데이터) 이 필요합니다. 인터넷에는 쓰레기 같은 글도 많죠. 연구팀은 900 억 개의 단어가 넘는 힌디어 자료를 모으고, 두 가지 방법으로 정성껏 걸러냈습니다.

  1. 규칙 검사: 문장이 이상하거나 반복되는 글은 버림.
  2. AI 심사위원 (LLM-as-a-judge): 최신 AI 가 "이 글은 교육적으로 가치가 있을까?"를 심사하여 점수를 매긴 뒤, 좋은 글만 선별했습니다.
  • 비유: 마치 최고급 도서관을 지을 때, 쓰레기 장난감을 치우고 진짜 유익한 책만 진열한 것과 같습니다.

B. 두 가지 학습 방식 (Recipe)

연구팀은 두 가지 방식으로 LilMoo 를 훈련시켰습니다.

  1. LilMoo-v0.1 (힌디어만): 힌디어 책만 5 번 반복해서 읽게 했습니다. (순수 힌디어 전문)
  2. LilMoo-v0.2 (힌디어 + 영어): 힌디어 책과 함께, **고퀄리티 영어 교재 (수학, 과학, 논리 문제 등)**도 섞어서 가르쳤습니다.
    • 이유: 힌디어와 영어는 역사적, 문화적으로 많이 섞여 쓰기 때문에, 좋은 영어 자료를 함께 배우면 힌디어 이해도도 깊어진다는 '상생 효과'를 노렸습니다.

4. 놀라운 결과: 작은 학교가 거인을 이기다!

결과적으로 LilMoo 는 **Qwen(쿠엔)**이라는 거대 다국어 모델 (0.5B~0.6B 크기) 보다 훨씬 뛰어난 성적을 냈습니다.

  • 성적표 비교:
    • 거인 (Qwen): 엄청난 양의 데이터와 전력을 써서 공부했지만, 힌디어 실력은 평범했습니다.
    • 작은 학교 (LilMoo): 훨씬 적은 에너지와 데이터로 공부했는데, 힌디어 실력은 거인보다 훨씬 뛰어났습니다.
    • 특이점: 힌디어 문화와 관련된 문제 (예: 힌디어권 사람들의 일상, 관습) 를 물어보면, 영어를 섞어 공부한 모델보다 힌디어만 공부한 모델이 더 잘 맞췄습니다. (문화적 맥락은 순수하게 그 언어로 배워야 깊어진다는 뜻입니다.)

5. 핵심 메시지: "파라미터를 늘리는 게 답이 아니다"

이 논문의 제목인 **"RAISING BARS, NOT PARAMETERS(규준을 높이자, 파라미터를 늘리지 말자)"**는 다음과 같은 의미를 담고 있습니다.

  • 기존 방식: "AI 가 똑똑해지려면 뇌세포 (파라미터) 를 더 많이 만들고, 더 많은 전력을 써야 해." (비효율적, 환경 파괴)
  • LilMoo 의 방식: "뇌세포 수는 적어도 질 좋은 교재와 올바른 교육 커리큘럼을 쓰면, 적은 비용으로도 충분히 똑똑해질 수 있어."

6. 결론: 왜 이 연구가 중요한가?

이 연구는 **"저자본 (Low-resource) 언어"**를 가진 모든 국가와 언어에게 희망을 줍니다.

  • 거대 기업들이 수천 억 원의 예산을 들여 거인 AI 를 만드는 대신, 각 언어에 맞는 작은 AI 를 100 개나 만들어서 전체적으로 더 나은 성능을 낼 수 있다는 것을 증명했습니다.
  • 모든 코드, 데이터, 모델이 **공개 (Open Source)**되어 누구나 자유롭게 연구하고 발전시킬 수 있게 되었습니다.

한 줄 요약:

"거대한 AI 가 모든 언어를 다 잘할 수는 없습니다. 하지만 각 언어에 맞춰 작고 정성껏 만든 AI라면, 적은 비용으로도 그 언어를 가장 잘 이해할 수 있습니다. LilMoo 는 힌디어를 위한 그 첫걸음입니다."