TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"유럽의 모든 언어가 공평하게 대우받도록 만든 새로운 AI(대규모 언어 모델)"**에 대한 이야기입니다.

기존의 AI들은 영어가 너무 많아서 다른 언어, 특히 유럽의 소수 언어 (발트어, 슬라브어 등) 를 잘 못 다루는 문제가 있었습니다. 이 연구팀은 **"영어만 잘하는 AI"가 아니라 "34 개 유럽 언어를 골고루 잘하는 AI"**를 만들기 위해 노력했습니다.

이 복잡한 내용을 쉽게 이해할 수 있도록 세 가지 비유로 설명해 드릴게요.

1. 문제: "영어만 배우는 천재 학생" vs "모든 언어를 배우고 싶은 학생"

지금까지 만들어진 AI 들은 영어와 몇몇 주요 언어 (독일어, 프랑스어 등) 로만 가득 찬 거대한 도서관에서 공부했습니다.

결과: 영어는 박사 학위 수준으로 잘하지만, 라트비아어나 에스토니아어 같은 소수 언어는 "아, 그거 들어봤는데..." 수준으로しか 못 합니다.
비유: 마치 영어만 배우는 천재 학생이 있습니다. 그는 영어로 된 책만 읽어서 영어는 정말 잘하지만, 옆에 있는 라트비아어 책을 보면 "이게 무슨 말이지?"라며 헤매는 상황입니다.

2. 해결책: "공정한 교실"을 만든 세 가지 방법

연구팀은 이 문제를 해결하기 위해 **300 억 개의 파라미터 (AI 의 두뇌 크기)**를 가진 새로운 모델을 만들었습니다. 그들은 단순히 책을 더 많이 읽게 한 게 아니라, **공부 방법 (커리큘럼)**을 바꿨습니다.

① 교재의 양을 조절하다 (데이터 업샘플링)

상황: 영어 책은 도서관 한 구석에 쌓여 있고, 라트비아어 책은 책장 한 줄에 겨우 하나 있습니다.
해결: 연구팀은 작은 언어의 책을 복사해서 양을 늘렸습니다. (최대 2.5 배까지!)
비유: 영어 책이 100 권 있다면, 라트비아어 책은 원래 1 권이었는데 2~3 권으로 복사해서 학생이 더 자주 접하게 만든 것입니다.

② 공부 순서를 바꾸다 (커리큘럼 학습)

상황: 처음부터 끝까지 영어 책만 읽으면 영어만 잘해집니다.
해결: 학습 단계를 3 단계로 나누었습니다.
1. 초기 & 후기: 모든 언어를 동일한 비율로 공부하게 합니다. (공평하게 시작하고 끝내기)
2. 중간: 자연스러운 비율로 공부하게 합니다. (영어 책이 많으니 영어도 많이 읽게 하기)
비유: 학생이 초등학교 때는 모든 과목을 똑같이 배우게 하고, 고등학교 때는 자신이 좋아하는 과목 (영어) 을 더 많이 공부하게 하되, 졸업할 때는 다시 모든 과목을 골고루 복습하게 한 것입니다. 이렇게 하면 소수 언어도 잊어버리지 않고 잘 익힐 수 있습니다.

③ 교실의 책상을 똑같이 만들다 (토크나이저 개선)

상황: 영어는 한 문장이 10 개의 조각 (토큰) 으로 나뉘는데, 라트비아어는 같은 문장인데도 30 조각으로 나뉘는 경우가 많습니다. AI 가 라트비아어를 읽을 때 더 많은 에너지를 써야 하는 셈입니다.
해결: 모든 언어가 같은 양의 조각으로 잘리도록 교재 (토크나이저) 를 새로 만들었습니다.
비유: 영어는 작은 조각으로, 라트비아어는 큰 조각으로 잘려서 먹기 힘들었는데, 모든 언어를 입에 잘 맞는 똑같은 크기의 조각으로 잘라주니 AI 가 모든 언어를 똑같이 편하게 소화할 수 있게 되었습니다.

3. 결과: "적은 비용으로 더 뛰어난 성적"

이 새로운 AI(TildeOpen) 는 기존에 유명한 모델들 (Llama 3, Gemma 2 등) 보다 **훨씬 적은 양의 데이터 (2 조 개 토큰)**로 훈련되었습니다. 보통 비슷한 크기의 AI 는 4~9 조 개를 학습시키는데, 이 모델은 그 절반도 안 되는 데이터로 훈련했습니다.

성적표:
- 글쓰기 & 이해: 발트어, 슬라브어, 핀란드 - 우그리아어 계열 언어에서 기존 모델들을 압도적으로 앞섰습니다.
- 오류 감소: 사람이 직접 글을 고쳐보니, 기존 모델은 100 단어에 10 개 정도의 실수를 했는데, 이 모델은 1 개 미만의 실수만 냈습니다. (약 10 배 더 정확함!)
- 지식: 영어 중심의 지식 (미국 문화 등) 을 묻는 문제는 비슷했지만, 유럽 현지 시험 문제를 풀 때는 훨씬 잘 풀었습니다.

4. 중요한 점: "러시아어 데이터의 특수한 처리"

이 논문은 러시아어 데이터 처리에 대해 매우 신중하게 접근했습니다.

이유: 러시아 내의 인터넷에는 국가 주도의 선전 (프로파간다) 과 허위 정보가 매우 많이 퍼져 있습니다. 이를 그대로 학습하면 AI 가 거짓말을 하거나 편향된 의견을 가지게 될 수 있습니다.
조치: 연구팀은 러시아어 데이터에서 특정 주제 (전쟁, LGBT 등) 와 관련된 선전성 내용을 철저히 걸러냈습니다. 이는 단순히 언어를 차단하는 게 아니라, 공정한 정보를 학습시키기 위한 필수적인 필터링이었습니다.

요약

이 논문은 **"영어 중심의 AI 세상에서 소외되었던 유럽의 소수 언어들을 위해, 공정한 학습 방법과 데이터 정리를 통해 새로운 AI 를 만들었다"**는 이야기입니다.

핵심 메시지:

"AI 가 더 커진다고 해서 모든 언어가 잘하는 게 아닙니다. 어떻게 데이터를 골고루 섞고, 어떻게 공부 순서를 짜느냐가 훨씬 중요합니다. 우리는 적은 비용으로도 모든 언어가 공평하게 대우받는 AI 를 만들 수 있습니다."

이 모델은 누구나 무료로 사용할 수 있으며, 유럽의 언어 다양성을 지키고 AI 주권을 확보하는 데 큰 역할을 할 것으로 기대됩니다.

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

1. 문제: "영어만 배우는 천재 학생" vs "모든 언어를 배우고 싶은 학생"

2. 해결책: "공정한 교실"을 만든 세 가지 방법

① 교재의 양을 조절하다 (데이터 업샘플링)

② 공부 순서를 바꾸다 (커리큘럼 학습)

③ 교실의 책상을 똑같이 만들다 (토크나이저 개선)

3. 결과: "적은 비용으로 더 뛰어난 성적"

4. 중요한 점: "러시아어 데이터의 특수한 처리"

요약

TildeOpen LLM: 커리큘럼 학습을 통한 공평한 언어 표현 달성

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 결론 (Significance)

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

1. 문제: "영어만 배우는 천재 학생" vs "모든 언어를 배우고 싶은 학생"

2. 해결책: "공정한 교실"을 만든 세 가지 방법

① 교재의 양을 조절하다 (데이터 업샘플링)

② 공부 순서를 바꾸다 (커리큘럼 학습)

③ 교실의 책상을 똑같이 만들다 (토크나이저 개선)

3. 결과: "적은 비용으로 더 뛰어난 성적"

4. 중요한 점: "러시아어 데이터의 특수한 처리"

요약

TildeOpen LLM: 커리큘럼 학습을 통한 공평한 언어 표현 달성

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models