MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "영어만 잘하는 AI 의 한계"

지금까지 AI 를 가르칠 때, 우리는 인터넷에 떠도는 엄청난 양의 글 (데이터) 을 모아서 사용했습니다. 하지만 기존에 개발된 '데이터 고르기 기술'들은 영어 글만 잘 골라내는 데 특화되어 있었습니다.

비유: 마치 영국인 요리사가 전 세계 재료를 고르는 일을 맡았는데, **영국식 재료 (영어)**만 맛보고 "이게 최고야!"라고 판단하는 상황입니다. 그래서 한국, 스페인, 아랍어 등 다른 나라의 훌륭한 재료 (데이터) 는 제대로 평가받지 못하고 버려지거나, 반대로 나쁜 재료가 섞여 들어갈 위험이 있었습니다.

2. 해결책: "MuRating (무러팅)" - 세계 공통의 미각을 가진 심사위원

저자들은 이 문제를 해결하기 위해 MuRating이라는 시스템을 만들었습니다. 이 시스템은 두 단계로 작동합니다.

1 단계: 영어 심사위원들을 하나로 합치기

먼저, 이미 존재하는 여러 개의 영어 데이터 평가 모델 (QuRater, AskLLM 등) 을 모았습니다. 그리고 이 모델들이 서로 다른 글을 비교하며 "A 가 B 보다 더 좋은 글이야"라고 투표하게 했습니다.

비유: 여러 명의 영어 요리 평론가들이 모여서 "이 요리는 저 요리보다 더 맛있어"라고 서로 토론하고 투표한 뒤, **한 명의 '슈퍼 평론가'**를 만든 것과 같습니다. 이 슈퍼 평론가는 어떤 글이 진짜 좋은 글인지 아주 정확하게 알고 있습니다.

2 단계: 그 능력을 다른 언어로 번역하기 (핵심 아이디어)

이제 이 '슈퍼 평론가'의 능력을 영어가 아닌 17 개 언어 (한국어, 중국어, 스페인어 등) 로 확장합니다. 여기서 중요한 것은 단순히 점수를 매기는 게 아니라, 글을 '비교'하는 방식을 사용했다는 점입니다.

기존 방식 (점수 매기기): "이 한국어 글은 8 점, 저 프랑스어 글은 7 점." -> 번역 과정에서 뉘앙스가 달라지면 점수가 흔들릴 수 있습니다.
MuRating 방식 (비교하기): "이 한국어 글 A 와 B 중, A 가 더 좋아." -> 번역이 조금 달라져도 "A 가 B 보다 낫다"는 관계는 유지되기 쉽습니다.

비유:

기존 방식: 각 나라의 요리사에게 "이 요리의 맛을 10 점 만점에 점수로 매겨줘"라고 하면, 나라마다 '맛'의 기준이 달라서 점수가 제각각입니다.

MuRating 방식: "이 두 요리 중, 어느 것이 더 맛있나요?"라고 물어봅니다. "A 가 더 맛있다"는 사실은 한국 요리사나 프랑스 요리사나, 심지어 번역된 레시피를 보고도 쉽게 공감할 수 있습니다.

이렇게 영어에서 배운 '비교 능력'을 번역을 통해 다른 언어로 전달하고, 서로 다른 언어의 글끼리도 비교하게 함으로써 언어에 상관없이 똑같은 기준으로 데이터를 평가합니다.

3. 결과: 더 똑똑해진 AI

이 방법으로 인터넷에서 최고 품질의 데이터 10% 만 골라내어 AI (LLaMA 모델) 를 훈련시켰습니다.

결과: 기존에 사용하던 방법들보다 영어 능력도 향상되었고, 다른 언어 (한국어, 스페인어 등) 능력도 크게 좋아졌습니다.
의미: 이제 AI 는 영어뿐만 아니라 전 세계 다양한 언어로 된 정보도 똑똑하게 이해하고, 논리적으로 추론할 수 있게 되었습니다.

4. 요약: 왜 이 연구가 중요한가요?

이 연구는 **"영어 중심의 AI 시대를 넘어, 진정한 다국어 AI 시대를 여는 열쇠"**를 찾았습니다.

마무리 비유:
이전까지 AI 는 영어로 된 명품 도서관만 빌려 읽어서 지식이 풍부해졌습니다. 하지만 MuRating 을 통해 AI 는 전 세계 모든 언어로 된 도서관에서, 언어가 달라도 '진짜 좋은 책'을 골라낼 수 있는 보편적인 안목을 갖게 되었습니다. 이제 AI 는 영어 사용자뿐만 아니라 전 세계 모든 사용자에게 더 똑똑하고 공정한 답변을 줄 수 있게 된 것입니다.

이 논문은 단순히 데이터를 많이 모으는 것이 아니라, **"어떤 데이터를 고를 것인가"**에 대한 지혜를 언어 장벽 없이 전달하는 방법을 제시했다는 점에서 매우 의미 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 의 성능은 고품질의 사전 학습 데이터에 크게 의존합니다. 그러나 기존 데이터 선택 방법론은 다음과 같은 한계를 가지고 있습니다.

영어 중심 편향: 대부분의 모델 기반 데이터 선택 기법 (예: QuRater, DCLM 등) 은 영어 데이터에 맞춰 개발되어, 다국어 LLM 학습에 필수적인 비영어권 언어의 품질 평가가 소홀히 다루어집니다.
휴리스틱의 한계: 기존 규칙 기반 필터링이나 수동 휴리스틱은 일반화 능력이 부족하고, 도메인 전문성에 의존하여 일관된 품질 평가 프레임워크를 제공하지 못합니다.
멀티모달 데이터의 부재: 다국어 데이터 품질 평가를 위해 벤치마크 데이터를 직접 사용하는 경우 (예: FineWeb2-HQ), 평가 데이터 오염 (Test set contamination) 의 위험이 존재합니다.

따라서, 영어에서 얻은 고품질 신호를 다양한 언어로 확장할 수 있는 확장 가능하고 언어에 구애받지 않는 (language-agnostic) 데이터 선택 프레임워크가 필요합니다.

2. 방법론 (Methodology: MuRating)

저자들은 MuRating이라는 2 단계 프레임워크를 제안합니다. 이는 영어 기반의 자동 평가자 (AutoRater) 를 다국어 환경으로 전이 (Transfer) 하는 것을 핵심으로 합니다.

2.1. 영어 자동 평가자 통합 (Integration of English AutoRaters)

다중 평가자 통합: QuRater, AskLLM, FineWeb-Edu, DCLM 등 4 가지 기존 영어 품질 평가 모델의 판단을 통합합니다.
쌍별 비교 (Pairwise Comparison): Bradley-Terry 모델을 사용하여 여러 평가자의 점수를 이진 선호도 (Binary Preference) 로 변환합니다.
- 텍스트 쌍 $(t_A, t_B)$ 에 대해 각 평가자가 점수를 매기고, $S_A > S_B$ 이면 $A$ 를 선호한다고 간주합니다.
- 모든 평가자의 선호도를 집계하여 $t_A$ 가 $t_B$ 보다 선호될 확률 ( $P_{A>B}$ ) 을 계산합니다.
통합 스코어 학습: 이 선호도 데이터를 바탕으로 단일한 통합 품질 점수 모델 (MuRater) 을 학습시킵니다. 이는 RLHF 의 보상 모델 학습과 유사한 방식으로, 일관되게 선호되는 텍스트에 높은 점수를 부여하도록 훈련됩니다.

2.2. 번역 기반 다국어 전이 (Translation-based Multilingual Transfer)

영어에서 학습된 품질 판단을 17 개 언어로 확장하기 위해 번역을 활용합니다.

데이터 구성: 영어로 점수가 매겨진 문서 쌍을 17 개 언어로 번역하여 다음 세 가지 유형의 쌍을 생성합니다.
1. 단일 언어 쌍 (Monolingual Pairs): 같은 언어로 번역된 쌍.
2. 교차 언어 쌍 (Cross-lingual Pairs): 서로 다른 언어로 번역된 쌍.
3. 병렬 쌍 (Parallel Pairs): 동일한 내용을 서로 다른 언어로 번역한 쌍 (품질이 동일해야 하므로 중립적인 라벨 $0.5$ 부여).
학습 목표:
- 일관성 유지: 번역 과정에서 의미와 상대적 품질이 보존된다고 가정하고, 영어의 선호도 라벨을 번역된 쌍에 직접 전이합니다.
- 정규화 (Regularization): 병렬 쌍 (Parallel Pairs) 에 대한 중립 라벨을 사용하여 모델이 언어에 구애받지 않고 동일한 의미의 텍스트에는 동일한 점수를 부여하도록 강제합니다.
- 손실 함수: 쌍별 비교 손실 (Pairwise Loss) 과 병렬 텍스트 정규화 손실 (Parallel Regularization Loss) 을 결합하여 최종 모델을 학습시킵니다.

2.3. 모델 아키텍처

Base Model: BGE-M3 (다국어 표현 능력이 뛰어난 인코더) 를 기반으로 합니다.
Head: Transformer 출력에 선형 회귀 헤드를 추가하여 품질 점수를 예측합니다.
데이터: 30 만 개의 영어 쌍을 기반으로 학습하며, 이를 17 개 언어로 확장하여 15 만 개의 단일 언어 쌍, 15 만 개의 교차 언어 쌍, 7 만 5 천 개의 병렬 쌍으로 구성된 다국어 학습 세트를 만듭니다.

3. 주요 기여 (Key Contributions)

통합 영어 평가자 통합: Bradley-Terry 기반의 쌍별 비교 프레임워크를 통해 4 개의 서로 다른 영어 품질 평가기를 단일하고 강력한 스코어 모델로 통합했습니다.
번역 기반 다국어 전이: 영어의 쌍별 판단을 17 개 언어의 단일/교차/병렬 쌍으로 투영하여, 언어에 구애받지 않는 품질 평가기를 구축하는 방법을 제시했습니다.
확장 가능한 사전 학습 성과: 1.2B 및 7B 파라미터 규모의 LLaMA 아키텍처 모델에 적용하여, 영어 및 다국어 벤치마크에서 기존 최첨단 방법론 (QuRater, FineWeb2-HQ 등) 을 능가하는 성능 향상을 입증했습니다.

4. 실험 결과 (Results)

저자들은 1.2B 및 7B 파라미터의 LLaMA 모델을 FineWeb-2 기반의 웹 크롤링 데이터 (1.5T 영어 토큰 + 3T 다국어 토큰) 로 사전 학습했습니다.

다국어 벤치마크 성능:
- 18 개 언어 설정: MuRater(E) 는 읽기 이해, 상식 추론, 세계 지식 등 모든 카테고리에서 가장 높은 평균 점수를 기록했습니다. 특히 추론 중심 벤치마크 (ARC, MMLU) 에서 큰 개선을 보였습니다.
- 13 개 언어 설정 (FineWeb2-HQ 비교): MuRater(E) 는 FineWeb2-HQ 대비 평균 3 점 이상 높은 성능을 달성했습니다.
- 7B 모델 확장: 1T 토큰으로 학습된 7B 모델에서도 MuRater 가 QuRater-M 대비 모든 카테고리에서 일관된 성능 우위를 보였습니다.
영어 전용 벤치마크 성능:
- 12 개 영어 벤치마크 (ARC, HellaSwag, TriviaQA 등) 에서 MuRater 는 다른 모든 베이스라인 (Uniform, AskLLM, DCLM 등) 보다 평균 1~3.4 포인트 높은 정확도를 기록했습니다.
Ablation Study (분석 실험):
- 교차 언어 및 병렬 쌍의 효과: 이러한 데이터를 포함하여 학습한 모델은 언어 간 일관성 (Cross-lingual consistency) 이 훨씬 높았으며, 병렬 텍스트에 대한 점수 분산이 적었습니다.
- 쌍별 (Pairwise) vs 점수별 (Pointwise): 번역 과정에서 발생할 수 있는 미세한 뉘앙스 변화에 대해 쌍별 비교가 점수별 평가보다 훨씬 강건 (Robust) 하고 안정적인 결과를 보여주었습니다.

5. 의의 및 결론 (Significance & Conclusion)

다국어 데이터 큐레이션의 패러다임 전환: MuRating 은 영어의 고품질 신호를 효율적으로 다국어로 전이하여, 비영어권 언어의 데이터 품질 평가에 대한 격차를 해소했습니다.
강건한 품질 평가 프레임워크: 단순한 규칙 필터링을 넘어, 모델 기반의 쌍별 비교와 번역 정규화를 결합함으로써 언어와 무관한 일관된 품질 기준을 확립했습니다.
실용적 가치: 이 방법은 대규모 웹 데이터에서 고품질 다국어 서브셋을 선별하여 LLM 의 사전 학습 효율성을 극대화하며, 다양한 언어 환경에서 LLM 의 일반화 능력을 향상시킵니다.

결론적으로, MuRating 은 다국어 LLM 의 성능을 극대화하기 위한 확장 가능하고 신뢰할 수 있는 데이터 선택 프레임워크로서, 향후 다국어 AI 연구의 중요한 기준이 될 것으로 기대됩니다.