MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

이 논문은 영어 데이터의 품질 신호를 17 개 언어로 확장하여 다국어 대규모 언어 모델의 사전 학습을 위한 고품질 데이터를 선별하는 확장 가능한 프레임워크인 'MuRating'을 제안하고, 이를 통해 영어 및 다국어 벤치마크에서 성능을 크게 향상시킨다는 것을 보여줍니다.

Zhixun Chen, Ping Guo, Wenhan Han, Yifan Zhang, Binbin Liu, Haobin Lin, Fengze Liu, Yan Zhao, Bingni Zhang, Taifeng Wang, Yin Zheng, Trevor Cohn, Meng Fang

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "영어만 잘하는 AI 의 한계"

지금까지 AI 를 가르칠 때, 우리는 인터넷에 떠도는 엄청난 양의 글 (데이터) 을 모아서 사용했습니다. 하지만 기존에 개발된 '데이터 고르기 기술'들은 영어 글만 잘 골라내는 데 특화되어 있었습니다.

비유: 마치 영국인 요리사가 전 세계 재료를 고르는 일을 맡았는데, **영국식 재료 (영어)**만 맛보고 "이게 최고야!"라고 판단하는 상황입니다. 그래서 한국, 스페인, 아랍어 등 다른 나라의 훌륭한 재료 (데이터) 는 제대로 평가받지 못하고 버려지거나, 반대로 나쁜 재료가 섞여 들어갈 위험이 있었습니다.

2. 해결책: "MuRating (무러팅)" - 세계 공통의 미각을 가진 심사위원

저자들은 이 문제를 해결하기 위해 MuRating이라는 시스템을 만들었습니다. 이 시스템은 두 단계로 작동합니다.

1 단계: 영어 심사위원들을 하나로 합치기

먼저, 이미 존재하는 여러 개의 영어 데이터 평가 모델 (QuRater, AskLLM 등) 을 모았습니다. 그리고 이 모델들이 서로 다른 글을 비교하며 "A 가 B 보다 더 좋은 글이야"라고 투표하게 했습니다.

비유: 여러 명의 영어 요리 평론가들이 모여서 "이 요리는 저 요리보다 더 맛있어"라고 서로 토론하고 투표한 뒤, **한 명의 '슈퍼 평론가'**를 만든 것과 같습니다. 이 슈퍼 평론가는 어떤 글이 진짜 좋은 글인지 아주 정확하게 알고 있습니다.

2 단계: 그 능력을 다른 언어로 번역하기 (핵심 아이디어)

이제 이 '슈퍼 평론가'의 능력을 영어가 아닌 17 개 언어 (한국어, 중국어, 스페인어 등) 로 확장합니다. 여기서 중요한 것은 단순히 점수를 매기는 게 아니라, 글을 '비교'하는 방식을 사용했다는 점입니다.

  • 기존 방식 (점수 매기기): "이 한국어 글은 8 점, 저 프랑스어 글은 7 점." -> 번역 과정에서 뉘앙스가 달라지면 점수가 흔들릴 수 있습니다.
  • MuRating 방식 (비교하기): "이 한국어 글 A 와 B 중, A 가 더 좋아." -> 번역이 조금 달라져도 "A 가 B 보다 낫다"는 관계는 유지되기 쉽습니다.

비유:

  • 기존 방식: 각 나라의 요리사에게 "이 요리의 맛을 10 점 만점에 점수로 매겨줘"라고 하면, 나라마다 '맛'의 기준이 달라서 점수가 제각각입니다.
  • MuRating 방식: "이 두 요리 중, 어느 것이 더 맛있나요?"라고 물어봅니다. "A 가 더 맛있다"는 사실은 한국 요리사나 프랑스 요리사나, 심지어 번역된 레시피를 보고도 쉽게 공감할 수 있습니다.

이렇게 영어에서 배운 '비교 능력'을 번역을 통해 다른 언어로 전달하고, 서로 다른 언어의 글끼리도 비교하게 함으로써 언어에 상관없이 똑같은 기준으로 데이터를 평가합니다.

3. 결과: 더 똑똑해진 AI

이 방법으로 인터넷에서 최고 품질의 데이터 10% 만 골라내어 AI (LLaMA 모델) 를 훈련시켰습니다.

  • 결과: 기존에 사용하던 방법들보다 영어 능력도 향상되었고, 다른 언어 (한국어, 스페인어 등) 능력도 크게 좋아졌습니다.
  • 의미: 이제 AI 는 영어뿐만 아니라 전 세계 다양한 언어로 된 정보도 똑똑하게 이해하고, 논리적으로 추론할 수 있게 되었습니다.

4. 요약: 왜 이 연구가 중요한가요?

이 연구는 **"영어 중심의 AI 시대를 넘어, 진정한 다국어 AI 시대를 여는 열쇠"**를 찾았습니다.

마무리 비유:
이전까지 AI 는 영어로 된 명품 도서관만 빌려 읽어서 지식이 풍부해졌습니다. 하지만 MuRating 을 통해 AI 는 전 세계 모든 언어로 된 도서관에서, 언어가 달라도 '진짜 좋은 책'을 골라낼 수 있는 보편적인 안목을 갖게 되었습니다. 이제 AI 는 영어 사용자뿐만 아니라 전 세계 모든 사용자에게 더 똑똑하고 공정한 답변을 줄 수 있게 된 것입니다.

이 논문은 단순히 데이터를 많이 모으는 것이 아니라, **"어떤 데이터를 고를 것인가"**에 대한 지혜를 언어 장벽 없이 전달하는 방법을 제시했다는 점에서 매우 의미 있습니다.