MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

本文提出了 MuRating 框架,通过将英语高质量数据评分信号迁移至 17 种目标语言,构建了一个可扩展的多语言数据选择方法,显著提升了多语言大语言模型在英语及多语言基准测试(尤其是知识密集型任务)上的表现。

Zhixun Chen, Ping Guo, Wenhan Han, Yifan Zhang, Binbin Liu, Haobin Lin, Fengze Liu, Yan Zhao, Bingni Zhang, Taifeng Wang, Yin Zheng, Trevor Cohn, Meng Fang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MuRating 的新方法,它的核心任务是帮人工智能(大语言模型)在“吃”海量数据时,学会如何挑选“营养餐”,而不是“垃圾食品”

为了让你更容易理解,我们可以把训练大模型想象成培养一个博学的“超级学生”

1. 现在的困境:学生只懂英语,其他语言是“盲盒”

过去,科学家给这个“超级学生”找教材时,主要依赖英语。因为英语数据多、质量高,大家开发了很多工具(就像“美食评论家”)来帮学生筛选高质量的英语文章。

但是,这个学生现在需要学习17 种语言(比如中文、西班牙语、阿拉伯语等)。问题来了:

  • 那些“美食评论家”只懂英语,看不懂其他语言。
  • 如果直接让学生乱吃其他语言的数据,可能会吃到很多低质量、重复甚至错误的信息,导致学生学歪了。
  • 现有的方法要么太依赖人工规则(像用尺子量长度),要么容易把“考试题目”混进“练习题”里,导致学生死记硬背。

2. MuRating 的解决方案:一位“通晓多语的翻译官”

MuRating 就像是一位聪明的“翻译官 + 质检员”,它的工作流程分两步走,非常巧妙:

第一步:组建“英语评审团”,统一标准

首先,MuRating 找来了四位顶级的英语美食评论家(也就是现有的英语数据筛选模型)。

  • 它不直接问评论家“这篇文章打几分?”,而是问:"A 和 B 两篇文章,哪一篇更好?"(这叫“成对比较”)。
  • 通过让这四位评论家互相投票,MuRating 总结出了一套统一的、高质量的英语评分标准。这就好比大家不再纠结具体的分数是 8 分还是 9 分,而是达成共识:A 比 B 好。

第二步:把标准“翻译”给全世界

这是最精彩的部分。MuRating 把那些被英语评审团判定为“好”和“坏”的文章对,翻译成 17 种不同的语言

  • 核心逻辑:如果英语里的"A 文章比 B 文章好”,那么翻译成中文、西班牙语后,“中文 A"依然应该比“中文 B"好
  • 它利用这种**“相对关系”**(谁比谁好),而不是“绝对分数”(打几分),来训练一个新的多语言质检员(MuRater)。
  • 为什么要这么做? 就像你翻译一首诗,具体的词可能会变,但“这首诗比那首更感人”的感觉是不变的。用“比较”来教学,比用“打分”更稳定,不容易受翻译误差的影响。

3. 独特的“三合一”训练法

为了让这个质检员更聪明,MuRating 还给它准备了三种特殊的练习题:

  1. 同语言对比:比如两篇中文文章比一比(练基本功)。
  2. 跨语言对比:比如一篇中文文章和一篇英文文章比一比(练跨文化理解,确保它知道中文的“好”和英文的“好”是相通的)。
  3. 平行翻译对比:把同一篇文章翻译成中文和德文,告诉质检员:“这两篇内容一样,质量应该打平手"(防止它因为语言不同而产生偏见)。

4. 效果如何?

经过这套方法筛选出来的数据,用来训练大模型(比如 1.2B 和 7B 参数的模型),效果非常惊人:

  • 英语考试:比以前的方法平均提高了 1 到 3.4 分。
  • 多语言考试:在 17 种语言的测试中,表现也全面领先。
  • 稳定性:就像给模型打了一针“强心剂”,让它学得更稳、更聪明,尤其是在推理和常识判断上。

总结

MuRating 就像是一个“超级选书人”。它不需要懂每一种语言,而是通过**“比较”“翻译”**,把英语世界里已经验证过的“好内容标准”,完美地复制到了 17 种其他语言中。

它证明了:只要选对了“教材”,哪怕模型不大,也能变得非常博学和多才多艺。 这为未来让 AI 真正服务于全球不同语言的人群,提供了一条高效、低成本的新路径。