MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining
O artigo apresenta o MuRating, uma abordagem escalável que transfere sinais de qualidade de dados do inglês para treinar um avaliador multilíngue, permitindo a seleção de conjuntos de dados equilibrados que melhoram significativamente o desempenho de modelos de linguagem grandes em tarefas multilíngues e baseadas em conhecimento.