MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining
El artículo presenta MuRating, un marco escalable que transfiere señales de calidad de datos del inglés a un evaluador multilingüe único para seleccionar conjuntos de datos equilibrados que mejoran significativamente el rendimiento de modelos de lenguaje grandes en tareas de conocimiento y evaluación multilingüe.