MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining
Le papier présente MuRating, un cadre évolutif qui transfère les signaux de qualité des données anglaises vers un évaluateur multilingue unique pour sélectionner des sous-ensembles de données équilibrés, améliorant ainsi significativement les performances des modèles de langage multilingues sur des tâches exigeantes en connaissances.