MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining
Die Arbeit stellt MuRating vor, ein skalierbares Framework, das hochwertige englische Datenqualitätssignale nutzt, um einen einzigen multilingualen Bewertungsmechanismus für 17 Sprachen zu trainieren und dadurch die Leistung von 1,2-Milliarden-Parameter-LLMs sowohl in englischen als auch in multilingualen Benchmarks signifikant verbessert.