MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining
MuRating is een schaalbaar raamwerk dat hoogwaardige kwaliteitsindicatoren uit het Engels overbrengt naar een enkel beoordelingsmodel voor 17 talen, waardoor de prestaties van meertalige grote taalmodellen aanzienlijk verbeteren, vooral bij kennisintensieve taken.