MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining
Il paper introduce MuRating, un framework scalabile che trasferisce segnali di qualità dai dati inglesi per addestrare un valutatore multilingue, permettendo la selezione di subset di dati equilibrati che migliorano significativamente le prestazioni dei modelli linguistici su compiti sia in inglese che multilingue.