MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Each language version is independently generated for its own context, not a direct translation.

MuRating: De "Kwaliteitscontroleur" voor Meertalige AI

Stel je voor dat je een gigantische bibliotheek wilt bouwen voor een superintelligente robot (een Large Language Model of LLM). Deze robot moet alles kunnen: van wiskunde maken tot gedichten schrijven, en dat in veel verschillende talen, niet alleen in het Engels.

Het probleem? De bibliotheek is een enorme rommelpost. Er zit veel waardevolle kennis in, maar ook veel onzin, spam, en slecht geschreven tekst. Als je de robot laat leren van die hele rommel, wordt hij dom en onbetrouwbaar. Je moet dus de beste boeken selecteren en de slechte weggooien.

Tot nu toe hadden we alleen goede methoden om de Engelse boeken te sorteren. Voor de andere 17 talen (zoals Chinees, Spaans, Arabisch, etc.) moesten we het doen met ruwe schattingen of simpele regels. Dat was als proberen een wijnproever te vinden die alleen Franse wijn kent, maar dan ook de Italiaanse en Spaanse wijnen moet beoordelen.

MuRating is de oplossing die dit probleem oplost. Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. De Meesters van de Engelse Taal (De Jury)

Eerst kijken we naar de experts die al weten hoe ze goede Engelse teksten van slechte moeten onderscheiden. In de paper worden vier verschillende "reuzen" (modellen) gebruikt die als jury fungeren. Ze kijken naar paren van teksten en zeggen: "Tekst A is beter dan Tekst B."
Door deze vier jury's samen te laten werken, krijgen we één super-betrouwbare Engelse Kwaliteitsmeter.

2. De Vertaal-Magie (De Brug)

Nu komt het slimme deel. We hebben deze Engelse Kwaliteitsmeter, maar we moeten hem leren werken in 17 andere talen. In plaats van 17 nieuwe experts te trainen (wat heel duur en moeilijk is), gebruiken we vertaling als brug.

Het idee: Als we een goede Engelse tekst en een slechte Engelse tekst hebben, en we vertalen ze beide naar het Spaans, dan blijft het verschil in kwaliteit hetzelfde. De goede tekst blijft goed, de slechte blijft slecht.
De truc: De auteurs nemen die Engelse paren, vertalen ze naar alle 17 talen, en gebruiken de oorspronkelijke Engelse oordeel ("A is beter dan B") als lesmateriaal voor de nieuwe taal.

3. De Drie Soorten Oefeningen

Om de nieuwe "MuRater" (de nieuwe kwaliteitsmeter) echt slim te maken, geven ze hem drie soorten oefeningen:

Taal-zelf-oefening: Twee teksten in het Spaans vergelijken (vertaald vanuit het Engels).
Taal-mix-oefening: Een tekst in het Frans vergelijken met een tekst in het Duits. Dit leert de robot dat kwaliteit universeel is, ongeacht de taal.
Spiegel-oefening: Twee teksten die exact hetzelfde zeggen, maar dan in twee verschillende talen (bijvoorbeeld: "De zon schijnt" in het Nederlands en "The sun is shining" in het Engels). De robot moet leren dat deze even goed zijn. Dit zorgt ervoor dat de robot niet bias heeft naar één specifieke taal.

4. Het Resultaat: Een Slimme Robot

Als de MuRater-model klaar is met leren, gaat hij de hele internet-bibliotheek scannen. Hij plakt een kwaliteitslabel op elke tekst in alle 17 talen. Vervolgens selecteren ze alleen de top 10% van de beste teksten om hun nieuwe AI-model (de robot) mee te trainen.

Wat leverde dit op?
Toen ze hun nieuwe robot trainden met deze slimme selectie, was hij veel beter dan robots die met andere methoden waren getraind.

Hij was slimmer in het Engels.
Hij was veel slimmer in de andere talen (zoals Chinees, Arabisch en Spaans).
Hij kon beter redeneren en feiten onthouden.

Waarom is dit belangrijk?

Vroeger was het alsof je een wereldwijde school bouwde, maar alleen de leraars voor de Engelse klas goed waren opgeleid. De andere klassen kregen willekeurige leraars. MuRating zorgt ervoor dat de leraars in alle klassen even goed zijn, omdat ze allemaal dezelfde "gouden standaard" van kwaliteit hebben geleerd, gewoon via vertaling.

Kortom: MuRating is een slimme, schaalbare manier om de beste data te vinden voor AI, zodat die AI niet alleen Engels spreekt, maar ook echt slim is in de hele wereld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining", geschreven in het Nederlands.

1. Het Probleem

De prestaties van Large Language Models (LLM's) worden sterk bepaald door de kwaliteit van de trainingsdata. Hoewel er veel methoden zijn om data te selecteren en te filteren (zoals deduplicatie, heuristieken en modelgebaseerde selectie), richten deze methoden zich bijna uitsluitend op Engelse data.

Er bestaat een kritiek gat in de beoordeling van datakwaliteit voor niet-Engelse talen. Bestaande modelgebaseerde aanpakken zijn niet ontworpen of gevalideerd voor meertalige contexten. Een recente poging (FineWeb2-HQ) traint taal-specifieke raters, maar loopt het risico van "testset-contaminatie" omdat deze gebruikmaken van benchmark-data als positieve supervisie. Er is dus behoefte aan een schaalbaar, principieel raamwerk dat kwaliteitsselectie uitbreidt naar meerdere talen zonder afhankelijk te zijn van specifieke benchmarks of handmatige heuristieken.

2. Methodologie: MuRating

MuRating is een tweestapsraamwerk dat hoge kwaliteit Engelse data-signaals overbrengt naar een multilinguale "autorater" die 17 talen aankan. De aanpak bestaat uit twee hoofdfasen:

Fase 1: Aggregatie van Engelse AutoRaters (Pairwise Comparison)

In plaats van één rater te gebruiken, consolideert MuRating vier bestaande state-of-the-art Engelse kwaliteitsraters (AskLLM, DCLM, FineWeb-Edu, en QuRating).

Pairwise Comparisons: Het systeem genereert paren van teksten $(t_A, t_B)$ en laat de vier raters een voorkeur uitspreken.
Bradley-Terry Model: Op basis van deze voorkeuren wordt een empirische waarschijnlijkheid $P_{A>B}$ berekend. Een Bradley-Terry model wordt getraind om deze paarvergelijkingen om te zetten in één enkel, uniek kwaliteitscijfer per document. Dit creëert een robuuste "ground truth" voor Engelse data.

Fase 2: Meertalige Transfer via Vertaling

Deze Engelse kwaliteitssignalen worden overgebracht naar 17 doel-talen (o.a. Chinees, Arabisch, Spaans, Japans) via vertaling.

Data Constructie: De beoordeelde Engelse documentparen worden vertaald naar de doel-talen. Hieruit worden drie soorten paren gegenereerd:
1. Monolinguale paren: Beide teksten in dezelfde doel-taal.
2. Cross-linguale paren: Tekst A in taal $m$ en tekst B in taal $m'$ (verschillende talen).
3. Parallelle paren: Dezelfde inhoud vertaald naar twee verschillende talen (krijgen een neutrale voorkeur, $P=0.5$ ).
Aannames: De aanname is dat vertaling de semantische inhoud en de relatieve kwaliteit tussen twee teksten behoudt.
Trainingsdoel: Een enkel model (MuRater) wordt getraind op deze diverse paren. Het verliesfunctie combineert de pairwise loss (voor kwaliteitsonderscheid) met een regularisatieterm voor parallelle paren (om taal-agnostische consistentie te garanderen).

Het resultaat is één MuRater-model dat gebaseerd is op de BGE-M3-architectuur, dat tekstkwaliteit kan beoordelen in alle 17 talen zonder dat er specifieke benchmarks nodig zijn voor training.

3. Belangrijkste Bijdragen

Unificatie van Engelse Raters: Het consolideren van vier verschillende Engelse kwaliteitsraters via een Bradley-Terry pairwise-framework tot één robuust scoremodel.
Vertalingsgebaseerde Multilinguale Transfer: Een innovatieve methode om Engelse paarvoorkeuren te projecteren naar monolinguale, cross-linguale en parallelle paren in 17 talen, waardoor taal-agnostische kwaliteitsbeoordeling mogelijk wordt.
Schaalbare Pretraining-winsten: Empirisch bewijs dat deze aanpak leidt tot significante prestatieverbeteringen in zowel 1.2B als 7B parameter modellen, vergeleken met bestaande baselines.

4. Resultaten

De auteurs hebben MuRater toegepast op webdata om LLaMA-architectuur modellen (1.2B en 7B parameters) voor te trainen.

Vergelijking met Baselines: MuRating presteert beter dan sterke baselines zoals QuRater, FineWeb2-HQ, AskLLM, DCLM en Uniform Sampling (met 50% meer data).
Engelse Benchmarks: Er werd een gemiddelde stijging van 1 tot 3,4 punten behaald op twaalf Engelse benchmarks (zoals ARC, MMLU, HellaSwag).
Meertalige Evaluatie: Op een diverse meertalige suite (18 talen) werd een gemiddelde stijging van 1,8 punten behaald.
Stabiliteit: Het gebruik van pairwise training bleek robuuster en stabieler dan pointwise scoring (absolute scores toekennen), vooral omdat vertalingen subtiele nuances kunnen veranderen die absolute scores beïnvloeden, maar zelden de relatieve rangorde tussen twee teksten.
Cross-linguale Consistentie: Het gebruik van cross-linguale en parallelle paren in de training zorgde ervoor dat het model consistente scores gaf voor semantisch equivalente teksten in verschillende talen (lage MSE en een helling van ~1 in scatterplots).

5. Betekenis en Conclusie

MuRating biedt een schaalbare oplossing voor het probleem van datakwaliteit in meertalige LLM-pretraining. Het bewijst dat kwaliteitssignalen die in het Engels zijn afgeleid, effectief kunnen worden overgebracht naar andere talen via vertaling en paarvergelijkingen.

De belangrijkste inzichten zijn:

Taal-agnostische kwaliteit: Kwaliteit is een eigenschap van de inhoud, niet van de taal. Door vertaling en paarvergelijkingen kan een model dit leren zonder per taal te hoeven trainen.
Robuustheid: Pairwise supervision is superieur aan pointwise scoring in meertalige contexten omdat het minder gevoelig is voor vertalingsartefacten.
Schaalbaarheid: De methode werkt effectief op grote schaal (biljoenen tokens) en levert consistente verbeteringen op voor modellen van verschillende groottes.

De studie benadrukt dat voor de volgende generatie multilinguale LLM's niet alleen meer data nodig is, maar vooral beter geselecteerde data, waarbij MuRating een effectief raamwerk biedt om dit te realiseren.

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

1. De Meesters van de Engelse Taal (De Jury)

2. De Vertaal-Magie (De Brug)

3. De Drie Soorten Oefeningen

4. Het Resultaat: Een Slimme Robot

Waarom is dit belangrijk?

1. Het Probleem

2. Methodologie: MuRating

Fase 1: Aggregatie van Engelse AutoRaters (Pairwise Comparison)

Fase 2: Meertalige Transfer via Vertaling

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers