MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

MuRating is een schaalbaar raamwerk dat hoogwaardige kwaliteitsindicatoren uit het Engels overbrengt naar een enkel beoordelingsmodel voor 17 talen, waardoor de prestaties van meertalige grote taalmodellen aanzienlijk verbeteren, vooral bij kennisintensieve taken.

Zhixun Chen, Ping Guo, Wenhan Han, Yifan Zhang, Binbin Liu, Haobin Lin, Fengze Liu, Yan Zhao, Bingni Zhang, Taifeng Wang, Yin Zheng, Trevor Cohn, Meng Fang

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

MuRating: De "Kwaliteitscontroleur" voor Meertalige AI

Stel je voor dat je een gigantische bibliotheek wilt bouwen voor een superintelligente robot (een Large Language Model of LLM). Deze robot moet alles kunnen: van wiskunde maken tot gedichten schrijven, en dat in veel verschillende talen, niet alleen in het Engels.

Het probleem? De bibliotheek is een enorme rommelpost. Er zit veel waardevolle kennis in, maar ook veel onzin, spam, en slecht geschreven tekst. Als je de robot laat leren van die hele rommel, wordt hij dom en onbetrouwbaar. Je moet dus de beste boeken selecteren en de slechte weggooien.

Tot nu toe hadden we alleen goede methoden om de Engelse boeken te sorteren. Voor de andere 17 talen (zoals Chinees, Spaans, Arabisch, etc.) moesten we het doen met ruwe schattingen of simpele regels. Dat was als proberen een wijnproever te vinden die alleen Franse wijn kent, maar dan ook de Italiaanse en Spaanse wijnen moet beoordelen.

MuRating is de oplossing die dit probleem oplost. Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. De Meesters van de Engelse Taal (De Jury)

Eerst kijken we naar de experts die al weten hoe ze goede Engelse teksten van slechte moeten onderscheiden. In de paper worden vier verschillende "reuzen" (modellen) gebruikt die als jury fungeren. Ze kijken naar paren van teksten en zeggen: "Tekst A is beter dan Tekst B."
Door deze vier jury's samen te laten werken, krijgen we één super-betrouwbare Engelse Kwaliteitsmeter.

2. De Vertaal-Magie (De Brug)

Nu komt het slimme deel. We hebben deze Engelse Kwaliteitsmeter, maar we moeten hem leren werken in 17 andere talen. In plaats van 17 nieuwe experts te trainen (wat heel duur en moeilijk is), gebruiken we vertaling als brug.

  • Het idee: Als we een goede Engelse tekst en een slechte Engelse tekst hebben, en we vertalen ze beide naar het Spaans, dan blijft het verschil in kwaliteit hetzelfde. De goede tekst blijft goed, de slechte blijft slecht.
  • De truc: De auteurs nemen die Engelse paren, vertalen ze naar alle 17 talen, en gebruiken de oorspronkelijke Engelse oordeel ("A is beter dan B") als lesmateriaal voor de nieuwe taal.

3. De Drie Soorten Oefeningen

Om de nieuwe "MuRater" (de nieuwe kwaliteitsmeter) echt slim te maken, geven ze hem drie soorten oefeningen:

  1. Taal-zelf-oefening: Twee teksten in het Spaans vergelijken (vertaald vanuit het Engels).
  2. Taal-mix-oefening: Een tekst in het Frans vergelijken met een tekst in het Duits. Dit leert de robot dat kwaliteit universeel is, ongeacht de taal.
  3. Spiegel-oefening: Twee teksten die exact hetzelfde zeggen, maar dan in twee verschillende talen (bijvoorbeeld: "De zon schijnt" in het Nederlands en "The sun is shining" in het Engels). De robot moet leren dat deze even goed zijn. Dit zorgt ervoor dat de robot niet bias heeft naar één specifieke taal.

4. Het Resultaat: Een Slimme Robot

Als de MuRater-model klaar is met leren, gaat hij de hele internet-bibliotheek scannen. Hij plakt een kwaliteitslabel op elke tekst in alle 17 talen. Vervolgens selecteren ze alleen de top 10% van de beste teksten om hun nieuwe AI-model (de robot) mee te trainen.

Wat leverde dit op?
Toen ze hun nieuwe robot trainden met deze slimme selectie, was hij veel beter dan robots die met andere methoden waren getraind.

  • Hij was slimmer in het Engels.
  • Hij was veel slimmer in de andere talen (zoals Chinees, Arabisch en Spaans).
  • Hij kon beter redeneren en feiten onthouden.

Waarom is dit belangrijk?

Vroeger was het alsof je een wereldwijde school bouwde, maar alleen de leraars voor de Engelse klas goed waren opgeleid. De andere klassen kregen willekeurige leraars. MuRating zorgt ervoor dat de leraars in alle klassen even goed zijn, omdat ze allemaal dezelfde "gouden standaard" van kwaliteit hebben geleerd, gewoon via vertaling.

Kortom: MuRating is een slimme, schaalbare manier om de beste data te vinden voor AI, zodat die AI niet alleen Engels spreekt, maar ook echt slim is in de hele wereld.