ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

DatologyAI, :, Aldo Gael Carranza, Kaleigh Mentzer, Ricardo Pio Monti, Alex Fang, Alvin Deng, Amro Abbas, Anshuman Suri, Brett Larsen, Cody Blakeney, Darren Teh, David Schwab, Diego Kiner, Fan Pan, Haakon Mongstad, Haoli Yin, Jack Urbanek, Jason Lee, Jason Telanoff, Josh Wills, Luke Merrick, Maximilian Böther, Parth Doshi, Paul Burstein, Pratyush Maini, Rishabh Adiga, Siddharth Joshi, Spandan Das, Tony Jiang, Vineeth Dorna, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt

Gepubliceerd 2026-02-27

📖 5 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

De "UberWeb" Ontdekking: Hoe je een slimme AI bouwt zonder de hele wereldboekenkast te kopen

Stel je voor dat je een super-slimme robot wilt bouwen die alle talen van de wereld spreekt. Vaak denken mensen dat je daarvoor gewoon meer robots moet maken of dat je onbeperkt tijd en geld moet investeren. Maar dit nieuwe onderzoek van het team DatologyAI zegt: "Nee, dat is niet het probleem. Het probleem is wat we de robot laten lezen."

Hier is de kern van hun ontdekking, vertaald naar alledaags taalgebruik:

1. Het probleem: De "Vloek van de Meertaligheid"

Stel je voor dat je een student (de AI) hebt die Engels heel goed spreekt, maar ook Nederlands, Spaans en Japans wil leren.
De oude theorie was: "Als je te veel talen tegelijk leert, wordt de student verward en wordt hij in alle talen slechter." Dit noemen ze de "vloek van de meertaligheid". Het idee was dat het brein van de robot te klein is om alles tegelijk te onthouden.

De nieuwe ontdekking: Het brein is niet te klein. Het probleem is dat de student slechte boeken krijgt!

Voor Engels hebben ze prachtige, zorgvuldig geselecteerde boeken (hoge kwaliteit).
Voor andere talen krijgen ze vaak rommel: oude kranten, spam, foutieve vertalingen en onzin.
Als je een student laat studeren met rommelige boeken, wordt hij niet slim, ongeacht hoeveel boeken je hem geeft.

2. De Oplossing: "Boekkeuze" in plaats van "Meer Boeken"

Het team heeft bewezen dat je geen duizenden extra robots nodig hebt. Je moet gewoon kwaliteit kiezen.

De Analogie van de Koffie: Stel je voor dat je koffie zet. Als je slechte bonen gebruikt (slechte data), krijg je een vieze kop koffie, zelfs als je er heel veel van zet. Als je de beste bonen kiest (gecurateerde data), krijg je een perfecte kop koffie met minder water.
Het Experiment: Ze hebben getest wat er gebeurt als je alleen de Engelse boeken verbetert. Het bleek dat dit de robot ook beter maakte in andere talen!
- Waarom? Omdat de robot de "logica" van goed schrijven leert in het Engels, en die logica werkt ook in het Spaans of Hindi.
- Resultaat: Door alleen de Engelse data te verbeteren, werd de prestatie in 12 van de 13 andere talen ook beter. En andersom: als je de data in andere talen verbetert, wordt de robot ook beter in het Engels. Het is een win-win situatie!

3. De Gouden Regel: Elke taal heeft zijn eigen "Recept"

Je kunt niet gewoon hetzelfde recept gebruiken voor elke taal.

Vergelijking: Je kunt geen Italiaanse pizza maken met de ingrediënten die je voor een Japanse sushi gebruikt, ook al zijn het allebei "eten".
De Aanpak: Het team heeft voor elke van de 13 talen (zoals Hindi, Arabisch, Chinees) een speciaal team ingezet om de beste teksten te vinden. Ze hebben niet zomaar alles van internet geplukt, maar hebben gekeken: "Is dit een goed artikel? Is dit correct?"
Het Effect: Toen ze dit deden, werd de robot in die specifieke talen 17% beter dan wanneer ze gewoon willekeurige teksten hadden gebruikt.

4. Vertalen? Alleen van de beste bronnen!

Soms denken mensen: "Laten we gewoon alle goede Engelse teksten vertalen naar andere talen."

De Valstrik: Als je slechte Engelse teksten vertaalt, krijg je slechte teksten in de andere taal.
De Oplossing: Je moet alleen de allerbeste Engelse teksten vertalen.
Het Resultaat: Vertalen werkt wel, maar het is niet de magische oplossing. De beste resultaten haal je als je voor elke taal zelf de beste bronnen zoekt en vertaalt.

5. Het Grote Succes: Slimmer werken, niet harder

Het team heeft een gigantische dataset van 20 biljoen woorden (20 Trillion Tokens) gemaakt.

Ze hebben getoond dat hun 3-miljard-parameter model (klein) met 4 tot 10 keer minder rekenkracht net zo goed presteert als de grootste, duurste modellen van concurrenten.
De Analogie: Het is alsof ze een kleine, sportieve auto hebben gebouwd die net zo snel is als een zware tank, omdat ze de motor (de data) zo perfect hebben afgesteld.
Ze gebruiken slechts 8% van hun totale "woorden" voor de andere talen, maar dat is genoeg omdat die 8% zo hoogwaardig is.

Conclusie: De Toekomst is Er, maar niet Overal

De beroemde schrijver William Gibson zei ooit: "De toekomst is er al, maar het is niet gelijkmatig verdeeld."
Dit paper zegt: "Laten we dat veranderen."

Door te stoppen met het verzamelen van veel data en te beginnen met het verzamelen van goede data, kunnen we AI-modellen maken die voor iedereen werken, niet alleen voor degenen die Engels spreken. Het is geen kwestie van meer rekenkracht, maar van kwaliteit en zorgvuldigheid.

Kort samengevat:
In plaats van een berg rommel te laten opruimen door een robot, geef je de robot een paar prachtige, zorgvuldig geselecteerde boeken. Dan wordt hij niet alleen slim in het Engels, maar ook in de rest van de wereld. En dat kost veel minder energie.

ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

1. Het probleem: De "Vloek van de Meertaligheid"

2. De Oplossing: "Boekkeuze" in plaats van "Meer Boeken"

3. De Gouden Regel: Elke taal heeft zijn eigen "Recept"

4. Vertalen? Alleen van de beste bronnen!

5. Het Grote Succes: Slimmer werken, niet harder

Conclusie: De Toekomst is Er, maar niet Overal

Probleemstelling

Methodologie

Belangrijkste Bijdragen en Resultaten

Significantie

ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

1. Het probleem: De "Vloek van de Meertaligheid"

2. De Oplossing: "Boekkeuze" in plaats van "Meer Boeken"

3. De Gouden Regel: Elke taal heeft zijn eigen "Recept"

4. Vertalen? Alleen van de beste bronnen!

5. Het Grote Succes: Slimmer werken, niet harder

Conclusie: De Toekomst is Er, maar niet Overal

Probleemstelling

Methodologie

Belangrijkste Bijdragen en Resultaten

Significantie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank