ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

DatologyAI, :, Aldo Gael Carranza, Kaleigh Mentzer, Ricardo Pio Monti, Alex Fang, Alvin Deng, Amro Abbas, Anshuman Suri, Brett Larsen, Cody Blakeney, Darren Teh, David Schwab, Diego Kiner, Fan Pan, Haakon Mongstad, Haoli Yin, Jack Urbanek, Jason Lee, Jason Telanoff, Josh Wills, Luke Merrick, Maximilian Böther, Parth Doshi, Paul Burstein, Pratyush Maini, Rishabh Adiga, Siddharth Joshi, Spandan Das, Tony Jiang, Vineeth Dorna, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt

Veröffentlicht 2026-02-27

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Ein ungleicher Kuchen

Stellen Sie sich vor, wir bauen einen riesigen, superintelligenten Koch (eine Künstliche Intelligenz), der Rezepte aus der ganzen Welt lernen soll. Bisher war dieses Kochen sehr einseitig: Der Koch hat fast nur englische Kochbücher gelesen. Er ist ein Meister in englischen Gerichten, aber wenn man ihn nach einem Rezept für ein indisches Curry oder ein japanisches Sushi fragt, stolpert er.

Das liegt an zwei Problemen:

Ungleiche Verteilung: Es gibt riesige Bibliotheken mit englischen Kochbüchern, aber für viele andere Sprachen sind die Bücher dünn, verstaubt oder voller Fehler.
Der „Fluch der Mehrsprachigkeit": Früher glaubten Forscher, dass der Koch einfach zu wenig Platz im Kopf hat. Wenn er versucht, 13 Sprachen gleichzeitig zu lernen, vermischt er die Rezepte, und am Ende kann er keine davon richtig kochen. Man dachte, man müsse den Koch nur größer machen (mehr Parameter), damit er Platz für alle Sprachen hat.

Die neue Erkenntnis: Es liegt nicht am Kopf, sondern am Essen

Die Forscher von DatologyAI haben etwas Überraschendes herausgefunden: Das Problem ist nicht, dass der Koch zu klein ist. Das Problem ist, dass ihm schlechte Zutaten gegeben wurden.

Stellen Sie sich vor, Sie geben dem Koch für die englischen Gerichte frische, hochwertige Zutaten. Für die spanischen Gerichte geben Sie ihm aber verrottetes Gemüse und alte Konserven. Kein Wunder, dass das spanische Essen schmeckt wie Müll!

Die Studie zeigt: Wenn man die Qualität der Daten (die Zutaten) verbessert, passiert Magie.

Die drei wichtigsten Entdeckungen (mit Analogien)

1. Gutes Englisch hilft auch den anderen Sprachen

Die Forscher haben experimentiert: Sie haben die englischen Daten (die Zutaten) extrem sorgfältig ausgewählt und gereinigt. Das Ergebnis? Selbst wenn die Daten für die anderen 12 Sprachen (z. B. Hindi, Arabisch, Chinesisch) nicht verbessert wurden, wurden die Ergebnisse in diesen Sprachen plötzlich besser!

Die Metapher: Es ist, als würde man den Koch in einem englischen Restaurant so gut ausbilden, dass er die grundlegenden Techniken (Schneiden, Braten, Würzen) perfekt beherrscht. Diese Fähigkeiten übertragen sich automatisch auf die spanische Küche, auch wenn er dort noch nie gearbeitet hat. Ein besseres Fundament hilft überall.

2. Jede Sprache braucht ihre eigene Küche

Aber das allein reicht nicht. Die besten Ergebnisse erzielten sie, wenn sie für jede einzelne Sprache eine maßgeschneiderte Küche bauten.

Die Metapher: Ein Rezept für ein deutsches Brot funktioniert nicht für ein indisches Naan-Brot. Man braucht für jede Sprache spezielle Filter und Auswahlkriterien. Wenn man für Hindi, Arabisch und Chinesisch eigene, sorgfältig kuratierte Datenbanken anlegt (statt einfach nur englische Daten zu übersetzen), steigt die Leistung massiv an – bis zu 17 % besser als bei unsortierten Daten.

3. Übersetzen ist gut, aber nur mit Qualitätskontrolle

Man könnte denken: „Wir nehmen einfach gute englische Texte und übersetzen sie in alle Sprachen." Das funktioniert auch, aber nur bedingt.

Die Metapher: Wenn Sie einen schlechten englischen Text übersetzen, erhalten Sie einen schlechten Text in der Zielsprache. Wenn Sie aber einen exzellenten, wissenschaftlichen englischen Text nehmen und ihn professionell übersetzen, ist das Ergebnis in der Zielsprache viel besser als ein zufälliger, unsortierter Text. Die Qualität des Originals ist entscheidend.

Das Ergebnis: Mehr Leistung mit weniger Aufwand

Das Schönste an dieser Studie ist die Effizienz.
Stellen Sie sich vor, andere Köche müssen 100 kg Zutaten verbrauchen, um ein gutes Gericht zu kochen. Die DatologyAI-Köche schaffen das gleiche (oder sogar bessere) Ergebnis mit nur 8 kg hochwertigen Zutaten.

Der Vergleich: Ein kleines Modell (3 Milliarden Parameter), das nur auf 1 Billion sorgfältig ausgewählten Token trainiert wurde, schlägt riesige Modelle von anderen Firmen, die 10-mal mehr Rechenleistung verbraucht haben.
Der „Pareto-Frontier": In der Wissenschaft nennt man das eine neue Grenze. Sie haben bewiesen, dass man nicht unbedingt riesige Computer braucht, wenn man die Daten (die Zutaten) perfekt kuratiert.

Fazit: Qualität vor Quantität

Die Botschaft der Studie ist einfach:
Wir müssen nicht unbedingt riesigere KI-Modelle bauen, die alles auf einmal lernen können. Stattdessen müssen wir aufhören, „Müll" in die Modelle zu füttern. Wenn wir für jede Sprache sorgfältig die besten Texte auswählen, filtern und mischen, wird die KI nicht nur besser in Englisch, sondern auch in Hindi, Arabisch und Chinesisch – und das alles mit deutlich weniger Energie und Kosten.

Es ist der Unterschied zwischen einem Koch, der alles zufällig probiert, und einem Sternekoch, der nur die besten Zutaten verwendet. Das Ergebnis schmeckt einfach besser, egal in welcher Sprache man bestellt.

ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

Das große Problem: Ein ungleicher Kuchen

Die neue Erkenntnis: Es liegt nicht am Kopf, sondern am Essen

Die drei wichtigsten Entdeckungen (mit Analogien)

1. Gutes Englisch hilft auch den anderen Sprachen

2. Jede Sprache braucht ihre eigene Küche

3. Übersetzen ist gut, aber nur mit Qualitätskontrolle

Das Ergebnis: Mehr Leistung mit weniger Aufwand

Fazit: Qualität vor Quantität

Titel: UberWeb: Erkenntnisse aus der mehrsprachigen Kuratierung für einen 20-Billionen-Token-Datensatz

1. Problemstellung

2. Methodik

A. Datenbasis und Kuratierung

B. Experimentelle Setup

C. Evaluation

3. Wichtige Beiträge und Erkenntnisse

1. Cross-lingualer Transfer verbessert sich mit Datenqualität

2. Sprachspezifische Kuratierung ist unerlässlich

3. Qualität der Quelldaten bei Übersetzungen

4. Recheneffizienz und neue Pareto-Grenze

4. Signifikanz und Fazit

ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

Das große Problem: Ein ungleicher Kuchen

Die neue Erkenntnis: Es liegt nicht am Kopf, sondern am Essen

Die drei wichtigsten Entdeckungen (mit Analogien)

1. Gutes Englisch hilft auch den anderen Sprachen

2. Jede Sprache braucht ihre eigene Küche

3. Übersetzen ist gut, aber nur mit Qualitätskontrolle

Das Ergebnis: Mehr Leistung mit weniger Aufwand

Fazit: Qualität vor Quantität

Titel: UberWeb: Erkenntnisse aus der mehrsprachigen Kuratierung für einen 20-Billionen-Token-Datensatz

1. Problemstellung

2. Methodik

A. Datenbasis und Kuratierung

B. Experimentelle Setup

C. Evaluation

3. Wichtige Beiträge und Erkenntnisse

1. Cross-lingualer Transfer verbessert sich mit Datenqualität

2. Sprachspezifische Kuratierung ist unerlässlich

3. Qualität der Quelldaten bei Übersetzungen

4. Recheneffizienz und neue Pareto-Grenze

4. Signifikanz und Fazit

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank