TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache und bildhafte Erklärung des Papers „TildeOpen LLM" auf Deutsch:

🌍 Das Problem: Ein unfares Sprach-Orchester

Stellen Sie sich vor, Sie haben ein riesiges Orchester, das eine Symphonie spielen soll. Das Problem ist: Die meisten Musiker sprechen nur Englisch, und die Notenbücher für Englisch sind unendlich dick. Die Notenbücher für andere europäische Sprachen (wie Lettisch, Estnisch oder Slowakisch) sind hingegen winzig klein oder fast leer.

Wenn man ein solches Orchester (eine Künstliche Intelligenz) nur mit diesen Noten trainiert, wird es Englisch perfekt spielen, aber bei den anderen Sprachen stottern, Fehler machen oder gar nicht erst mitmachen. Die meisten großen KI-Modelle heute sind genau so: Sie sind „englisch-zentriert" und behandeln andere Sprachen wie Nachzügler.

🛠️ Die Lösung: TildeOpen LLM – Der faire Dirigent

Das Team von Tilde (aus Lettland) hat eine neue KI gebaut, die 34 europäische Sprachen gleichberechtigt behandelt. Sie nennen ihr Modell TildeOpen.

Statt einfach nur mehr Daten zu sammeln (was teuer ist und oft nichts ändert), haben sie zwei clevere Tricks angewendet:

1. Der „Verstärker-Trick" (Upsampling)

Stellen Sie sich vor, ein Schüler hat nur ein kleines Buch über die lettische Sprache, aber ein riesiges Buch über Englisch. Um den Schüler fair zu behandeln, kopieren sie das kleine lettische Buch nicht einfach, sondern vergrößern es künstlich. Sie zeigen dem Modell die lettischen Sätze öfter, damit es sie genauso gut lernt wie die englischen.

Der Effekt: Das Modell lernt die „kleinen" Sprachen so intensiv, als wären sie genauso groß wie die großen.

2. Der „Schulplan-Trick" (Curriculum Learning)

Das ist der genialste Teil. Normalerweise lernt man eine Sprache, indem man sie einfach so oft wie möglich liest. Tilde hat aber einen speziellen Lernplan entwickelt:

Phase 1 (Der Anfang): Das Modell lernt alle Sprachen gleichmäßig. Es ist wie ein Grundkurs, bei dem jeder Schüler (jede Sprache) genau die gleiche Zeit bekommt, um sich vorzustellen.
Phase 2 (Die Mitte): Jetzt darf das Modell wieder „normal" lernen. Es bekommt viele Daten von den großen Sprachen (wie Englisch oder Deutsch), um sein Gesamtverständnis zu schärfen.
Phase 3 (Das Ende): Am Ende geht es wieder zurück zum Gleichgewicht. Das Modell wird noch einmal speziell auf die „kleinen" Sprachen trainiert, um sicherzustellen, dass sie am Ende des Kurses nicht vergessen wurden.

📉 Das Ergebnis: Weniger Fehler, mehr Qualität

Das Ergebnis ist beeindruckend:

Geringerer Aufwand: Das Modell wurde mit viel weniger Rechenleistung trainiert als andere große Modelle (nur 2 Billionen Wörter statt 4–6 Billionen).
Bessere Qualität: Bei Tests hat TildeOpen bei Sprachen wie Lettisch, Estnisch oder Slawischen Sprachen deutlich weniger Fehler gemacht als die Konkurrenz.
Der „Zehn-Fach"-Vorteil: Wenn menschliche Prüfer Texte verglichen haben, machte TildeOpen bis zu zehnmal weniger Fehler als andere führende Modelle (wie Gemma 2). Stellen Sie sich vor: Bei 100 Wörtern macht TildeOpen vielleicht nur einen Fehler, während andere fast zehn machen.

🛡️ Ein wichtiger Hinweis: Der „Schutzschild" gegen Propaganda

Ein besonders wichtiger Aspekt des Papers ist der Umgang mit russischen Daten.
Die Autoren haben festgestellt, dass das Internet voller russischer Propaganda und Falschinformationen ist, die oft automatisch generiert wurden, um KIs zu „vergiften".

Die Maßnahme: Sie haben russische Daten extrem streng gefiltert. Sie haben ganze Themenbereiche (wie Krieg, Geopolitik oder LGBT-Themen) aus den Trainingsdaten entfernt, weil diese in Russland staatlich zensiert oder manipuliert sind.
Das Ziel: Sie wollten verhindern, dass die KI lernt, dass Lügen oder Hassreden „normal" sind. Sie wollten ein Modell, das auf Fakten basiert und nicht auf staatlich gelenkter Desinformation.

🎓 Fazit für die Allgemeinheit

TildeOpen ist wie ein neues, faires Schulsystem für Europas Sprachen.
Anstatt nur die „reichen" Sprachen (Englisch, Deutsch, Französisch) zu fördern, haben die Forscher einen cleveren Lehrplan entwickelt, der sicherstellt, dass auch die „armen" Sprachen (wie die baltischen oder slawischen) eine echte Chance bekommen.

Sie zeigen damit: Man muss nicht unbedingt riesige Datenberge und unendliches Geld haben, um eine gute KI zu bauen. Man braucht vor allem kluge Daten-Auswahl und Gerechtigkeit beim Training. Und das Beste: Dieses Modell ist für alle kostenlos verfügbar!

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation" auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) leiden unter einer erheblichen Ungleichheit in der sprachlichen Repräsentation. Die Trainingsdaten werden von Englisch und wenigen hochressourcenstarken Sprachen dominiert, während viele europäische Sprachen, insbesondere aus dem baltischen, finno-ugrischen und slawischen Raum, unterrepräsentiert sind.

Datenungleichgewicht: Bei Skalierung der Modelle nimmt der relative Anteil nicht-englischer Daten weiter ab.
Leistungsgefälle: Bestehende Open-Weight-Modelle (z. B. EuroLLM, Llama 3) zeigen signifikant schlechtere Ergebnisse für Sprachen Mittel- und Osteuropas im Vergleich zu westeuropäischen Sprachen.
Qualitätsmängel: Bei der Generierung von Freitext weisen Mainstream-Modelle für diese Sprachen häufig linguistische Fehler auf (ca. ein Fehler pro sechs Wörter).
Souveränität: Dies gefährdet die KI-Souveränität Europas, da fast 170 Millionen Europäer ihre Muttersprache nur unzureichend in bestehenden Basismodellen vertreten sehen.

2. Methodik und Architektur

Modellarchitektur:

TildeOpen LLM: Ein 30-Milliarden-Parameter-Dense-Decoder-Transformer, basierend auf der Llama-3-Architektur.
Spezifikationen: 60 Schichten, Modell-Dimension von 6144, Group Query Attention (GQA) mit 8 Key-Value- und 48 Query-Heads, RoPE (Rotary Position Embeddings) mit $\theta=200.000$ .
Training: Trainiert auf 768 AMD MI250x GPUs (LUMI Supercomputer) mit ca. 1,5 Millionen GPU-Stunden.

Tokenisierung (Schlüsselinnovation):

Ziel: Gleichberechtigte Tokenisierung für 34 europäische Sprachen (17 Fokussprachen + 17 weitere).
Problem: Herkömmliche Tokenizer kodieren Low-Resource-Sprachen ineffizient (mehr Tokens pro Wort), was Inference-Kosten erhöht und den Kontext verringert.
Lösung: Iterative Anpassung der Datenverhältnisse während des Tokenizer-Trainings (basierend auf 4,38 Mrd. Bytes). Das Ziel war, dass parallele Übersetzungen (FLORES 200) in allen Fokussprachen eine ähnliche Token-Anzahl ergeben.
Vokabular: 131.072 Tokens (SentencePiece mit BPE).

Datenkuratierung und Filterung:

Quellen: MADLAD-400, HPLT, Cultura-X, FineWeb, Common Pile, The Stack (Code).
Filterung:
- URL-Filterung (Spam, Pornografie, bekannte Desinformationsquellen).
- Deduplizierung (exakte und ähnliche Zeilenentfernung mittels Onion-Tool).
- Heuristische Filter (Punktuation, Großbuchstaben, Wortlängen).
- Propaganda-Filter (Russisch): Kritische Filterung russischer Daten durch Clustering (LDA) und Entfernung von Inhalten zu Geopolitik, Krieg und LGBT-Themen, um staatlich gelenkte Propaganda und einseitige Narrative zu vermeiden.

Curriculum Learning (Trainingsstrategie):
Um das Datenungleichgewicht trotz begrenzter Ressourcen (2 Billionen Tokens, deutlich weniger als bei vergleichbaren Modellen) auszugleichen, wurde ein dreiphasiger Ansatz gewählt:

Initiale Phase (7,5 %): Uniforme Verteilung aller Sprachen (150 Mrd. Tokens).
Intermediäre Phase (67,5 %): Natürliche Datenverteilung, um die Vielfalt und Menge für High-Resource-Sprachen zu maximieren (1,35 Bio. Tokens).
Finale Phase (25 %): Rückkehr zu einer uniformen Verteilung, um das Gleichgewicht wiederherzustellen (500 Mrd. Tokens).

Zusätzlich wurde Daten-Upsampling für Low-Resource-Sprachen um den Faktor bis zu 2,5 angewendet.

3. Hauptbeiträge

TildeOpen LLM: Ein vollständig offenes, gewichtete Basismodell (30B Parameter) für 34 europäische Sprachen, das speziell auf sprachliche Gerechtigkeit optimiert wurde.
Neue Tokenizer-Strategie: Nachweis, dass durch gezielte Datenanpassung eine faire Tokenisierung über verschiedene Sprachfamilien hinweg erreicht werden kann.
Curriculum-Learning-Ansatz: Demonstration, dass ein Wechsel zwischen uniformer und natürlicher Datenverteilung die Leistung für Low-Resource-Sprachen signifikant verbessert, ohne die Modellgröße zu erhöhen.
Propaganda-Filterung: Ein systematischer Ansatz zur Bereinigung von Trainingsdaten, um einseitige staatliche Narrative (insbesondere aus Russland) zu eliminieren.

4. Ergebnisse

Intrinsische Evaluation (Perplexität):

TildeOpen erreicht auf WMT24pp eine niedrigere Perplexität pro Zeichen als vergleichbare Modelle (EuroLLM, ALIA, Gemma 2) über alle Sprachfamilien hinweg.
Besonders starke Verbesserungen bei baltischen (+13,8 %), romanischen (+11,2 %) und finno-ugrischen (+11,2 %) Sprachen.

Benchmark-Leistung:

Sprachgenerierung & Verständnis: Übertrifft andere Modelle in MultiBLiMP (Grammatik) und Belebele (Leseverstehen).
Parametrisches Wissen: Leistung auf Augenhöhe mit Modellen, die mit 2–4,5-fach mehr Daten trainiert wurden (ARC, MMLU).
Menschliche Evaluation: Bei der linguistischen Fehleranalyse (Lettisch und Estnisch) produzierte TildeOpen bis zu 10-mal weniger Fehler pro 100 Wörter als Gemma 2 und signifikant weniger als EuroLLM.

Instruction-Tuning (Übersetzung):

Nach dem Fine-Tuning für Übersetzungsaufgaben (basierend auf einem eigenen 462M-Token-Datensatz) übertraf TildeOpen die instruierte Version von EuroLLM in allen getesteten Sprachpaaren (gemessen mit COMET), obwohl TildeOpen weniger Parameter hat.
Die Ergebnisse liegen näher an GPT-4.1 (ca. 60x größer) als an EuroLLM, was auf die Effizienz der Trainingsstrategie hindeutet.

5. Bedeutung und Fazit

Das Paper demonstriert, dass sorgfältige Datenkuratierung und ausgeklügelte Trainingsstrategien (Curriculum Learning, Upsampling, Tokenizer-Optimierung) die Qualität multilingualer Modelle für unterrepräsentierte Sprachen drastisch verbessern können, ohne die Modellgröße oder den Trainingsaufwand proportional zu erhöhen.

Effizienz: Das Modell wurde mit nur 2 Billionen Tokens trainiert (im Vergleich zu 4–6,7 Billionen bei Konkurrenten) und erzielt dennoch bessere oder gleichwertige Ergebnisse.
Sprachgerechtigkeit: Es adressiert aktiv das Problem der „linguistischen Kluft" in Europa und bietet eine robuste Alternative für Anwendungen in baltischen, slawischen und finno-ugrischen Sprachen.
Offenheit: Das Modell, die Tokenizer und die Trainingsdaten sind vollständig öffentlich auf HuggingFace verfügbar, was die Reproduzierbarkeit und Weiterentwicklung fördert.

Das Projekt unterstreicht, dass KI-Souveränität in Europa durch gezielte Investitionen in Datenqualität und faire Trainingsmethoden erreicht werden kann, anstatt einfach nur mehr Daten zu sammeln.

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

🌍 Das Problem: Ein unfares Sprach-Orchester

🛠️ Die Lösung: TildeOpen LLM – Der faire Dirigent

1. Der „Verstärker-Trick" (Upsampling)

2. Der „Schulplan-Trick" (Curriculum Learning)

📉 Das Ergebnis: Weniger Fehler, mehr Qualität

🛡️ Ein wichtiger Hinweis: Der „Schutzschild" gegen Propaganda

🎓 Fazit für die Allgemeinheit

1. Problemstellung

2. Methodik und Architektur

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models