TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation
Die Arbeit stellt TildeOpen LLM vor, ein 30-Milliarden-Parameter-Modell, das durch Curriculum-Learning und gezielte Datenkuratierung die Leistung für 34 europäische Sprachen, insbesondere für baltische, finno-ugrische und slawische Sprachen, verbessert und dabei eine deutlich gerechtere sprachliche Repräsentation bei begrenzten Rechenressourcen erreicht.