La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

María Grandury, Javier Aula-Blasco, Júlia Falcão, Clémentine Fourrier, Miguel González, Gonzalo Martínez, Gonzalo Santamaría, Rodrigo Agerri, Nuria Aldama, Luis Chiruzzo, Javier Conde, Helena Gómez, Marta Guerrero, Guido Ivetta, Natalia López, Flor Miriam Plaza-del-Arco, María Teresa Martín-Valdivia, Helena Montoro, Carmen Muñoz, Pedro Reviriego, Leire Rosado, Alejandro Vaca, María Estrella Vallecillo-Rodríguez, Jorge Vallego, Irune Zubiaga

Veröffentlicht 2026-03-06

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, die Welt der Künstlichen Intelligenz (KI) ist ein riesiges, globales Fußballturnier. Bisher gab es für dieses Turnier nur eine einzige, sehr strenge Liga: die englischsprachige. Die besten Spieler (die KI-Modelle) wurden nur dort getestet, und alle anderen Sprachen wurden ignoriert oder nur als „Übersetzungen" behandelt, die oft den Charme und die Eigenheiten der Originalsprache verloren haben.

Das Papier „La Leaderboard" (die Spanische Rangliste) ist wie die Gründung einer völlig neuen, fairen Liga speziell für die spanischsprachige Welt. Hier geht es nicht nur um Spanien, sondern um die gesamte spanischsprachige Gemeinschaft – von Madrid über Mexiko bis nach Argentinien und Uruguay.

Hier ist die Erklärung, wie ein einfaches, aber geniales Konzept funktioniert:

1. Das Problem: Einseitige Übersetzungen

Stellen Sie sich vor, Sie wollen einen spanischen Dichter bewerten. Wenn Sie ihn nur auf englische Gedichte testen, die jemand maschinell übersetzt hat, verpassen Sie den ganzen Reiz, den Rhythmus und die kulturellen Nuancen. Das war bisher das Problem bei KI-Modellen für Spanisch. Die Tests waren oft wie „Fotokopien" englischer Tests – sie sahen ähnlich aus, fühlten sich aber falsch an.

Die Lösung: „La Leaderboard" hat keine Kopien gemacht. Stattdessen haben sie 66 eigene Prüfungen (Datensätze) gesammelt und erstellt. Diese sind wie ein riesiges Buffet mit echten, regionalen Spezialitäten:

Die Sprachen: Es gibt Tests für Spanisch (in verschiedenen Dialekten), Katalanisch, Baskisch und Galicisch.
Die Aufgaben: Es geht nicht nur um „Wer ist der Präsident?". Die KI muss auch Witze verstehen (HumorQA), medizinische Diagnosen stellen (ClinDiagnosES), juristische Fragen klären (SpaLawEx) oder zusammenfassen, was in den Nachrichten passiert.

2. Die Methode: Der faire Vergleich

Stellen Sie sich vor, Sie laden 50 verschiedene KI-Modelle zu einem Wettbewerb ein. Um sicherzustellen, dass niemand durch Zufall gewinnt oder durch zu viele „Spickzettel" (Beispiele vor der Aufgabe) begünstigt wird, haben die Macher eine clevere Regel eingeführt:

Weniger Spickzettel: Früher gab es oft 5 oder mehr Beispiele, die der KI zeigten, wie sie antworten soll. Das verbraucht aber viel Rechenleistung und Energie. „La Leaderboard" sagt: „Wir geben nur wenige oder gar keine Beispiele." Das zwingt die KI, ihr echtes Wissen zu nutzen, statt nur Muster zu kopieren. Es ist wie ein Prüfungssystem, das prüft, ob der Schüler den Stoff wirklich verstanden hat, statt nur die Lösungen auswendig gelernt zu haben.
Umweltschutz: Da weniger Rechenleistung nötig ist, wird weniger Strom verbraucht. Das ist wie der Unterschied zwischen einem riesigen Lastwagen, der nur ein Paket bringt, und einem kleinen E-Bike, das dasselbe Ziel erreicht.

3. Die Ergebnisse: Wer ist der Champion?

Nachdem sie 50 Modelle getestet haben, kamen interessante Ergebnisse heraus:

Die Schwergewichte: Modelle wie Gemma-2, Llama-3.1 und Qwen schneiden sehr gut ab. Sie sind wie die erfahrenen Weltmeister, die in fast allen Disziplinen stark sind.
Die Spezialisten: Es gibt auch kleinere, spezialisierte Modelle (wie Salamandra oder EuroLLM), die zwar weniger Rechenpower haben, aber für bestimmte Sprachen (wie Baskisch oder Galicisch) überraschend gut abschneiden. Sie sind wie die lokalen Helden, die ihre Heimatregion perfekt kennen.
Die Energie-Falle: Die Studie zeigt auch, dass größere Modelle viel mehr Strom fressen. Ein riesiges Modell zu trainieren ist wie ein Marathon im Sommer – es kostet viel Energie. Manchmal ist ein kleineres, schlaueres Modell effizienter und umweltfreundlicher.

4. Das Ziel: Eine Gemeinschaft für alle

Das Wichtigste an diesem Projekt ist, dass es Open Source (offen für alle) ist.

Keine Geheimnisse: Jeder kann die Ergebnisse sehen, die Daten herunterladen und selbst Modelle testen.
Wachsende Familie: Das Projekt ist wie ein lebendiger Garten. Forscher aus ganz Lateinamerika und Spanien spenden neue „Pflanzen" (neue Datensätze), damit die Rangliste immer vielfältiger wird.
Zukunft: Sie planen, bald auch Tests für indigene Sprachen (wie Guarani oder Nahuatl) einzufügen, die bisher in der KI-Welt oft vergessen wurden.

Zusammenfassung in einem Satz

„La Leaderboard" ist wie ein riesiges, offenes Festmahl für die spanischsprachige KI-Welt, bei dem endlich die echten kulturellen und sprachlichen Besonderheiten gefeiert werden, statt nur englische Übersetzungen zu servieren – und das alles mit einem Blick auf den Umweltschutz.

Es ist ein Aufruf an alle: „Hört auf, nur auf Englisch zu denken. Die Welt ist bunt, und unsere KI sollte das auch sein."

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

1. Das Problem: Einseitige Übersetzungen

2. Die Methode: Der faire Vergleich

3. Die Ergebnisse: Wer ist der Champion?

4. Das Ziel: Eine Gemeinschaft für alle

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse und Analyse

5. Bedeutung und Ausblick

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

1. Das Problem: Einseitige Übersetzungen

2. Die Methode: Der faire Vergleich

3. Die Ergebnisse: Wer ist der Champion?

4. Das Ziel: Eine Gemeinschaft für alle

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse und Analyse

5. Bedeutung und Ausblick

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers