La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

María Grandury, Javier Aula-Blasco, Júlia Falcão, Clémentine Fourrier, Miguel González, Gonzalo Martínez, Gonzalo Santamaría, Rodrigo Agerri, Nuria Aldama, Luis Chiruzzo, Javier Conde, Helena Gómez, Marta Guerrero, Guido Ivetta, Natalia López, Flor Miriam Plaza-del-Arco, María Teresa Martín-Valdivia, Helena Montoro, Carmen Muñoz, Pedro Reviriego, Leire Rosado, Alejandro Vaca, María Estrella Vallecillo-Rodríguez, Jorge Vallego, Irune Zubiaga

Publié 2026-03-06

📖 4 min de lecture☕ Lecture pause café

Voir sur arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous organisez un grand tournoi de cuisine pour évaluer les meilleurs chefs du monde. Jusqu'à présent, la plupart des compétitions se concentraient uniquement sur la cuisine française ou italienne, car c'est là que se trouvaient les meilleurs livres de recettes et les juges les plus connus.

Mais que se passe-t-il pour les cuisines espagnoles, catalanes, basques ou galiciennes ? Si vous testez un chef avec des ingrédients qu'il ne connaît pas bien, ou si vous lui donnez des recettes traduites mot à mot depuis l'anglais, vous ne saurez jamais s'il est vraiment talentueux ou s'il a juste de la chance.

C'est exactement le problème que résout ce papier avec LA LEADERBOARD.

Voici une explication simple de ce projet, comme si on en parlait autour d'un café :

1. Le Problème : Le "Test de Traduction" ne suffit pas

Aujourd'hui, les intelligences artificielles (les "LLM") sont comme des étudiants très brillants qui parlent beaucoup de langues. Mais pour les tester, on utilise souvent des examens créés en anglais et traduits automatiquement dans d'autres langues.

L'analogie : C'est comme demander à un expert de la cuisine basque de cuisiner un plat traditionnel en utilisant une recette traduite par Google depuis l'anglais. Le résultat sera bizarre, sans âme, et ne reflétera pas sa vraie compétence. De plus, ces tests ignorent souvent les nuances culturelles (les blagues, les expressions locales, les lois spécifiques).

2. La Solution : Un "Olympiade" pour l'Hispanophonie

Les auteurs ont créé LA LEADERBOARD, le premier classement (leaderboard) ouvert et gratuit spécifiquement pour évaluer ces intelligences artificielles sur les langues d'Espagne et d'Amérique latine.

Ce n'est pas juste l'espagnol : Ils ne se contentent pas de l'espagnol standard. Ils incluent le catalan, le basque et le galicien, ainsi que les différentes façons de parler l'espagnol (en Argentine, au Mexique, en Espagne, etc.).
La méthode : Au lieu de traduire des tests existants, ils ont demandé à des chercheurs locaux de créer ou de fournir des exercices originaux dans ces langues. C'est comme si on demandait aux chefs locaux de créer leurs propres épreuves de cuisine pour juger leurs pairs.

3. Comment ça marche ? (Le Concours)

Imaginez une immense salle de sport où 50 robots (les modèles d'IA) s'affrontent sur 66 épreuves différentes.

Les épreuves : Ce ne sont pas juste des questions de culture générale. Il y a des tests de logique, de compréhension de textes médicaux, de droit, de résumé d'articles de presse, et même de détection de blagues ou de fausses nouvelles.
Les participants : Ils ont testé des géants de la tech (comme ceux de Meta ou Google) mais aussi des modèles créés spécifiquement pour l'Europe et l'Amérique latine par des chercheurs locaux.

4. Les Résultats Intéressants

Le tournoi a révélé quelques surprises :

Les géants dominent, mais... Les modèles géants (comme Gemma ou Llama) sont très forts, mais ils ne sont pas toujours les meilleurs dans toutes les langues.
Les champions locaux : Certains modèles créés spécifiquement pour ces langues (comme Salamandra ou EuroLLM) se débrouillent étonnamment bien, surtout pour les langues moins parlées comme le basque ou le galicien.
Le coût écologique : Le papier a aussi mesuré l'énergie nécessaire pour ce tournoi. C'est comme calculer l'électricité consommée par tous les fourneaux du concours. Ils ont montré qu'on peut obtenir de bons résultats sans brûler des millions de watts, en étant plus intelligents sur la façon de poser les questions.

5. Pourquoi c'est important pour tout le monde ?

Ce projet est une révolution pour deux raisons :

Équité : Il permet de voir quelles IA sont vraiment capables de comprendre la culture et la langue d'un pays, et pas juste de traduire des mots. Cela aide à créer des assistants virtuels qui ne font pas de faux pas culturels.
Transparence : Tout est ouvert. N'importe qui peut voir les résultats, télécharger les tests et même proposer son propre robot pour le prochain tournoi. C'est une communauté qui se construit ensemble, et non pas un secret gardé par une seule grande entreprise.

En résumé :
Ce papier dit : "Arrêtons de juger tout le monde avec les mêmes règles anglaises. Créons nos propres règles, dans nos propres langues, pour que nos intelligences artificielles soient vraiment utiles à nos communautés." C'est un pas de géant vers une IA plus humaine, plus juste et plus proche de la réalité de nos vies.

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

1. Le Problème : Le "Test de Traduction" ne suffit pas

2. La Solution : Un "Olympiade" pour l'Hispanophonie

3. Comment ça marche ? (Le Concours)

4. Les Résultats Intéressants

5. Pourquoi c'est important pour tout le monde ?

1. Problématique et Contexte

2. Méthodologie

Collecte et Composition des Données

Configuration d'Évaluation et Efficacité

3. Contributions Clés

4. Résultats Principaux

5. Signification et Impact

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

1. Le Problème : Le "Test de Traduction" ne suffit pas

2. La Solution : Un "Olympiade" pour l'Hispanophonie

3. Comment ça marche ? (Le Concours)

4. Les Résultats Intéressants

5. Pourquoi c'est important pour tout le monde ?

1. Problématique et Contexte

2. Méthodologie

Collecte et Composition des Données

Configuration d'Évaluation et Efficacité

3. Contributions Clés

4. Résultats Principaux

5. Signification et Impact

Articles similaires

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers