La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

Dit paper introduceert La Leaderboard, het eerste open-source platform dat generatieve grote taalmodellen evalueert op basis van de linguïstische en culturele diversiteit van het Spaans, inclusief variëteiten uit Spanje en Latijns-Amerika en talen zoals Baskisch, Catalaans en Galicisch.

María Grandury, Javier Aula-Blasco, Júlia Falcão, Clémentine Fourrier, Miguel González, Gonzalo Martínez, Gonzalo Santamaría, Rodrigo Agerri, Nuria Aldama, Luis Chiruzzo, Javier Conde, Helena Gómez, Marta Guerrero, Guido Ivetta, Natalia López, Flor Miriam Plaza-del-Arco, María Teresa Martín-Valdivia, Helena Montoro, Carmen Muñoz, Pedro Reviriego, Leire Rosado, Alejandro Vaca, María Estrella Vallecillo-Rodríguez, Jorge Vallego, Irune Zubiaga

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote, internationale schoolwedstrijd hebt voor slimme computers (AI). Tot nu toe waren de meeste proefvragen in deze wedstrijd alleen in het Engels. Dat is alsof je alleen maar meet hoe goed een atleet kan rennen op een specifiek type asfalt, terwijl we vergeten zijn dat er ook modder, zand en ijspaden zijn waar mensen ook lopen.

Deze paper introduceert LA LEADERBOARD, een nieuwe, openbare ranglijst die speciaal is ontworpen om te kijken hoe goed deze slimme computers zijn in Spaans en de talen van Spanje en Latijns-Amerika (zoals Catalaans, Baskisch en Galicisch).

Hier is een uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Engelse Bril"

Tot nu toe werden AI-modellen getest met vragen die vaak vertaald waren vanuit het Engels.

  • De Analogie: Stel je voor dat je een Italiaanse kok wilt testen op zijn pizza-koken, maar je geeft hem een recept dat eerst in het Engels is vertaald en dan weer terug naar het Italiaans. De vertaling is misschien wel goed, maar de smaak (de cultuur, de nuances, de grappen) is vaak verdwenen.
  • Het Resultaat: De AI's leken slim, maar ze begrepen de echte cultuur van Spaanssprekende mensen niet goed. Ze konden bijvoorbeeld niet goed begrijpen hoe een grap in Argentinië anders is dan in Spanje.

2. De Oplossing: Een Echte "Spaans-School"

De auteurs van dit paper hebben een nieuwe ranglijst gebouwd met 66 verschillende proefvragen (datasets).

  • De Vergelijking: In plaats van één groot examen in het Engels, hebben ze 66 kleine, specifieke toetsen gemaakt. Sommige vragen gaan over juridische zaken, andere over medische diagnoses, weer andere over humor of het begrijpen van grappen.
  • De Belangrijkste Regel: Alle vragen zijn gemaakt door moedertaalsprekers. Het is alsof je de examencommissie niet uit een ander land haalt, maar uit de buurt zelf. Zo weten ze precies welke woorden je gebruikt in Mexico versus in Spanje, en welke grappen echt grappig zijn.

3. De Deelnemers: 50 Slimme Computers

Ze hebben 50 verschillende AI-modellen op deze nieuwe ranglijst getest.

  • De Uitslag: Net als bij een sportwedstrijd zie je dat sommige modellen (zoals Gemma en Llama) overal goed zijn, maar dat er ook modellen zijn die specifiek voor deze regio's zijn gemaakt (zoals Salamandra en EuroLLM) en daar verrassend goed scoren.
  • De Les: Het blijkt dat een model dat is getraind op een enorme hoeveelheid data (breed maar ondiep) soms beter presteert dan een model dat alleen op Spaans is getraind, maar dat modellen die specifiek voor de lokale cultuur zijn gemaakt, wel de beste "smaak" hebben.

4. De Groene Rekening: Minder Energie, Meer Wijsheid

Een heel belangrijk punt in dit paper is dat ze niet alleen kijken naar hoe slim de AI is, maar ook naar hoeveel energie het kost om die test te doen.

  • De Analogie: Veel onderzoeken gebruiken een "grote hamer" om een "nagel" te slaan. Ze gebruiken 10 voorbeelden om een vraag te beantwoorden, terwijl 2 voorbeelden vaak genoeg zijn. Dat is alsof je een vrachtwagen huurt om een postzegel te bezorgen; het werkt, maar het kost onnodig veel brandstof.
  • De Innovatie: De makers van LA LEADERBOARD hebben besloten om minder voorbeelden te gebruiken in hun tests. Dit bespaart enorm veel stroom en CO2-uitstoot. Ze zeggen: "Laten we slim testen in plaats van zwaar testen."

5. Een Gemeenschapsproject

Dit is geen project van één groot bedrijf, maar een gemeenschapsinitiatief.

  • De Vergelijking: Het is alsof een hele stad samenkomt om een park te bouwen. Onderzoekers, bedrijven en vrijwilligers hebben allemaal hun eigen "bloemen" (datasets) bijgedragen.
  • Het Doel: Ze willen dat andere talengemeenschappen (zoals Nederlanders, Fransen of Brazilianen) hetzelfde doen. Ze delen hun blauwdrukken zodat iedereen zijn eigen lokale AI-ranglijst kan bouwen.

Samenvattend

LA LEADERBOARD is als een nieuwe, eerlijke sportwedstrijd voor AI.

  1. Het gebruikt echte, lokale vragen in plaats van vertaalde Engelse vragen.
  2. Het test 50 verschillende AI's op hun kennis van Spaans en de talen van Spanje/Latijns-Amerika.
  3. Het doet dit op een milieuvriendelijke manier door minder rekenkracht te verspillen.
  4. Het is gratis en open, zodat iedereen kan zien welke AI het beste is voor onze cultuur.

Het doel is simpel: zorgen dat de slimme computers van de toekomst niet alleen Engels spreken, maar ook echt begrijpen wat het betekent om Spaans te spreken.