La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

María Grandury, Javier Aula-Blasco, Júlia Falcão, Clémentine Fourrier, Miguel González, Gonzalo Martínez, Gonzalo Santamaría, Rodrigo Agerri, Nuria Aldama, Luis Chiruzzo, Javier Conde, Helena Gómez, Marta Guerrero, Guido Ivetta, Natalia López, Flor Miriam Plaza-del-Arco, María Teresa Martín-Valdivia, Helena Montoro, Carmen Muñoz, Pedro Reviriego, Leire Rosado, Alejandro Vaca, María Estrella Vallecillo-Rodríguez, Jorge Vallego, Irune Zubiaga

Publicado 2026-03-06

📖 4 min de leitura☕ Leitura rápida

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que o mundo da Inteligência Artificial (IA) é como uma grande escola de culinária. Até hoje, os chefes mais famosos (os modelos de IA) eram treinados quase exclusivamente com receitas em inglês. Eles eram excelentes em fazer "hambúrgueres" e "pizza" (tarefas em inglês), mas quando alguém pedia um "feijoada" ou um "bacalhau" (tarefas em português, espanhol, basco, etc.), eles muitas vezes cozinhavam algo estranho, sem sabor ou que não fazia sentido cultural.

O artigo que você leu apresenta o "LA LEADERBOARD", que é como um novo e grande festival gastronômico criado especificamente para celebrar a diversidade da língua espanhola e das línguas da Península Ibérica e da América Latina.

Aqui está a explicação do que eles fizeram, usando analogias simples:

1. O Problema: O "Menu" era muito limitado

Antes deste projeto, existiam listas de classificação (leaderboards) para testar IAs, mas elas eram como menus de restaurante que só tinham pratos em inglês. Mesmo quando havia pratos em espanhol, muitas vezes eram apenas traduções automáticas de receitas americanas.

O resultado: A IA podia falar o idioma, mas não entendia a cultura. Ela não sabia que em alguns lugares de Espanha se usa uma palavra e no México outra, ou que o humor e as referências históricas são diferentes. Era como tentar explicar uma piada brasileira traduzindo palavra por palavra para um japonês: a graça se perde.

2. A Solução: O "Festival da Diversidade"

Os autores criaram o LA LEADERBOARD. Pense nele como uma competição de chefs onde o desafio é cozinhar para 66 tipos diferentes de comensais:

Falantes de espanhol (de vários países: Espanha, México, Argentina, Chile, Uruguai).
Falantes de Catalão, Basco e Galego (línguas oficiais da Espanha que são muito diferentes do espanhol, como o Basco, que é um "idioma isolado", quase como se fosse de outro planeta).

Eles reuniram 66 "testes de sabor" (conjuntos de dados) criados por especialistas nativos. Não foram apenas traduções de robôs; foram receitas feitas por humanos que conhecem a cultura.

3. A Metodologia: Como eles testaram?

Para não gastar energia demais (o que é ruim para o meio ambiente) e para ser justo, eles mudaram a forma de testar:

Menos "Dicas" (Few-Shot): Antigamente, para testar uma IA, mostrávamos 5 exemplos de como fazer a tarefa antes de pedir a resposta. Eles descobriram que, para línguas como o Basco ou o Galego, dar muitas dicas pode confundir a IA ou viciar o teste. Então, eles usaram menos exemplos, como se dissessem ao chef: "Aqui está o prato, tente fazer sozinho, sem ler o livro de receitas antes". Isso torna o teste mais honesto e rápido.
Transparência: Tudo é aberto. Qualquer pessoa pode ver como os testes foram feitos, quais modelos participaram e quem ganhou. É como ter a receita do prato exposta na vitrine do restaurante.

4. Os Resultados: Quem cozinhou melhor?

Eles testaram 50 modelos de IA diferentes. Os resultados foram reveladores:

Os Gigantes: Modelos gigantes como o Gemma-2 e o Llama-3 (criados por grandes empresas de tecnologia) ainda são muito fortes, como chefs com equipamentos de última geração.
Os Especialistas: Modelos menores, mas feitos especificamente para a Europa e para línguas locais (como o Salamandra e o EuroLLM), mostraram que, às vezes, um chef que conhece a região e usa ingredientes locais faz um prato melhor do que um chef famoso que usa ingredientes genéricos.
O Custo: Eles também mediram quanto "gás" (energia elétrica) cada modelo gastou para cozinhar. Descobriram que modelos maiores gastam muito mais energia, gerando mais "fumaça" (CO2).

5. O Futuro: A Cozinha está se abrindo

O projeto não parou por aí. Eles querem:

Incluir línguas indígenas da América Latina (como Guarani e Nahuatl), que são como "ervas raras" que ainda não foram cultivadas na cozinha da IA.
Criar mais testes para ver se a IA entende a cultura local, e não apenas a gramática.
Convidar mais pessoas para ajudar a criar essa lista, transformando-a em um projeto comunitário.

Resumo Final

O LA LEADERBOARD é como um espelho que a comunidade de língua espanhola finalmente colocou na frente da Inteligência Artificial. Ele diz: "Não queremos apenas que você fale nosso idioma; queremos que você entenda nossa cultura, nossas piadas, nossas leis e nossa história."

É um passo gigante para garantir que, no futuro, quando você pedir ajuda a uma IA em espanhol, basco ou catalão, ela não soe como um robô traduzindo do inglês, mas sim como um vizinho que realmente entende de quem você está falando.

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

1. O Problema: O "Menu" era muito limitado

2. A Solução: O "Festival da Diversidade"

3. A Metodologia: Como eles testaram?

4. Os Resultados: Quem cozinhou melhor?

5. O Futuro: A Cozinha está se abrindo

Resumo Final

1. Problema e Motivação

2. Metodologia

Coleta de Dados e Datasets

Configuração de Avaliação

Infraestrutura

3. Principais Contribuições

4. Resultados e Análise

5. Significado e Conclusão

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

1. O Problema: O "Menu" era muito limitado

2. A Solução: O "Festival da Diversidade"

3. A Metodologia: Como eles testaram?

4. Os Resultados: Quem cozinhou melhor?

5. O Futuro: A Cozinha está se abrindo

Resumo Final

1. Problema e Motivação

2. Metodologia

Coleta de Dados e Datasets

Configuração de Avaliação

Infraestrutura

3. Principais Contribuições

4. Resultados e Análise

5. Significado e Conclusão

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers