La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

O artigo apresenta a "La Leaderboard", a primeira plataforma de código aberto e comunitária que avalia modelos de linguagem generativos em diversas variedades do espanhol e línguas da Península Ibérica e da América Latina, estabelecendo um padrão de avaliação que prioriza a diversidade linguística e a sustentabilidade ambiental.

María Grandury, Javier Aula-Blasco, Júlia Falcão, Clémentine Fourrier, Miguel González, Gonzalo Martínez, Gonzalo Santamaría, Rodrigo Agerri, Nuria Aldama, Luis Chiruzzo, Javier Conde, Helena Gómez, Marta Guerrero, Guido Ivetta, Natalia López, Flor Miriam Plaza-del-Arco, María Teresa Martín-Valdivia, Helena Montoro, Carmen Muñoz, Pedro Reviriego, Leire Rosado, Alejandro Vaca, María Estrella Vallecillo-Rodríguez, Jorge Vallego, Irune Zubiaga

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que o mundo da Inteligência Artificial (IA) é como uma grande escola de culinária. Até hoje, os chefes mais famosos (os modelos de IA) eram treinados quase exclusivamente com receitas em inglês. Eles eram excelentes em fazer "hambúrgueres" e "pizza" (tarefas em inglês), mas quando alguém pedia um "feijoada" ou um "bacalhau" (tarefas em português, espanhol, basco, etc.), eles muitas vezes cozinhavam algo estranho, sem sabor ou que não fazia sentido cultural.

O artigo que você leu apresenta o "LA LEADERBOARD", que é como um novo e grande festival gastronômico criado especificamente para celebrar a diversidade da língua espanhola e das línguas da Península Ibérica e da América Latina.

Aqui está a explicação do que eles fizeram, usando analogias simples:

1. O Problema: O "Menu" era muito limitado

Antes deste projeto, existiam listas de classificação (leaderboards) para testar IAs, mas elas eram como menus de restaurante que só tinham pratos em inglês. Mesmo quando havia pratos em espanhol, muitas vezes eram apenas traduções automáticas de receitas americanas.

  • O resultado: A IA podia falar o idioma, mas não entendia a cultura. Ela não sabia que em alguns lugares de Espanha se usa uma palavra e no México outra, ou que o humor e as referências históricas são diferentes. Era como tentar explicar uma piada brasileira traduzindo palavra por palavra para um japonês: a graça se perde.

2. A Solução: O "Festival da Diversidade"

Os autores criaram o LA LEADERBOARD. Pense nele como uma competição de chefs onde o desafio é cozinhar para 66 tipos diferentes de comensais:

  • Falantes de espanhol (de vários países: Espanha, México, Argentina, Chile, Uruguai).
  • Falantes de Catalão, Basco e Galego (línguas oficiais da Espanha que são muito diferentes do espanhol, como o Basco, que é um "idioma isolado", quase como se fosse de outro planeta).

Eles reuniram 66 "testes de sabor" (conjuntos de dados) criados por especialistas nativos. Não foram apenas traduções de robôs; foram receitas feitas por humanos que conhecem a cultura.

3. A Metodologia: Como eles testaram?

Para não gastar energia demais (o que é ruim para o meio ambiente) e para ser justo, eles mudaram a forma de testar:

  • Menos "Dicas" (Few-Shot): Antigamente, para testar uma IA, mostrávamos 5 exemplos de como fazer a tarefa antes de pedir a resposta. Eles descobriram que, para línguas como o Basco ou o Galego, dar muitas dicas pode confundir a IA ou viciar o teste. Então, eles usaram menos exemplos, como se dissessem ao chef: "Aqui está o prato, tente fazer sozinho, sem ler o livro de receitas antes". Isso torna o teste mais honesto e rápido.
  • Transparência: Tudo é aberto. Qualquer pessoa pode ver como os testes foram feitos, quais modelos participaram e quem ganhou. É como ter a receita do prato exposta na vitrine do restaurante.

4. Os Resultados: Quem cozinhou melhor?

Eles testaram 50 modelos de IA diferentes. Os resultados foram reveladores:

  • Os Gigantes: Modelos gigantes como o Gemma-2 e o Llama-3 (criados por grandes empresas de tecnologia) ainda são muito fortes, como chefs com equipamentos de última geração.
  • Os Especialistas: Modelos menores, mas feitos especificamente para a Europa e para línguas locais (como o Salamandra e o EuroLLM), mostraram que, às vezes, um chef que conhece a região e usa ingredientes locais faz um prato melhor do que um chef famoso que usa ingredientes genéricos.
  • O Custo: Eles também mediram quanto "gás" (energia elétrica) cada modelo gastou para cozinhar. Descobriram que modelos maiores gastam muito mais energia, gerando mais "fumaça" (CO2).

5. O Futuro: A Cozinha está se abrindo

O projeto não parou por aí. Eles querem:

  • Incluir línguas indígenas da América Latina (como Guarani e Nahuatl), que são como "ervas raras" que ainda não foram cultivadas na cozinha da IA.
  • Criar mais testes para ver se a IA entende a cultura local, e não apenas a gramática.
  • Convidar mais pessoas para ajudar a criar essa lista, transformando-a em um projeto comunitário.

Resumo Final

O LA LEADERBOARD é como um espelho que a comunidade de língua espanhola finalmente colocou na frente da Inteligência Artificial. Ele diz: "Não queremos apenas que você fale nosso idioma; queremos que você entenda nossa cultura, nossas piadas, nossas leis e nossa história."

É um passo gigante para garantir que, no futuro, quando você pedir ajuda a uma IA em espanhol, basco ou catalão, ela não soe como um robô traduzindo do inglês, mas sim como um vizinho que realmente entende de quem você está falando.