La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

本文介绍了"La Leaderboard",这是首个专注于评估生成式大语言模型在西班牙及拉丁美洲多种语言及其变体(包括巴斯克语、加泰罗尼亚语、加利西亚语和不同西班牙语变体)能力的开源社区驱动项目,旨在通过整合 66 个数据集和 50 个模型的评估结果,确立评估标准并推动西班牙语社区大语言模型的多样化发展。

María Grandury, Javier Aula-Blasco, Júlia Falcão, Clémentine Fourrier, Miguel González, Gonzalo Martínez, Gonzalo Santamaría, Rodrigo Agerri, Nuria Aldama, Luis Chiruzzo, Javier Conde, Helena Gómez, Marta Guerrero, Guido Ivetta, Natalia López, Flor Miriam Plaza-del-Arco, María Teresa Martín-Valdivia, Helena Montoro, Carmen Muñoz, Pedro Reviriego, Leire Rosado, Alejandro Vaca, María Estrella Vallecillo-Rodríguez, Jorge Vallego, Irune Zubiaga

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LA LEADERBOARD 的新项目。为了让你轻松理解,我们可以把它想象成一场专门为“西班牙语世界”举办的超级语言模型奥林匹克运动会

1. 为什么要举办这场“运动会”?(背景与动机)

想象一下,现在的 AI 大模型(LLM)就像是一群刚毕业的天才学生。目前,全球最流行的“考试”(评测榜单)主要是用英语出的题。

  • 问题所在:这就好比让一个精通中文、西班牙语和巴斯克语的学生,只用英语试卷来考试。虽然他能考几分,但试卷完全没体现他真正的语言天赋,也没考虑到他背后的文化背景(比如西班牙的加泰罗尼亚文化或拉美的墨西哥方言)。
  • 现状:现有的榜单要么只关注英语,要么把英语题目简单翻译一下。但这就像把“红烧肉”翻译成“红烧肉”的英文,味道全变了,甚至可能因为翻译错误而变得难以下咽。
  • 目标:西班牙语是世界上使用人数第二多的语言,拥有 6 亿多使用者,且文化极其丰富(西班牙有四种官方语言,拉美还有各种原住民语言的影响)。我们需要一个专属的、原汁原味的考场,来看看这些 AI 到底能不能真正听懂并讲好这些语言。

2. LA LEADERBOARD 是什么?(核心内容)

LA LEADERBOARD 就是那个专属考场。

  • 它是谁建的? 这不是某一家大公司的独角戏,而是一场社区大联欢。由 13 个研究团队、大学和公司(如 Hugging Face、巴塞罗那超级计算中心等)联手打造。
  • 考什么? 它收集了 66 套不同的试卷(数据集),涵盖了:
    • 语言:西班牙语(及其在西班牙、墨西哥、阿根廷等地的变体)、加泰罗尼亚语、巴斯克语、加利西亚语。
    • 题型:从简单的“常识问答”、“数学题”,到复杂的“法律分析”、“医疗诊断”、“写新闻摘要”,甚至包括“识别仇恨言论”和“讲笑话”。
  • 谁在参赛? 目前已经有 50 个 AI 模型 参加了测试,包括 Google 的 Gemma、Meta 的 Llama、Qwen(通义千问)等知名选手,也有专门为欧洲语言设计的模型(如 Salamandra, EuroLLM)。

3. 这场考试有什么特别之处?(创新点)

为了让考试更公平、更环保,组织者搞了几个“新规矩”:

  • 拒绝“填鸭式”提示(Few-shot)
    • 传统做法:以前考试时,为了让 AI 猜对答案,考官会给它看很多例题(比如给 5 个例子让它模仿)。这就像给考生开小灶,不仅浪费电,还让结果不真实。
    • LA 的做法:他们大幅减少了例题数量,甚至很多题目直接让 AI“裸考”(0-shot)。这就像真正的考试,不给你看参考答案,测测你真正的实力。这样既省了电(环保),又让结果更可信。
  • 题目是“土生土长”的
    • 他们优先使用当地人原创的题目,或者由人类专家精心翻译的题目,坚决拒绝机器自动翻译。这保证了题目里的“梗”、文化隐喻和语言习惯是地道的,而不是生硬的翻译腔。
  • 透明公开
    • 所有题目、评分标准、甚至 AI 考试时用了多少电,全部公开。任何人都可以来提交自己的 AI 模型参加排名。

4. 考试结果怎么样?(主要发现)

经过对 50 个模型的“体检”,发现了一些有趣的现象:

  • 谁是冠军? 目前表现最好的是 Gemma-2-9BLlama-3.1-8B 等模型。它们就像那些“全科状元”,在大多数语言上都很强。
  • 谁是“偏科生”? 有些模型(如 SalamandraEuroLLM)虽然总分数不是最高,但在特定语言(如巴斯克语或加利西亚语)上表现惊人。这就像有的学生虽然总分一般,但擅长冷门学科,非常有价值。
  • 大模型 vs. 小模型:通常模型越大(参数越多),成绩越好。但也发现,有些经过特殊训练的“小个子”模型(15 亿参数左右),在特定任务上也能打败“大块头”,性价比极高。
  • 能源消耗:考试也记录了每个模型“吃”了多少电。结果发现,大模型确实更费电,但有些模型虽然大,却因为设计得好,反而比某些小模型更省电。

5. 这对我们意味着什么?(未来展望)

LA LEADERBOARD 不仅仅是一个排行榜,它是一个“指南针”和“孵化器”。

  • 指南针:它告诉开发者和企业,现在的 AI 在西班牙语世界里哪里做得好,哪里还有缺陷(比如在医疗或法律领域还不够聪明)。
  • 孵化器:它鼓励大家不要只盯着英语模型,而是要开发懂文化、懂方言的 AI。
  • 未来计划:他们计划继续扩大范围,把拉美更多的原住民语言(如瓜拉尼语、纳瓦特尔语)也加进来,让这场“运动会”真正覆盖整个西班牙语世界。

总结

简单来说,LA LEADERBOARD 就是给西班牙语世界的 AI 们建的一个“公平竞技场”。它不再让 AI 只用英语思维来思考,而是用真实的语言、真实的文化和真实的场景来考验它们。它的目的是确保未来的 AI 不仅能“说话”,还能真正“懂”这 6 亿多使用者的文化和情感。