María Grandury, Javier Aula-Blasco, Júlia Falcão, Clémentine Fourrier, Miguel González, Gonzalo Martínez, Gonzalo Santamaría, Rodrigo Agerri, Nuria Aldama, Luis Chiruzzo, Javier Conde, Helena Gómez, Marta Guerrero, Guido Ivetta, Natalia López, Flor Miriam Plaza-del-Arco, María Teresa Martín-Valdivia, Helena Montoro, Carmen Muñoz, Pedro Reviriego, Leire Rosado, Alejandro Vaca, María Estrella Vallecillo-Rodríguez, Jorge Vallego, Irune Zubiaga

发布于 2026-03-06

📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LA LEADERBOARD 的新项目。为了让你轻松理解，我们可以把它想象成一场专门为“西班牙语世界”举办的超级语言模型奥林匹克运动会。

1. 为什么要举办这场“运动会”？（背景与动机）

想象一下，现在的 AI 大模型（LLM）就像是一群刚毕业的天才学生。目前，全球最流行的“考试”（评测榜单）主要是用英语出的题。

问题所在：这就好比让一个精通中文、西班牙语和巴斯克语的学生，只用英语试卷来考试。虽然他能考几分，但试卷完全没体现他真正的语言天赋，也没考虑到他背后的文化背景（比如西班牙的加泰罗尼亚文化或拉美的墨西哥方言）。
现状：现有的榜单要么只关注英语，要么把英语题目简单翻译一下。但这就像把“红烧肉”翻译成“红烧肉”的英文，味道全变了，甚至可能因为翻译错误而变得难以下咽。
目标：西班牙语是世界上使用人数第二多的语言，拥有 6 亿多使用者，且文化极其丰富（西班牙有四种官方语言，拉美还有各种原住民语言的影响）。我们需要一个专属的、原汁原味的考场，来看看这些 AI 到底能不能真正听懂并讲好这些语言。

2. LA LEADERBOARD 是什么？（核心内容）

LA LEADERBOARD 就是那个专属考场。

它是谁建的？ 这不是某一家大公司的独角戏，而是一场社区大联欢。由 13 个研究团队、大学和公司（如 Hugging Face、巴塞罗那超级计算中心等）联手打造。
考什么？ 它收集了 66 套不同的试卷（数据集），涵盖了：
- 语言：西班牙语（及其在西班牙、墨西哥、阿根廷等地的变体）、加泰罗尼亚语、巴斯克语、加利西亚语。
- 题型：从简单的“常识问答”、“数学题”，到复杂的“法律分析”、“医疗诊断”、“写新闻摘要”，甚至包括“识别仇恨言论”和“讲笑话”。
谁在参赛？ 目前已经有 50 个 AI 模型 参加了测试，包括 Google 的 Gemma、Meta 的 Llama、Qwen（通义千问）等知名选手，也有专门为欧洲语言设计的模型（如 Salamandra, EuroLLM）。

3. 这场考试有什么特别之处？（创新点）

为了让考试更公平、更环保，组织者搞了几个“新规矩”：

拒绝“填鸭式”提示（Few-shot）：
- 传统做法：以前考试时，为了让 AI 猜对答案，考官会给它看很多例题（比如给 5 个例子让它模仿）。这就像给考生开小灶，不仅浪费电，还让结果不真实。
- LA 的做法：他们大幅减少了例题数量，甚至很多题目直接让 AI“裸考”（0-shot）。这就像真正的考试，不给你看参考答案，测测你真正的实力。这样既省了电（环保），又让结果更可信。
题目是“土生土长”的：
- 他们优先使用当地人原创的题目，或者由人类专家精心翻译的题目，坚决拒绝机器自动翻译。这保证了题目里的“梗”、文化隐喻和语言习惯是地道的，而不是生硬的翻译腔。
透明公开：
- 所有题目、评分标准、甚至 AI 考试时用了多少电，全部公开。任何人都可以来提交自己的 AI 模型参加排名。

4. 考试结果怎么样？（主要发现）

经过对 50 个模型的“体检”，发现了一些有趣的现象：

谁是冠军？ 目前表现最好的是 Gemma-2-9B 和 Llama-3.1-8B 等模型。它们就像那些“全科状元”，在大多数语言上都很强。
谁是“偏科生”？ 有些模型（如 Salamandra 和 EuroLLM）虽然总分数不是最高，但在特定语言（如巴斯克语或加利西亚语）上表现惊人。这就像有的学生虽然总分一般，但擅长冷门学科，非常有价值。
大模型 vs. 小模型：通常模型越大（参数越多），成绩越好。但也发现，有些经过特殊训练的“小个子”模型（15 亿参数左右），在特定任务上也能打败“大块头”，性价比极高。
能源消耗：考试也记录了每个模型“吃”了多少电。结果发现，大模型确实更费电，但有些模型虽然大，却因为设计得好，反而比某些小模型更省电。

5. 这对我们意味着什么？（未来展望）

LA LEADERBOARD 不仅仅是一个排行榜，它是一个“指南针”和“孵化器”。

指南针：它告诉开发者和企业，现在的 AI 在西班牙语世界里哪里做得好，哪里还有缺陷（比如在医疗或法律领域还不够聪明）。
孵化器：它鼓励大家不要只盯着英语模型，而是要开发懂文化、懂方言的 AI。
未来计划：他们计划继续扩大范围，把拉美更多的原住民语言（如瓜拉尼语、纳瓦特尔语）也加进来，让这场“运动会”真正覆盖整个西班牙语世界。

总结

简单来说，LA LEADERBOARD 就是给西班牙语世界的 AI 们建的一个“公平竞技场”。它不再让 AI 只用英语思维来思考，而是用真实的语言、真实的文化和真实的场景来考验它们。它的目的是确保未来的 AI 不仅能“说话”，还能真正“懂”这 6 亿多使用者的文化和情感。

Each language version is independently generated for its own context, not a direct translation.

《La Leaderboard：西班牙及拉丁美洲语言变体大语言模型排行榜》技术总结

1. 研究背景与问题 (Problem)

尽管大型语言模型（LLM）在多语言任务上的能力日益增强，但现有的评估基准（Benchmarks）和排行榜（Leaderboards）存在显著的局限性，特别是在西班牙语及其变体方面：

英语中心主义与资源偏差：现有排行榜主要关注英语或少数高资源语言。西班牙语虽然常被纳入多语言榜单，但评估数据集通常有限，且多为机器翻译或人工翻译自英语，未能捕捉西班牙语及其变体（如西班牙本土的加泰罗尼亚语、巴斯克语、加利西亚语，以及拉丁美洲的多种方言）的语言丰富性和文化细微差别。
缺乏文化代表性：直接翻译的数据集往往无法反映目标文化的背景、习语和社会规范，导致评估结果无法真实反映模型在特定社区中的表现。
评估标准不统一：针对西班牙语社区（包括西班牙和拉丁美洲）的生成式 LLM 缺乏一个统一的、开源的评估标准，限制了能够真正服务这些多样化社区的开发模型的出现。
环境成本与可复现性：现有的评估方法（如使用大量 Few-shot 示例）往往计算成本高，且缺乏对评估设置（如提示词数量）的标准化，导致结果难以复现且环境足迹较大。

2. 方法论 (Methodology)

为了解决上述问题，作者团队推出了 La Leaderboard，这是首个针对西班牙语社区（西班牙和拉丁美洲）的开源生成式 LLM 排行榜。其核心方法论包括：

2.1 数据收集与构建

社区驱动：项目由 #Somos600M 发起，联合了 13 个研究团体。通过公开征集和直接联络，收集了 66 个数据集。
语言覆盖：涵盖西班牙语（包括西班牙、墨西哥、阿根廷、智利、乌拉圭等变体）、加泰罗尼亚语、巴斯克语和加利西亚语。
数据质量原则：
- 原生优先：55% 的数据集为原生语言创建。
- 人工翻译与审核：38% 为人工翻译，7% 为机器翻译后经过母语者全面审核。所有数据均确保由至少一名母语者标注或审核，以保留语言细微差别和文化背景。
- 领域多样性：涵盖常识推理、伦理、语言接受度、数学、自然语言推理 (NLI)、问答、阅读理解、摘要、文本分类、反叙事生成等多个领域。
新创数据集：其中 7 个数据集（如 AQuAS, ClinTreatES, SpaLawEx 等）是专门为 La Leaderboard 创建的，涵盖医疗、法律、幽默、反叙事等特定任务。

2.2 评估设置与效率优化

Few-shot 策略优化：
- 针对文献中 Few-shot 数量不一致的问题，La Leaderboard 采用了更少但更合理的示例数量（0-4 shot），旨在减少环境影响并提高可复现性。
- 认知偏差控制：在多项选择题（MCQA）中，确保所有正确选项都在上下文中出现（例如 4 个选项的任务使用 4-shot，每个 shot 展示一个正确选项），以消除顺序偏差。
- 上下文窗口限制：设定 Few-shot 示例的最大 Token 数为 2,048，以适应不同模型的上下文窗口限制，确保公平性。
评估指标：
- MCQA：使用对数概率（Logprobs）计算准确率。
- 文本生成：根据任务类型使用 BLEU、ROUGE、语义答案相似度 (SAS) 以及基于 LLM 的自动评估器（Judge-LLM）。
归一化：结果根据随机基线进行归一化处理，公式为： $normalized\_value = \frac{raw\_value - random\_baseline}{max\_value - random\_baseline}$ 。

2.3 技术架构

后端：基于 LM Evaluation Harness 的开源分支，支持模型提交、版本控制和结果存储。
前端：基于 Hugging Face 模板和 Gradio 构建，提供按语言分类的可视化结果，支持英文和西班牙文界面。
许可：采用 Apache 2.0 许可，鼓励社区复用和扩展。

3. 关键贡献 (Key Contributions)

首个开源西班牙语社区排行榜：建立了第一个专门针对西班牙和拉丁美洲语言变体的生成式 LLM 开源排行榜，包含 66 个数据集和 50 个模型的评估结果。
高效且可复现的评估框架：提出了一种逻辑清晰且资源高效的 Few-shot 配置方法，平衡了评估准确性与计算成本，降低了环境足迹。
全面的 SOTA 模型分析：对 50 个模型（包括 Llama, Gemma, Qwen, Salamandra, EuroLLM 等）在四种语言上的表现进行了深度分析，揭示了不同训练策略（如从头预训练 vs. 持续预训练 vs. 微调）对多语言性能的影响。
社区协作模式：展示了如何通过社区协作（捐赠数据集、共同开发）来构建包容性的评估基础设施，为其他语言社区提供了可复制的范式。

4. 实验结果与分析 (Results)

4.1 模型性能表现

顶级模型：在整体和特定语言任务中表现最稳定的模型包括 Gemma-2-9B（基础版和指令版）、Meta-Llama-3.1-8B-IT 以及 Qwen2.5 系列的量化版本（14B 和 32B）。
特定语言优势：
- 西班牙语：Gemma-2-9B 和 Llama-3.1-8B-IT 表现优异。
- 加泰罗尼亚语/巴斯克语/加利西亚语：欧洲本土模型如 EuroLLM-9B 和 Salamandra-7B 在特定任务（如推理、问答）中展现出竞争力，特别是在资源受限场景下。
训练策略影响：
- 大规模多语言预训练（如 Qwen, Llama）通常能提供最一致和均匀的语言覆盖。
- 持续预训练（Continuous Pre-training）在特定语言（如巴斯克语）上能达到峰值表现。
- 仅微调（Fine-tuning only）虽然能提升流利度，但在推理和问答任务上的提升有限，难以进入 Top 10。

4.2 任务难度分析

表现较好：自然语言推理 (NLI) 和文本蕴含任务。
表现较差：语言接受度测试、摘要任务（尤其是长文本摘要）和数学推理任务。
语言差异：加利西亚语的整体得分显著低于其他语言；巴斯克语在推理任务上表现最好，但在问答任务上表现较差。

4.3 能耗与效率

总能耗：评估 50 个模型在 66 个任务上共消耗了 660.87 小时计算时间，产生 582.84 kWh 能耗，相当于 92.09 kg CO2 排放。
相关性：模型大小与能耗呈正相关（Pearson 系数 0.43），性能与能耗也呈正相关（0.50）。
任务差异：文本生成任务（如摘要）比选择题任务消耗更多能量。
指令微调优势：指令微调版本（Instruct）通常比基础版本（Base）消耗更少的能量，因为基础版本往往更冗长。

5. 意义与未来展望 (Significance & Future Work)

推动文化感知 AI：La Leaderboard 不仅评估语言能力，更强调文化适应性，鼓励开发能够真正理解和尊重西班牙语世界多样性的 AI 系统。
填补评估空白：解决了现有榜单缺乏对西班牙本土语言（巴斯克、加泰罗尼亚、加利西亚）及拉丁美洲方言覆盖的问题。
社区赋能：通过开源和透明化，降低了中小研究团队评估模型的门槛，促进了全球多语言 NLP 生态的公平发展。
未来计划：
- 纳入更多拉丁美洲原住民语言（如瓜拉尼语、纳瓦特尔语等）的评估。
- 扩展更大参数量的开源模型和专有模型。
- 举办黑客松，建立衡量各国文化适应性的基准。
- 持续监控数据污染问题，确保评估的公正性。

总结：La Leaderboard 是西班牙语 NLP 领域的一个重要里程碑，它通过社区驱动、数据多样化和评估效率优化，为构建更包容、更准确的多语言大模型提供了坚实的基础和新的标准。

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America