Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TildeOpen LLM 的人工智能大模型。你可以把它想象成一位专门为了“语言公平”而诞生的超级翻译官和作家。

为了让你更容易理解，我们可以用几个生动的比喻来拆解这项工作的核心：

1. 背景：为什么我们需要它？（“英语霸权”的派对）

想象一下，现在的 AI 大模型就像是在参加一场全球派对。

现状：在这个派对上，英语是绝对的“主角”，它占据了 90% 的谈话时间。其他语言（特别是欧洲的小语种，如拉脱维亚语、爱沙尼亚语、立陶宛语等）只是“配角”，甚至没人理睬。
问题：因为英语数据太多，现有的 AI 模型虽然英语说得溜，但一说起这些“小语种”，就像是一个只会背英语单词的人突然被要求用方言写诗——它要么结结巴巴，要么全是语法错误，甚至胡编乱造。
后果：这导致欧洲很多国家的人民在使用 AI 时，感觉自己的语言和文化被忽视了，就像在派对上被边缘化了一样。

2. 解决方案：TildeOpen 的“公平训练法”

为了解决这个问题，拉脱维亚的 Tilde 团队训练了一个拥有 300 亿参数（相当于大脑神经元数量）的新模型。他们用了两个绝招来确保公平：

绝招一：给“小语种”发“加倍餐票”（数据过采样）

比喻：想象训练 AI 就像给一群学生上课。英语学生有 1000 本教科书，而爱沙尼亚语学生只有 10 本。如果按原样上课，英语学生肯定学得好，爱沙尼亚语学生肯定跟不上。
做法：TildeOpen 团队决定，给那些“书少”的语言复印它们的教材。他们把低资源语言的数据量放大了 2.5 倍。虽然这不能凭空变出更多书，但能让 AI 在训练时“多读几遍”，从而更熟悉这些语言。

绝招二：特殊的“课程表”（课程学习法）

比喻：如果一开始就让学生同时读 1000 本英语书和 10 本爱沙尼亚语书，学生可能还是会被英语淹没。
做法：他们设计了一个三阶段课程表：
1. 起步阶段（初期）：像公平分配一样，让 AI 接触每种语言的机会均等（就像让所有学生先轮流读同样的短篇故事）。
2. 中间阶段（中期）：这时候让 AI 大量阅读英语等“大语种”的丰富资料，利用它们庞大的知识库来增强模型的“智力”和逻辑能力。
3. 冲刺阶段（后期）：再次回到公平分配，让 AI 重新专注于各种语言的平衡，确保它不会忘记那些小语种。
效果：这种方法既利用了大数据的“营养”，又保证了小语种不会被“饿死”。

3. 成果：小语种也能“说人话”

** tokenizer（分词器）的公平**：
- 比喻：以前的 AI 把英语单词切成小块（像切蛋糕），但把小语种单词切得粉碎（像把蛋糕切成了渣），导致处理小语种时效率极低，成本极高。
- 改进：TildeOpen 重新设计了“切蛋糕”的刀法，确保无论什么语言，表达同样的意思，切出来的“块数”都差不多。这让 AI 处理小语种时更快、更省钱。
实际表现：
- 在测试中，TildeOpen 在生成文本和阅读理解方面，表现优于其他同体量的开源模型。
- 最惊人的数据：在拉脱维亚语和爱沙尼亚语上，TildeOpen 犯的错误比目前最流行的模型（如 Gemma 2）少了 10 倍！
- 比喻：如果其他模型写 100 个字会犯 10 个错，TildeOpen 可能只犯 1 个错。这对于小语种来说，简直是质的飞跃。

4. 特别处理：清理“噪音”（过滤俄语宣传）

背景：在收集俄语数据时，团队发现互联网上充斥着大量由俄罗斯国家控制的、带有强烈政治宣传色彩的内容（就像派对上有人一直在散布谣言）。
做法：他们非常严格地过滤了这些数据，去掉了那些充满偏见、战争宣传或反西方情绪的内容。
意义：这确保了 AI 学到的俄语是“干净”的，不会把偏见当成事实。虽然这可能会损失一些文化细节，但为了保证模型的安全和公正，这是必要的“排毒”过程。

5. 总结：这意味着什么？

这篇论文告诉我们，不需要把模型做得无限大，也不需要花天价算力，只要“用心”整理数据，就能做出高质量的模型。

以前：AI 是“英语霸权”的产物，小语种只能“凑合用”。
现在：TildeOpen 证明了，通过精心设计的课程和公平的数据策略，我们可以让 AI 真正尊重并掌握欧洲 34 种语言，让那些曾经被忽视的语言也能在 AI 时代发出响亮的声音。

这就好比，以前只有英语是“VIP 客户”，现在 TildeOpen 把每个人都请进了 VIP 室，并且确保每个人都能得到同样优质的服务。

Each language version is independently generated for its own context, not a direct translation.

TildeOpen LLM 技术总结

本文介绍了 TildeOpen LLM，这是一个旨在解决大型语言模型（LLM）在欧洲语言中表现不均、特别是低资源语言支持不足问题的开源基础模型。该模型由拉脱维亚的 Tilde 团队开发，拥有 300 亿参数，支持 34 种欧洲语言。

以下是该论文的详细技术总结：

1. 问题背景 (Problem)

数据失衡与性能差距： 现有的 LLM 主要基于英语和高资源语言训练，导致非英语语言（尤其是中欧和东欧的波罗的海、斯拉夫及芬兰 - 乌戈尔语系语言）表现不佳。
代表性不足： 随着模型规模扩大，非英语数据的相对比例反而下降，加剧了语言和文化多样性的侵蚀。
现有方案的局限： 现有的多语言模型（如 EuroLLM）虽然关注欧洲语言，但往往只是简单地限制英语比例，而非真正重新平衡小语种的代表性。例如，EuroLLM 仍有约 50% 的训练数据是英语，仅 9% 分配给所有其他欧洲语言。
实际影响： 这种失衡导致约 1.7 亿欧洲人的母语在现有基础模型中支持不足，且主流模型在生成自由文本时，每六个词中就可能出现一个语言错误。

2. 方法论 (Methodology)

2.1 分词器设计 (Tokenizer)

目标： 实现“语言公平”，即确保相同内容在不同语言中编码为相似数量的 Token，避免低资源语言因分词效率低而增加推理成本和训练计算量。
实现：
- 基于 SentencePiece 和 BPE 算法，词表大小为 131,072。
- 使用 FLORES 200 开发集的平行翻译数据，通过迭代调整数据比例，使焦点语言（Focus Languages）的 Token 化效率达到均衡。
- 训练数据包含 43.8 亿字节，其中 30 亿字节分配给 17 种焦点语言（如拉脱维亚语、立陶宛语、爱沙尼亚语等），其余分配给其他欧洲语言、代码和 LaTeX。

2.2 模型架构 (Model Architecture)

基础架构： 基于 Llama 3 架构的 300 亿参数 Dense Decoder-only Transformer。
具体配置：
- 60 层，模型维度 6144。
- 使用 RMSNorm 进行层归一化。
- 采用 Group Query Attention (GQA)，8 个 Key-Value 头，48 个 Query 头。
- 位置编码使用 RoPE (Rotary Position Embeddings)， $\theta = 200,000$ 。
- 中间层大小为 21,504，采用 FFNSwiGLU 结构。
- 无偏置项 (Bias-free)。

2.3 数据策略与课程学习 (Data & Curriculum Learning)

这是该论文的核心创新点，旨在解决数据分布不均问题：

数据源： 整合了 MADLAD-400, HPLT, Cultura-X, FineWeb, Common Pile 等大规模 Web 数据集，以及代码 (The Stack) 和数学数据。
数据清洗：
- URL 过滤： 移除包含垃圾信息、色情内容或受制裁域名（特别是俄罗斯国家控制的宣传媒体）的数据。
- 去重： 使用 Onion 工具进行基于 n-gram 的去重，移除重复段落。
- 俄语数据特殊处理： 针对俄罗斯宣传内容，使用 LDA 聚类识别并移除了涉及地缘政治、战争、LGBT 等敏感话题的约 5% 的俄语数据，以防止模型学习偏见和虚假信息。
上采样 (Upsampling)： 对低资源语言的数据进行最高 2.5 倍的上采样。
三阶段课程学习 (Curriculum Learning)： 为了平衡上采样带来的分布偏差，设计了三个训练阶段：
1. 初始阶段 (7.5%)： 均匀采样所有语言，确保模型早期接触均衡的语言分布。
2. 中间阶段 (67.5%)： 采用自然语言分布（即原始数据比例），利用高资源语言的大量数据提升模型容量和多样性。
3. 最终阶段 (25%)： 再次回归均匀采样，巩固低资源语言的学习效果。

2.4 训练细节

算力： 在 LUMI 超级计算机上使用 768 张 AMD MI250x GPU 训练。
数据量： 总训练 Token 数约为 2 万亿（2T），显著少于同规模模型通常使用的 4-9 万亿 Token。
超参数： 使用 Adam 优化器，梯形学习率调度（Trapezoidal LR scheduler），包含预热、恒定和冷却阶段。

3. 主要贡献 (Key Contributions)

首个专注于欧洲语言公平的 30B 参数模型： 支持 34 种欧洲语言，特别加强了对波罗的海、斯拉夫和芬兰 - 乌戈尔语系的支持。
创新的课程学习策略： 提出了一种结合数据上采样与“均匀 - 自然 - 均匀”采样调度的方法，在不增加模型参数量的情况下显著提升了低资源语言的性能。
分词器公平性优化： 通过迭代调整，实现了焦点语言间 Token 化效率的均衡，降低了低资源语言的推理成本。
严格的数据治理： 实施了针对特定地区（如俄罗斯）宣传内容的深度过滤，并公开了数据清洗和去重流程，提升了模型的安全性和伦理标准。
开源与可复现性： 模型权重、训练代码及指令微调数据集均在 HuggingFace 公开。

4. 实验结果 (Results)

4.1 基础模型评估

困惑度 (Perplexity)： 在 WMT24pp 数据集上，TildeOpen 在所有语言家族（特别是波罗的海 +13.8%，罗曼语 +11.2%，芬兰 - 乌戈尔语 +11.2%）的每字符困惑度上均优于 EuroLLM、ALIA 和 Gemma 2。
基准测试 (Benchmarks)：
- 语言生成与理解： 在 MultiBLiMP（语法判断）和 Belebele（阅读理解）任务中表现优异，平均得分最高。
- 知识推理： 在 ARC 和 MMLU 任务上表现与 EuroLLM 和 ALIA 持平，尽管训练数据量仅为它们的 1/3 到 1/2。
- 本地化考试： 在基于欧洲国家考试的 Exams 数据集上，表现优于 EuroLLM 和 ALIA，显示出更强的本地化适应能力。
人类评估（语言错误分析）： 针对拉脱维亚语和爱沙尼亚语的分析显示，TildeOpen 每 100 个单词的错误率比 Gemma 2 低10 倍以上，比 EuroLLM 低 3 倍以上。

4.2 指令微调与翻译任务

翻译质量： 在 WMT24pp 数据集上进行指令微调后，TildeOpen 在 COMET 评分上全面超越了同样经过微调的 EuroLLM。
效率对比： 尽管参数量比 GPT-4.1 小约 60 倍，但在大多数翻译方向上，TildeOpen 的得分更接近 GPT-4.1，而非 EuroLLM，证明了训练策略的有效性。

4.3 数据记忆 (Memorization)

测试表明模型极少逐字复述训练数据。高相似度的案例主要集中在代码、平行语料和数学公式等结构化数据上，自然语言文本的复述风险极低。

5. 意义与影响 (Significance)

技术验证： 证明了通过精心策划的数据和平衡的训练策略（如课程学习），可以在不增加模型规模或训练数据总量的情况下，显著提升多语言模型的质量，特别是对于低资源语言。
欧洲 AI 主权： 为欧洲提供了一种不依赖美国商业大模型、能够公平支持本土语言的开源替代方案，有助于维护欧洲的数字主权和文化多样性。
伦理与安全： 展示了在数据预处理阶段主动过滤有害宣传内容（如俄罗斯战争宣传）的可行性和必要性，为构建更安全、更客观的 AI 模型提供了范例。
资源开放： 作为一个完全开源的 30B 参数模型，它为学术界和工业界研究低资源语言处理、多语言公平性提供了宝贵的基准和资源。

局限性： 论文也承认未包含部分欧洲少数民族语言（如加泰罗尼亚语、威尔士语），且由于缺乏针对特定欧洲语言的文化偏见基准，尚未进行系统性的偏见评估。此外，为了公平性进行的上采样在一定程度上降低了训练效率。

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation