TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

本文介绍了 TildeOpen LLM,这是一个通过结合数据过采样与课程学习策略,在有限计算资源下实现了 34 种欧洲语言(特别是波罗的海、芬兰 - 乌戈尔及斯拉夫语族)公平且高质量表示的 300 亿参数开源基础模型。

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TildeOpen LLM 的人工智能大模型。你可以把它想象成一位专门为了“语言公平”而诞生的超级翻译官和作家

为了让你更容易理解,我们可以用几个生动的比喻来拆解这项工作的核心:

1. 背景:为什么我们需要它?(“英语霸权”的派对)

想象一下,现在的 AI 大模型就像是在参加一场全球派对

  • 现状:在这个派对上,英语是绝对的“主角”,它占据了 90% 的谈话时间。其他语言(特别是欧洲的小语种,如拉脱维亚语、爱沙尼亚语、立陶宛语等)只是“配角”,甚至没人理睬。
  • 问题:因为英语数据太多,现有的 AI 模型虽然英语说得溜,但一说起这些“小语种”,就像是一个只会背英语单词的人突然被要求用方言写诗——它要么结结巴巴,要么全是语法错误,甚至胡编乱造。
  • 后果:这导致欧洲很多国家的人民在使用 AI 时,感觉自己的语言和文化被忽视了,就像在派对上被边缘化了一样。

2. 解决方案:TildeOpen 的“公平训练法”

为了解决这个问题,拉脱维亚的 Tilde 团队训练了一个拥有 300 亿参数(相当于大脑神经元数量)的新模型。他们用了两个绝招来确保公平:

绝招一:给“小语种”发“加倍餐票”(数据过采样)

  • 比喻:想象训练 AI 就像给一群学生上课。英语学生有 1000 本教科书,而爱沙尼亚语学生只有 10 本。如果按原样上课,英语学生肯定学得好,爱沙尼亚语学生肯定跟不上。
  • 做法:TildeOpen 团队决定,给那些“书少”的语言复印它们的教材。他们把低资源语言的数据量放大了 2.5 倍。虽然这不能凭空变出更多书,但能让 AI 在训练时“多读几遍”,从而更熟悉这些语言。

绝招二:特殊的“课程表”(课程学习法)

  • 比喻:如果一开始就让学生同时读 1000 本英语书和 10 本爱沙尼亚语书,学生可能还是会被英语淹没。
  • 做法:他们设计了一个三阶段课程表
    1. 起步阶段(初期):像公平分配一样,让 AI 接触每种语言的机会均等(就像让所有学生先轮流读同样的短篇故事)。
    2. 中间阶段(中期):这时候让 AI 大量阅读英语等“大语种”的丰富资料,利用它们庞大的知识库来增强模型的“智力”和逻辑能力。
    3. 冲刺阶段(后期):再次回到公平分配,让 AI 重新专注于各种语言的平衡,确保它不会忘记那些小语种。
  • 效果:这种方法既利用了大数据的“营养”,又保证了小语种不会被“饿死”。

3. 成果:小语种也能“说人话”

  • ** tokenizer(分词器)的公平**:
    • 比喻:以前的 AI 把英语单词切成小块(像切蛋糕),但把小语种单词切得粉碎(像把蛋糕切成了渣),导致处理小语种时效率极低,成本极高。
    • 改进:TildeOpen 重新设计了“切蛋糕”的刀法,确保无论什么语言,表达同样的意思,切出来的“块数”都差不多。这让 AI 处理小语种时更快、更省钱。
  • 实际表现
    • 在测试中,TildeOpen 在生成文本阅读理解方面,表现优于其他同体量的开源模型。
    • 最惊人的数据:在拉脱维亚语和爱沙尼亚语上,TildeOpen 犯的错误比目前最流行的模型(如 Gemma 2)少了 10 倍
    • 比喻:如果其他模型写 100 个字会犯 10 个错,TildeOpen 可能只犯 1 个错。这对于小语种来说,简直是质的飞跃。

4. 特别处理:清理“噪音”(过滤俄语宣传)

  • 背景:在收集俄语数据时,团队发现互联网上充斥着大量由俄罗斯国家控制的、带有强烈政治宣传色彩的内容(就像派对上有人一直在散布谣言)。
  • 做法:他们非常严格地过滤了这些数据,去掉了那些充满偏见、战争宣传或反西方情绪的内容。
  • 意义:这确保了 AI 学到的俄语是“干净”的,不会把偏见当成事实。虽然这可能会损失一些文化细节,但为了保证模型的安全和公正,这是必要的“排毒”过程。

5. 总结:这意味着什么?

这篇论文告诉我们,不需要把模型做得无限大,也不需要花天价算力,只要“用心”整理数据,就能做出高质量的模型。

  • 以前:AI 是“英语霸权”的产物,小语种只能“凑合用”。
  • 现在:TildeOpen 证明了,通过精心设计的课程公平的数据策略,我们可以让 AI 真正尊重并掌握欧洲 34 种语言,让那些曾经被忽视的语言也能在 AI 时代发出响亮的声音。

这就好比,以前只有英语是“VIP 客户”,现在 TildeOpen 把每个人都请进了 VIP 室,并且确保每个人都能得到同样优质的服务。