TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「TildeOpen LLM」**という新しい人工知能（AI）のモデルについて書かれたものです。

一言で言うと、**「英語や大きな言語ばかりが得意な AI に、ヨーロッパの小さな言語も公平に話せるようにした、新しい『多言語 AI』の作り方」**を提案した研究です。

難しい専門用語を使わず、いくつかのたとえ話を使って分かりやすく解説します。

1. 問題：「英語中心」の偏った学校

今の AI（大規模言語モデル）は、インターネット上の膨大なデータで勉強しています。しかし、インターネットのデータは**「英語」が圧倒的に多く**、他の言語は少ないです。

たとえ話：
想像してみてください。世界中の生徒が通う学校で、先生が**「英語の教科書」だけを 90% 使い**、他の言語（ドイツ語、フランス語、エストニア語など）の教科書は 1 冊しかないような状態です。
その結果、生徒は英語はペラペラですが、他の言語を話そうとすると、文法がおかしくなったり、意味が通じなくなったりします。特に、バルト海沿岸や東ヨーロッパの言語は、この「教科書の不足」でひどく不利な思いをしていました。

2. 解決策：「TildeOpen LLM」の 3 つの工夫

この研究チームは、34 のヨーロッパ言語を公平に扱える AI を作るために、3 つの工夫をしました。

① 教科書の「増刷」をする（データの上采样）

小さな言語の教科書が少ないので、**「同じ教科書を 2.5 倍にコピーして」**勉強させました。

たとえ話：
「エストニア語の教科書が 1 冊しかないなら、それをコピーして 2.5 冊分用意して、生徒に読ませよう」という作戦です。これだけで、小さな言語の勉強時間が大幅に増えました。

② 「カリキュラム学習」でバランスを取る

ただコピーしただけでは、まだ英語の教科書が多すぎて、バランスが崩れてしまいます。そこで、勉強のスケジュールを工夫しました。

たとえ話：
- 最初の授業（導入）： 英語も他の言語も**「同じ回数」**だけ読ませます（公平なスタート）。
- 真ん中の授業（中盤）： 英語の教科書が多いので、英語をたくさん読ませて知識を深めます（効率重視）。
- 最後の授業（仕上げ）： 再び**「同じ回数」**だけ読ませて、小さな言語の知識を定着させます。
  この「公平→効率→公平」というスケジュール（カリキュラム）が、小さな言語の性能を劇的に上げました。

③ 辞書の作り直し（トークナイザーの調整）

AI は言葉を「トークン（単語の断片）」という単位で理解します。通常、小さな言語は「同じ意味の文章」でも、英語より「トークンの数」が多く必要になり、計算コストが高くつきます。

たとえ話：
「リンゴ」という言葉を、英語なら 1 つのブロックで表せるのに、小さな言語だと 5 つのブロックに分けて表すような状態です。
この研究では、**「どの言語でも、同じ意味の文章なら、同じ数のブロック（トークン）になるように辞書（トークナイザー）を調整」**しました。これにより、小さな言語でも英語と同じくらいスムーズに処理できるようになりました。

3. 結果：少ない資源で、驚くほど良い成績

この AI は、他の巨大な AI に比べて**「計算資源（電気代や GPU の時間）」を 2 倍〜4.5 倍も少なく**して作られました。しかし、テストの結果は素晴らしいものでした。

成績：
- 文章を作る力や、文章を理解する力は、同じ大きさの他の AI よりも上でした。
- 特に、エストニア語、ラトビア語、リトアニア語などの「小さな言語」において、「間違いの数が 10 分の 1」に減りました。
- 人間がチェックしたところ、他の AI が「100 語に 10 個の間違い」をするところを、この AI は「100 語に 1 個以下」しか間違いませんでした。

4. 重要な注意点：プロパガンダ（プロパガンダ）の除去

この研究では、ロシア語のデータに対して特別な処理を行いました。

背景：
最近、ロシアの国家が支援するウェブサイトが、AI の学習データに「嘘やプロパガンダ（宣伝）」を大量に流し込んでいることが分かりました。
対策：
研究チームは、**「戦争や政治的なプロパガンダが含まれるロシア語のデータを、徹底的に排除」しました。
これは単なる「編集者の好み」ではなく、EU の法律や、AI が嘘を信じてしまうリスクを防ぐための「必要な衛生処理」**として行われました。

まとめ

この論文が伝えたいことは、「AI を大きくすればするほど良い」というわけではありません。

データの選び方（小さな言語を大事にする）
勉強のさせ方（公平なスケジュール）
辞書の作り方（言語ごとの公平性）

これらを工夫すれば、**「少ない資源でも、すべての言語を公平に扱える、高品質な AI」**を作れるということです。これは、ヨーロッパの AI 主権（自分たちの言葉で AI を持つこと）を守る上で、非常に重要な一歩です。

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

1. 問題：「英語中心」の偏った学校

2. 解決策：「TildeOpen LLM」の 3 つの工夫

① 教科書の「増刷」をする（データの上采样）

② 「カリキュラム学習」でバランスを取る

③ 辞書の作り直し（トークナイザーの調整）

3. 結果：少ない資源で、驚くほど良い成績

4. 重要な注意点：プロパガンダ（プロパガンダ）の除去

まとめ

TildeOpen LLM の技術的サマリー

1. 背景と問題定義

2. 手法と技術的アプローチ

2.1. トークナイザの設計（言語公平性の確保）

2.2. データ収集とフィルタリング

2.3. データサンプリングとカリキュラム学習

2.4. モデルアーキテクチャとトレーニング

3. 主要な結果

3.1. 内在的評価（Perplexity）

3.2. ベンチマーク評価

3.3. 言語的エラー分析（人間評価）

3.4. 指示チューニング後の翻訳性能

4. 主要な貢献と意義

5. 結論

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

1. 問題：「英語中心」の偏った学校

2. 解決策：「TildeOpen LLM」の 3 つの工夫

① 教科書の「増刷」をする（データの上采样）

② 「カリキュラム学習」でバランスを取る

③ 辞書の作り直し（トークナイザーの調整）

3. 結果：少ない資源で、驚くほど良い成績

4. 重要な注意点：プロパガンダ（プロパガンダ）の除去

まとめ

TildeOpen LLM の技術的サマリー

1. 背景と問題定義

2. 手法と技術的アプローチ

2.1. トークナイザの設計（言語公平性の確保）

2.2. データ収集とフィルタリング

2.3. データサンプリングとカリキュラム学習

2.4. モデルアーキテクチャとトレーニング

3. 主要な結果

3.1. 内在的評価（Perplexity）

3.2. ベンチマーク評価

3.3. 言語的エラー分析（人間評価）

3.4. 指示チューニング後の翻訳性能

4. 主要な貢献と意義

5. 結論

関連論文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models