Each language version is independently generated for its own context, not a direct translation.
ポルトガル語の「AI 料理人」が誕生しました:Tucano 2 の物語
この論文は、**「Tucano 2(トゥカノ 2)」**という、ポルトガル語に特化した新しい AI(大規模言語モデル)の家族を世界に紹介する報告書です。
これまでの AI は、英語など「高価な食材」が豊富な言語では素晴らしい料理ができますが、ポルトガル語のような「地元の食材」が限られている言語では、味が薄かったり、レシピが秘密にされていたりしました。
この研究チームは、**「誰でも再現できる、高品質でオープンなポルトガル語 AI」**を作るために、以下の 4 つのステップで挑戦しました。
1. 食材の調達:「GigaVerbo-v2」という巨大な図書館
AI を育てるには、膨大な量のテキストデータ(食材)が必要です。
- 問題点: 従来のポルトガル語のデータは、質がバラバラで、ゴミ(低品質なテキスト)や毒(有害なコンテンツ)が混じっていました。
- 解決策: チームは、**「GigaVerbo-v2」**という、約 3,200 億トークン(単語の単位)にもなる巨大なデータセットを作りました。
- フィルター: 最新の AI(裁判官)を使って、教育価値の高い文章だけを選び取り、毒のある文章を厳しく排除しました。
- 合成食材: 足りない分野(数学や論理的思考など)を補うために、AI 自身に「高品質な教科書」を書かせて、93 億トークンの「合成データ」も追加しました。
- 結果: 質の高いポルトガル語の「食材」が山ほど揃いました。
2. 包丁とまな板の改良:「カスタム・トークナイザー」
AI は言葉を「トークン(単語の断片)」という単位で理解します。
- 問題点: 一般的な AI は英語中心に作られているため、ポルトガル語を扱うと、1 つの単語を何個もの断片に切り分けてしまい、計算コスト(電気代)が余計にかかります。
- 解決策: ポルトガル語に特化した「カスタム・トークナイザー(分詞器)」を開発しました。
- アナロジー: 英語の AI が「リンゴ」を「リン」「ゴ」と 2 つの断片で表すのに対し、この新しい AI は「リンゴ」を 1 つの塊として扱えます。
- 効果: これにより、学習や実行に必要な計算量が約 30% 削減され、より安く、速く、ポルトガル語を扱えるようになりました。
3. 調理法の変更:「ゼロから作る」か「継ぎ足す」か
チームは 2 つの異なるアプローチで AI を育てました。
- アプローチ A(ゼロから): 「Tucano2-0.6B」のように、0 からの基礎学習で、小さなモデルを育てました。これは「地元の食材だけで、地元の味を徹底的に追求する」方法です。
- アプローチ B(継ぎ足し): すでに優秀な多言語 AI(Qwen3)の「頭脳」を流用し、そこにポルトガル語のデータだけを大量に「継ぎ足す(継続的学習)」方法です。
- トークン移植: 英語中心の辞書を、ポルトガル語用のもんに交換する技術を使いました。
- 結果: 少量のデータと計算資源で、巨大なモデルをポルトガル語に特化させ、既存の巨大モデルよりも高い性能を発揮させることに成功しました。
4. 味見と評価:「Easy Set」と「Hard Set」
AI が本当に賢くなったかを確認するために、新しいテスト基準を作りました。
- Easy Set(初心者向け): 学習の初期段階でも、AI の成長がはっきり見えるテスト。
- Hard Set(上級者向け): 高度な推論や試験問題など、学習が進まないと解けないテスト。
- 成果: 従来のポルトガル語のテストは「ノイズ」が多く成長が見えにくかったですが、新しいテストでは、AI がどのように成長しているかが明確に追跡できるようになりました。
最終的な成果:「Tucano 2」の家族
この研究で生まれたのは、単一の AI ではなく、様々な用途に合わせた「AI 家族」です。
- Base(ベース): 基礎知識を蓄えた状態。
- Instruct(インストラクト): 指示に従って、チャットや質問に答えることができる状態。
- Think(シンク): 答えを出す前に「考える(思考プロセスを言語化する)」ことに特化した状態。
- 注目点: これまで、ポルトガル語で「論理的に考える(Chain-of-Thought)」ことができるオープンな AI はほとんどありませんでした。Tucano 2 は、すべてポルトガル語で思考プロセスを記述することに成功しました。
環境への配慮とオープンソース
- エコフレンドリー: 合成データの生成に多くのエネルギーを使いましたが、全体として、巨大なモデルをゼロから作るよりもはるかに少ないエネルギー(炭素排出量)で、同等以上の性能を実現しました。
- 完全オープン: データセット、学習コード、モデル、評価ツールすべてが公開されています。これは「レシピと食材をすべて公開し、誰でも同じ美味しい料理を作れるようにする」ことを意味します。
まとめ
この論文は、**「ポルトガル語の AI 開発が、閉ざされた高価な世界から、誰でも参加できるオープンで持続可能な世界へ進化した」**ことを示しています。
Tucano 2 は、ポルトガル語圏の人々が、自分たちの文化や言語に根ざした AI を自由に使い、発展させるための「土台」となりました。
Each language version is independently generated for its own context, not a direct translation.
Tucano 2: ポルトガル語向け大規模言語モデル(LLM)の完全オープンソーススイートの技術的サマリー
本論文は、ポルトガル語の自然言語処理(NLP)におけるオープンソース開発のギャップを埋めることを目的とした、Tucano 2 と呼ばれる大規模言語モデル(LLM)の完全オープンソーススイートを発表しています。パラメータ数は 0.5B から 3.7B の範囲で、トレーニングレシピ、データセット、評価ベンチマーク、およびすべてのコードが包括的に公開されています。
以下に、論文の主要な技術的要素を詳細にまとめます。
1. 背景と課題 (Problem)
- 言語間の不均衡: 英語などの高資源言語に比べて、ポルトガル語を含む低資源言語の LLM 開発は遅れており、高性能なモデルの多くはクローズドソースであるか、トレーニングデータや手法の透明性が欠如しています。
- 再現性の欠如: 多くのポルトガル語特化モデルは、データ構成やトレーニング手順、評価プロトコルの詳細が公開されておらず、コミュニティによる独立した研究や改善を阻害しています。
- 既存モデルの限界: 既存のポルトガル語モデルは、大規模なマルチリンガルモデル(Qwen3 など)に比べて性能が劣るか、あるいは計算リソースの制約から十分なトレーニングが行われていませんでした。
2. 方法論 (Methodology)
Tucano 2 は、以下の 4 つの主要な段階で構成される包括的なパイプラインを採用しています。
2.1 データ構築 (Pretraining Data)
- GigaVerbo-v2: 約 3200 億トークン(3.72 億ドキュメント)からなる大規模なポルトガル語コーパス。
- 品質フィルタリング: 従来のヒューリスティックなフィルタリングに加え、LLM-as-a-Judge(Qwen2.5-32B-Instruct を使用)による教育品質と毒性のスコアリングを行い、軽量な分類モデル(BERTimbau など)に蒸留して大規模なフィルタリングを可能にしました。
- 教育コンテンツ: 教育品質スコアが高いドキュメントを重点的に抽出。
- GigaVerbo-v2 Synth: 約 93 億トークンの合成データセット。
- 教育、科学、法律、プログラミングなど、ウェブデータが不足しているドメインを埋めるために、Qwen2.5 シリーズ(7B, 14B, 32B)を使用して生成されました。
- ベンチマーク汚染を防ぐための厳格なデコンタミネーション(トークンレベルの k-gram マッチング)が実施されています。
- SFT と Preference データ:
- GigaVerbo-v2 SFT: コーディング、ツール使用、数学、推論など 12 種類のタスクを網羅した約 410 万サンプルの教師あり微調整データ。
- GigaVerbo-v2 Preferences: 安全性と推論の質を両立させるための約 2.8 万組の対話データ(Constitutional AI アプローチ採用)。
2.2 トークナイザ (Tokenization)
- カスタムトークナイザ: ポルトガル語、英語、コード(40-40-20 の比率)でトレーニングされた SentencePiece ベースのトークナイザ(語彙サイズ 49,152)。
- 効率性: 既存のマルチリンガルモデル(Qwen3, Llama-3.2 など)と比較して、ポルトガル語テキストにおけるサブワードの肥沃度(Subword Fertility)が最も低く(1.51)、トークンあたりの文字数が最大(2.88 文字)でした。これにより、トレーニング計算コストを約 30% 削減できると推定されています。
2.3 トレーニング戦略
- Base モデル (Tucano2-0.6B-Base):
- 0.6B パラメータの Llama 系アーキテクチャ。
- 3 ステージのトレーニング: 教育データ中心のウォームアップ/安定期、多様なデータ(合成データ含む)の安定期、高品質ポルトガル語データと推論データに重点を置いた減衰期(1-sqrt Decay)。
- オプティマイザ: AdamW と Muon のハイブリッド使用により、勾配の安定性を向上。
- 継続的プリトレーニング (Continual Pretraining):
- 計算リソース制約下で高性能を達成するため、Qwen3 ベースモデル(0.6B, 1.7B, 4B)をポルトガル語に適応させるアプローチを採用。
- トークナイザ移植 (OMP): 学習不要の直交マッチング pursuit (OMP) 法を用いて、Qwen3 の大規模語彙(151K)を独自のポルトガル語最適化トークナイザ(49K)に移植。これにより埋め込みパラメータを約 68% 削減しつつ、事前学習の知識を保持しました。
- 純粋なポルトガル語データ(GigaVerbo-v2 + Synth)で 500 億〜1000 億トークン追加トレーニング。
2.4 評価フレームワーク
- Easy Set / Hard Set: トレーニング段階に応じた 2 段階の評価スイート。
- Easy Set: 早期トレーニング(<200B トークン)で有効なシグナルを与えるベンチマーク(ARC, HellaSwag など)。
- Hard Set: 大規模トレーニング(>660B トークン)が必要で、高度な能力を評価するベンチマーク(ENEM, OAB, MMLU など)。
- Post-Training 評価: 指示追従(IFEval-PT)、数学(GSM8K-PT)、長文脈(RULER-PT)、コーディング(HumanEval)をポルトガル語に適合化。
3. 主要な貢献 (Key Contributions)
- 大規模ポルトガル語コーパス: 教育品質と毒性の注釈付き 3200 億トークンの GigaVerbo-v2 と、93 億トークンの合成データ GigaVerbo-v2 Synth。
- 完全なオープンソーススイート: モデル、データセット、トレーニングレシピ、評価コード、および品質フィルタリングモデルのすべてが Hugging Face で公開されています。
- Tucano 2 ファミリー: 0.5B〜3.7B のパラメータを持つ Base, Instruct, Think(推論特化)の各モデル。
- 効率的な適応手法: トークナイザ移植(OMP)を用いた継続的プリトレーニングにより、限られた計算資源で SOTA 性能を達成する手法を実証。
- ポルトガル語特化評価スイート: 再現性のある評価と、トレーニング段階に応じたシグナル分析を可能にする包括的なベンチマーク。
4. 結果 (Results)
- Base モデル:
- Tucano2-0.6B-Base は、1.5B パラメータの既存モデル(Curi´o-1.1B など)や、より大規模なマルチリンガルモデル(Qwen2.5-0.5B)を Easy Set ベンチマークで上回りました。
- 計算コストは元の Tucano-2b4 より 92% 削減されながら、性能は向上しました。
- 継続的プリトレーニングモデル (Tucano2-qwen):
- Tucano2-qwen-3.7B-Base は、パラメータ数が約 2 倍の Qwen2.5-7B や、Qwen3-4B を上回る総合スコア(NPM 59.21)を達成しました。
- 追加の計算コストは元々の Qwen3 プリトレーニングの 0.13% 未満であり、極めてコスト効率が高いことが示されました。
- Post-Training モデル:
- Tucano2-qwen-3.7B-Instruct: 3〜4B パラメータ帯域で最高レベルの知識・推論スコア(56.22)を達成。数学推論(GSM8K-PT)でも Qwen3-4B を上回りました。
- Tucano2-qwen-3.7B-Think: 推論プロセス(Chain-of-Thought)を完全にポルトガル語で行うモデルとして、同サイズ帯域の推論モデルの中で最高スコアを記録しました。
- 課題: 指示追従(IFEval)やコーディング(HumanEval)の性能は、Qwen3 などの大規模モデルに比べてやや劣る傾向があり、これはトレーニングデータの偏り(コーディングデータが少ないなど)によるものです。
5. 意義と将来展望 (Significance)
- 低資源言語 NLP の民主化: 完全なオープンソーススタック(データから評価まで)を提供することで、ポルトガル語圏の研究者や開発者が LLM 開発に参入する障壁を大幅に下げました。
- 計算効率の証明: 大規模なゼロからトレーニング(From-scratch)ではなく、高品質なマルチリンガル基盤モデルに、言語特化データとトークナイザ移植を組み合わせる「継続的プリトレーニング」が、低資源言語において最も効率的で高性能なアプローチであることを実証しました。
- 持続可能性: 合成データ生成がエネルギー消費の大部分(約 73%)を占めていましたが、全体として大規模モデルに比べて環境負荷は低く抑えられています(約 7.9 トン CO2e)。
- コミュニティへのインパクト: 公開されたアセットは、ポルトガル語 NLP の研究基盤を強化し、教育、法務、医療などのドメイン特化アプリケーション開発を加速させることが期待されます。
本論文は、単なるモデルのリリースにとどまらず、低資源言語における LLM 開発の「再現可能な青写真」を提供し、オープンサイエンスの推進において重要なマイルストーンとなっています。