Tucano 2 Cool: Better Open Source LLMs for Portuguese

本論文は、ポルトガル語向けの大規模言語モデル(LLM)のギャップを埋めるため、高品質なデータセットとトレーニング手法を公開し、0.5〜37 億パラメータのオープンソースモデル「Tucano 2」シリーズを開発し、ポルトガル語の言語モデルベンチマークで最先端の性能を達成したことを報告しています。

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah, Sophia Falk, Lennard Landgraf, Julia Kastner, Lucie Flek

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

ポルトガル語の「AI 料理人」が誕生しました:Tucano 2 の物語

この論文は、**「Tucano 2(トゥカノ 2)」**という、ポルトガル語に特化した新しい AI(大規模言語モデル)の家族を世界に紹介する報告書です。

これまでの AI は、英語など「高価な食材」が豊富な言語では素晴らしい料理ができますが、ポルトガル語のような「地元の食材」が限られている言語では、味が薄かったり、レシピが秘密にされていたりしました。

この研究チームは、**「誰でも再現できる、高品質でオープンなポルトガル語 AI」**を作るために、以下の 4 つのステップで挑戦しました。


1. 食材の調達:「GigaVerbo-v2」という巨大な図書館

AI を育てるには、膨大な量のテキストデータ(食材)が必要です。

  • 問題点: 従来のポルトガル語のデータは、質がバラバラで、ゴミ(低品質なテキスト)や毒(有害なコンテンツ)が混じっていました。
  • 解決策: チームは、**「GigaVerbo-v2」**という、約 3,200 億トークン(単語の単位)にもなる巨大なデータセットを作りました。
    • フィルター: 最新の AI(裁判官)を使って、教育価値の高い文章だけを選び取り、毒のある文章を厳しく排除しました。
    • 合成食材: 足りない分野(数学や論理的思考など)を補うために、AI 自身に「高品質な教科書」を書かせて、93 億トークンの「合成データ」も追加しました。
    • 結果: 質の高いポルトガル語の「食材」が山ほど揃いました。

2. 包丁とまな板の改良:「カスタム・トークナイザー」

AI は言葉を「トークン(単語の断片)」という単位で理解します。

  • 問題点: 一般的な AI は英語中心に作られているため、ポルトガル語を扱うと、1 つの単語を何個もの断片に切り分けてしまい、計算コスト(電気代)が余計にかかります。
  • 解決策: ポルトガル語に特化した「カスタム・トークナイザー(分詞器)」を開発しました。
    • アナロジー: 英語の AI が「リンゴ」を「リン」「ゴ」と 2 つの断片で表すのに対し、この新しい AI は「リンゴ」を 1 つの塊として扱えます。
    • 効果: これにより、学習や実行に必要な計算量が約 30% 削減され、より安く、速く、ポルトガル語を扱えるようになりました。

3. 調理法の変更:「ゼロから作る」か「継ぎ足す」か

チームは 2 つの異なるアプローチで AI を育てました。

  • アプローチ A(ゼロから): 「Tucano2-0.6B」のように、0 からの基礎学習で、小さなモデルを育てました。これは「地元の食材だけで、地元の味を徹底的に追求する」方法です。
  • アプローチ B(継ぎ足し): すでに優秀な多言語 AI(Qwen3)の「頭脳」を流用し、そこにポルトガル語のデータだけを大量に「継ぎ足す(継続的学習)」方法です。
    • トークン移植: 英語中心の辞書を、ポルトガル語用のもんに交換する技術を使いました。
    • 結果: 少量のデータと計算資源で、巨大なモデルをポルトガル語に特化させ、既存の巨大モデルよりも高い性能を発揮させることに成功しました。

4. 味見と評価:「Easy Set」と「Hard Set」

AI が本当に賢くなったかを確認するために、新しいテスト基準を作りました。

  • Easy Set(初心者向け): 学習の初期段階でも、AI の成長がはっきり見えるテスト。
  • Hard Set(上級者向け): 高度な推論や試験問題など、学習が進まないと解けないテスト。
  • 成果: 従来のポルトガル語のテストは「ノイズ」が多く成長が見えにくかったですが、新しいテストでは、AI がどのように成長しているかが明確に追跡できるようになりました。

最終的な成果:「Tucano 2」の家族

この研究で生まれたのは、単一の AI ではなく、様々な用途に合わせた「AI 家族」です。

  1. Base(ベース): 基礎知識を蓄えた状態。
  2. Instruct(インストラクト): 指示に従って、チャットや質問に答えることができる状態。
  3. Think(シンク): 答えを出す前に「考える(思考プロセスを言語化する)」ことに特化した状態。
    • 注目点: これまで、ポルトガル語で「論理的に考える(Chain-of-Thought)」ことができるオープンな AI はほとんどありませんでした。Tucano 2 は、すべてポルトガル語で思考プロセスを記述することに成功しました。

環境への配慮とオープンソース

  • エコフレンドリー: 合成データの生成に多くのエネルギーを使いましたが、全体として、巨大なモデルをゼロから作るよりもはるかに少ないエネルギー(炭素排出量)で、同等以上の性能を実現しました。
  • 完全オープン: データセット、学習コード、モデル、評価ツールすべてが公開されています。これは「レシピと食材をすべて公開し、誰でも同じ美味しい料理を作れるようにする」ことを意味します。

まとめ

この論文は、**「ポルトガル語の AI 開発が、閉ざされた高価な世界から、誰でも参加できるオープンで持続可能な世界へ進化した」**ことを示しています。

Tucano 2 は、ポルトガル語圏の人々が、自分たちの文化や言語に根ざした AI を自由に使い、発展させるための「土台」となりました。