La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

この論文は、スペイン語圏の言語的多様性と文化的多様性を反映した大規模言語モデル(LLM)の開発を促進するため、スペインおよびラテンアメリカの言語や方言を対象とした初のオープンソース評価リーダーボード「La Leaderboard」を提案し、その評価手法や環境負荷低減のための工夫について解説しています。

María Grandury, Javier Aula-Blasco, Júlia Falcão, Clémentine Fourrier, Miguel González, Gonzalo Martínez, Gonzalo Santamaría, Rodrigo Agerri, Nuria Aldama, Luis Chiruzzo, Javier Conde, Helena Gómez, Marta Guerrero, Guido Ivetta, Natalia López, Flor Miriam Plaza-del-Arco, María Teresa Martín-Valdivia, Helena Montoro, Carmen Muñoz, Pedro Reviriego, Leire Rosado, Alejandro Vaca, María Estrella Vallecillo-Rodríguez, Jorge Vallego, Irune Zubiaga

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「スペイン語圏の言語と文化に特化した、AI の実力測定ランキング(リーダーボード)」**を世界で初めて作りました、というお話しです。

少し難しい専門用語を、身近な例え話に置き換えて解説しますね。

🌍 1. なぜこのランキングが必要だったの?(「翻訳されたメニュー」の問題)

これまで、AI(大規模言語モデル)の能力を測るテストは、ほとんどが**「英語中心」**でした。
スペイン語を測ろうとしても、多くのテストは「英語のテストを機械翻訳しただけ」のものばかりでした。

  • 例え話:
    Imagine 海外のレストランで、現地の美味しい料理を食べたいのに、**「英語のメニューを機械翻訳して、日本語で読まされている」**ようなものです。
    • 料理(文化やニュアンス)の本当の味が伝わらない。
    • 現地の言葉の「言い回し」や「ジョーク」が通じない。
    • 結果として、「この AI はスペイン語が得意だ」と言っても、実は「翻訳機能」が得意なだけで、本当のスペイン語圏の文化を理解しているかどうかがわからない。

スペイン語圏(スペインやラテンアメリカ)には、スペイン語だけでなく、バスク語、カタルーニャ語、ガリシア語といった独自の言語や、国によって違う「方言」がたくさんあります。これらをすべてカバーできるテストがなかったのです。

🏆 2. 「LA LEADERBOARD」とは何か?(「多様な料理を味わうための試食会」)

そこで、この研究チームは**「LA LEADERBOARD(ラ・リーダーボード)」**という新しいランキングを作りました。

  • どんなもの?

    • 66 種類のテストを集めました。これらは、現地の研究者や専門家たちが、**「現地の言葉で、現地の文化に合わせて」**作ったり、丁寧に翻訳したりしたものです。
    • 50 種類の AIをテストしました。
    • 対象言語: スペイン語(スペイン・メキシコ・アルゼンチンなどの方言含む)、カタルーニャ語、バスク語、ガリシア語。
  • 例え話:
    これは、**「スペイン語圏の 21 カ国と、それぞれの地域の料理(言語)を、現地のシェフが監修した『試食会』」**のようなものです。
    単に「英語を翻訳して食べた」のではなく、「現地の食材(データ)を使って、現地の味(文化)を正しく評価する」場を作ったのです。

🔍 3. 何を見つけたの?(「AI の得意不得意」の発見)

このランキングで 50 個の AI をテストした結果、いくつか面白いことがわかりました。

  • トップクラス:
    「Gemma-2」や「Llama-3.1」、「Qwen」といった、巨大な企業や研究機関が作った AI が、全体的に強い結果を出しました。特に、**「英語や数学のデータも大量に含んだ、広範囲な知識を持つ AI」**が、特定の言語のデータが少ない場合でも、高いパフォーマンスを発揮しました。

    • 例え: 「世界中の料理を一通り知っている大食いのシェフ」は、特定の地域の料理が少し苦手でも、全体の腕前が素晴らしいので、結果的にトップになります。
  • 地域密着型の強み:
    「Salamandra」や「EuroLLM」のように、**「ヨーロッパやスペインの言語に特化して作られた AI」**は、特定の言語(特にガリシア語やバスク語など、データが少ない言語)において、巨大な AI に負けない、あるいはそれ以上の結果を出しました。

    • 例え: 「その地域の料理に特化した職人シェフ」は、大食いのシェフには勝てないかもしれませんが、「その土地の味」に関しては、誰よりも本物に近い味を出せるのです。
  • エネルギーの消費:
    大きな AI は性能が高いですが、「食べる量(エネルギー消費)」も非常に多いことがわかりました。小さな AI は、エネルギーを節約しながらも、そこそこの味を出せる「エコな料理」と言えます。

🤝 4. このプロジェクトのすごいところ(「みんなでつくる料理本」)

このランキングは、特定の企業が独占しているのではなく、「コミュニティ(地域の人々)が手を取り合って作りました」

  • オープンソース: 誰でも結果が見られ、誰でも自分の AI をテストに出品できます。
  • 環境への配慮: 従来のテスト方法よりも、「少ないサンプル数」で正確に測れるように工夫しました。これにより、AI をテストする際の「二酸化炭素排出量(環境負荷)」を減らそうとしています。
    • 例え: 「全員に豪華なフルコースを出して味見させる」のではなく、「必要な分だけを効率的に提供して、本当の味を見極める」方法に変えたのです。

🚀 まとめ:これからどうなる?

この「LA LEADERBOARD」は、**「スペイン語圏の AI 開発の新しい基準」**となりました。

  • 目標: 単に「言葉が通じる」だけでなく、**「文化や習慣も理解できる、心温まる AI」**を作ること。
  • 未来: 今後は、ラテンアメリカの先住民の言語(グアラニ語やナワトル語など)も加えて、さらに多様性を広げていく予定です。

つまり、**「AI が、世界中の多様な人々と、心から会話できるようになるための、最初の大きな一歩」**が、この論文で踏み出されたのです。