Enhancing Tool Calling in LLMs with the International Tool Calling Dataset

本論文は、既存のツール呼び出しベンチマークの課題を克服し、20 分野・40 カ国にわたる 3,571 の実 API と 17,540 のタスクを含む大規模な多言語データセット「International Tool Calling (ITC)」を提案し、これにより特に非英語クエリにおける LLM の性能向上と汎化能力の強化を実証しています。

Zuoyu Zhang, Yancheng Zhu

公開日 Mon, 09 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(大規模言語モデル)が、世界中のさまざまなツールを正しく使えるようにするための、新しい『練習用ドリル』と『評価テスト』を作りました」**というお話しです。

少し専門用語を噛み砕いて、身近な例え話で解説しますね。

1. 問題:これまでの「練習」は不十分だった

AI に「天気予報を見て」「旅行の予約をして」と頼むとき、AI は外部のサービス(API)という「道具」を使います。
でも、これまでの研究で使われていた練習用データには、3 つ大きな欠点がありました。

  • 作り物の道具ばかり: 実際の世の中とは違う、シミュレーションされた「おもちゃの道具」で練習していた。
  • 英語中心: 世界中の言葉ではなく、ほとんどが英語だけで作られていた。
  • 偏り: 特定の国や文化にしか対応していない。

【例え話】
まるで、**「アメリカのスーパーで買い物をする練習だけをして、いきなり日本の八百屋や、インドの屋台で買い物をするように言われた」**ようなものです。
「リンゴは red(赤)だ」と習っても、日本では「りんご」と言わないと通じないし、インドではまた違う呼び方があるかもしれません。これまでの AI は、そういう「現地のルール」や「言葉の違い」に弱かったのです。

2. 解決策:「ITC(国際ツール呼び出し)」という新しいドリル

そこで、この論文の著者たちは、**「International Tool Calling (ITC)」**という新しいデータセットを作りました。

  • 本物の道具 3,571 個: 実際の世界で動いている「本物の API(道具)」を 3,571 個集めました。
  • 40 カ国・29 言語: 日本、中国、アメリカ、アフリカなど、40 カ国から集めた道具を使い、29 種類の言語で質問と答えのペアを 17,540 組作りました。
  • 複雑なシナリオ: 「まず天気を調べて、次にその気候に合う服を予約して、最後にその服の価格を換算する」といった、複数の道具を組み合わせる難しい課題も入れています。

【例え話】
これは、**「世界中のあらゆる市場(40 カ国)で、現地の言葉(29 言語)を使って、本物の道具(3,571 個)を正しく使いこなすための、超リアルな『世界一周トレーニング』」**です。
AI に「日本なら『こんにちは』、フランスなら『Bonjour』と言うべきだ」という、文化や地域に合わせた使い方を徹底的に教えるのです。

3. 実験結果:AI は劇的に成長した

この新しいドリルを使って、さまざまな AI をテストしました。

  • 現状の差: 現時点では、Google や OpenAI などの「超大規模な AI(クローズドソース)」は、この新しいテストでも優秀でしたが、多くの「オープンソースの AI」は、特に非英語の質問や複雑な道具の組み合わせでつまずいていました。
  • トレーニングの効果: しかし、この「ITC ドリル」で AI を訓練(微調整)させると、劇的に上手になりました。
    • 特に、英語以外の言語での質問に対する答え方が良くなりました。
    • 見たことのない新しい道具でも、理屈を推測して正しく使えるようになりました。

【例え話】
これまで「英語圏のスーパー」しか行ったことなかった AI が、「ITC ドリル」という「世界一周旅行のガイドブック」を手に取って勉強したところ、いきなり「日本の八百屋」でも「インドの屋台」でも、現地の言葉で正しく買い物ができるようになったという感じです。

4. なぜこれが重要なのか?

この研究は、AI が単に「おしゃべり」ができるだけでなく、**「世界中のどこでも、どんな言葉で頼まれても、実際に役に立つ仕事(予約、データ分析、サポートなど)をこなせる」**ようになるための重要な一歩です。

  • 多様性: 特定の国や文化に偏らず、世界中のユーザーに公平に使える AI を作れる。
  • 実用性: 本物の道具(API)で練習しているので、実際にサービスに組み込んだ時に失敗しにくい。

まとめ

この論文は、**「AI を『英語圏の天才』から『世界中で活躍する実務家』に進化させるための、新しい最強のトレーニング教材」**を公開したというお話しです。

これにより、AI は今後、国境や言葉の壁を越えて、私たちが日常生活で困った時に、より的確にサポートしてくれるようになることが期待されています。