Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

App Store の検索ランキングにおいて、LLM を活用して生成したテキスト関連性ラベルを行動データと組み合わせることで、オフライン評価指標の改善と、特にロングテールクエリにおけるコンバージョン率の統計的有意な向上(+0.24%)を実現した。

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha

公開日 Tue, 10 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍎 物語の舞台:巨大な「アプリの図書館」

Imagine App Store を、世界中のすべてのアプリが並ぶ**「巨大な図書館」**だと想像してください。
ユーザーは「料理が作れるアプリ」と検索します。図書館の司書(検索システム)は、その言葉に合う本(アプリ)を並べ替えて提示します。

この図書館の司書には、2 つの重要なルールがあります。

  1. 「行動のルール」: 「多くの人がクリックして借りている本は、きっと良い本だよね?」(クリック数やダウンロード数)
  2. 「意味のルール」: 「『料理』という言葉と、本の内容(タイトルや説明)が本当に合っているか?」(専門家のチェック)

🚧 問題点:司書が疲弊している

この図書館には**「行動のルール」のデータは山ほどあります。誰が何を買ったかは自動で記録されるからです。
しかし、
「意味のルール」**のデータを作るのは大変です。
「このアプリは『料理』という検索に本当に合っているか?」を判断するには、人間のプロ(専門家の司書)が一つ一つ本を読んで、評価をつける必要があります。

  • 問題: 専門家の司書は数が限られていて、疲れてしまいます。
  • 結果: 「行動のルール」は完璧なのに、「意味のルール」のデータが不足しているため、検索精度に限界がありました。特に、誰も検索しない「マイナーな言葉(テールクエリ)」では、行動データが全くないので、司書は当てずっぽうで並べ替えるしかありませんでした。

💡 解決策:AI 助手(LLM)を雇う

そこで Apple は、**「AI 助手(LLM)」**を雇うことにしました。この AI 助手は、人間のプロ司書が過去につけた評価(ラベル)を勉強させました。

ステップ 1:AI 助手のトレーニング

まずは、AI 助手がどのくらい優秀か試しました。

  • 巨大な AI(300 億パラメータ): 頭はいいけど、勉強させないと専門用語がわからない。
  • 小さな AI(30 億パラメータ): 頭はそこそこだが、人間のプロの「評価の基準」を徹底的に勉強(ファインチューニング)させた。

結果: 驚くことに、「勉強させた小さな AI」の方が、勉強させていない巨大な AI よりも、人間に近い正確な評価を下すことがわかりました。
これは、「経験豊富なベテラン(小さな AI)」が、「知識は多いが経験のない新人(巨大な AI)」よりも、この仕事に向いているという発見です。

ステップ 2:AI 助手の活躍(数百万件の評価)

優秀な AI 助手が決定したので、さっそく働かせました。
人間が一生かけても作れない**「数百万件もの評価データ」**を、AI が一夜にして生成しました。
これで、図書館の棚には「意味のルール」に基づいたデータが溢れかえりました。

📈 成果:「完璧な司書」の誕生

この新しいデータを使って、図書館の司書(検索システム)を再教育しました。

  • オフラインテスト(模擬試験):
    従来の司書と、AI のデータを学んだ新しい司書を比べました。
    結果、新しい司書は**「意味のルール」も「行動のルール」も、両方とも上手に判断できるようになりました。**
    これを専門用語では「パレト改善(両方の指標を同時に向上させる)」と呼びますが、簡単に言えば**「悪いところを直して、良いところもさらに良くした」**状態です。

  • オンラインテスト(実戦):
    世界中の App Store で、実際に新しい司書を導入する実験(A/B テスト)を行いました。

    • 結果: ユーザーがアプリをダウンロードする確率が、0.24% 向上しました。
    • 一見小さな数字に思えますが、世界中の何億人ものユーザーがいる App Store では、これは**「とてつもない大成功」**です。

🌟 最大の功績:「マイナーな言葉」の救済

この実験で最も面白い発見がありました。
**「検索数が少ないマイナーな言葉(テールクエリ)」**で、最も効果が出たのです。

  • なぜか?
    人気のある言葉(例:「ゲーム」)なら、誰が何を買ったかというデータ(行動データ)が豊富にあるので、従来の司書でもそこそこできました。
    しかし、**「マイナーな言葉(例:『19 世紀のフランスの陶芸』)」**では、誰も検索しないため、行動データがゼロです。従来の司書は「何もないから適当に並べよう」としていましたが、AI 助手が生成した「意味のデータ」のおかげで、新しい司書は「このアプリは確かに『19 世紀の陶芸』に合っている!」と正しく判断できるようになりました。

🎁 まとめ

この論文が伝えていることはシンプルです。

「人間のプロの判断を、AI が『勉強』して真似することで、数百万倍のデータを量産できる。それによって、検索システムは『人気があるから良い』だけでなく、『本当に意味が合っているから良い』アプリを見つけられるようになり、特に誰も知らないようなマイナーな検索でも、ユーザーにぴったりなアプリを提案できるようになった」

Apple は、この「AI 助手によるデータ生成」という方法を、App Store だけでなく、他の巨大な検索システムでも使える「新しい標準(ブループリント)」として提案しています。