Each language version is independently generated for its own context, not a direct translation.
タオバオの「賢い検索係」が生まれた話:TaoSR1 の解説
こんにちは!今日は、アリババグループ(タオバオ)が発表した新しい技術「TaoSR1」について、難しい専門用語を使わずに、まるでお茶の席で話をしているように解説します。
この技術は、**「ネットショッピングで、ユーザーが探している商品を、より正確に見つけてくれる『賢い検索係』」**を作るためのものです。
1. なぜ新しい「検索係」が必要なの?
昔からネットショッピングの検索には、**「BERT」**という優秀な検索係がいました。
- 得意なこと: 「赤い靴」と入力すれば、赤い靴を素早く見つける。文字の一致や簡単な意味の理解は抜群です。
- 苦手なこと: 「Miu Miu(ミウミウ)の代わりになるような、安くて可愛いバッグ」のような、複雑なニュアンスや論理的な推論が必要な質問には弱かったんです。
「代わりになるもの」って、Miu Miu 自体じゃなくて、似ている別のブランドですよね?昔の検索係は「Miu Miu」という言葉に引っ張られて、本来のブランドを「代わり」としておすすめしてしまったりしていました。
そこで、最新の「LLM(大規模言語モデル)」という、**「超天才な検索係」**を使おうと試みられました。でも、この天才は以下の 3 つの悩みを抱えていました。
- 遅すぎる: 考える過程(思考プロセス)をすべて口に出して説明すると、回答までに時間がかかりすぎて、ユーザーが待てない。
- ミスが連鎖する: 思考の途中で少し間違えると、その間違いが積み重なって、最終的な答えも間違ったものになってしまう。
- 自信過剰な嘘: 論理は完璧なのに、最後の答えだけ間違えてしまう(これを「判別ハルシネーション」と呼びます)。
2. TaoSR1 の解決策:3 段階のトレーニング
TaoSR1 は、この「天才検索係」を、実戦で使えるように鍛え上げるための3 段階のトレーニングプログラムです。
第 1 段階:思考の練習(SFT with CoT)
まず、検索係に「答えを言う前に、なぜそう思ったかを説明する(Chain-of-Thought)」練習をさせます。
- 工夫: 通常は「考えてから答える」のですが、TaoSR1 は**「まず答えを先に言って、その後に理由を説明する」**という逆転の発想を取り入れました。
- なぜ? 「考えてから答える」だと、思考の途中でミスが起きると、そのミスが答えにまで影響します。でも、「答えを先に言う」ことで、答えの方向性を固定し、その後に理由を補足する形にすることで、ミスの連鎖を防ぎつつ、論理的な思考力も身につけさせました。
- RAG(検索支援): 複雑なビジネスルール(例:「Mate50」で「Mate50 Pro」は関連、逆は不適合など)を教えるために、辞書のようなデータベースから必要なルールをその場で引き出して教える仕組みも導入しました。
第 2 段階:正解の選び方(DPO)
次に、検索係に「正解を選ぶ目」を養います。
- 方法: 一度に 5 つの答えを生成させます(Pass@N)。その中から「正解」と「不正解」のペアを作り、「正解の方を好きになれ!」と教えます(DPO)。
- 工夫: 検索係がどうしても間違えてしまう難問については、別の「超天才(Oracle)」に正解を作ってもらい、それを「正解の例」として見せて、検索係に「これこそが正解だ」と理解させました。
第 3 段階:難易度に応じた特訓(GRPO)
最後に、**「難しい問題に特化して強化」**します。
- 方法: 検索係が「正解も不正解も混ざっている」ような、ちょうどいい難易度の問題だけを抽出して、オンラインで繰り返し特訓させます。
- 工夫: 「全部正解」や「全部不正解」の問題は、学習効率が悪いため除外しました。また、ラベル(正解の分布)が偏りすぎないように調整することで、モデルが特定の答えに偏って「自信過剰な嘘」をつくのを防ぎました。
3. 実戦への導入:CumPT(累積確率による階層分け)
最後に、この天才検索係を実際のタオバオのシステムに組み込む際の問題を解決しました。
- 問題: 従来の方法は、答えを「良い・普通・悪い」に分けるために、複数の「しきい値(閾値)」を手動で調整する必要があり、設定が複雑で難しかったです。
- 解決策(CumPT): **「累積確率」**という新しい方法を使いました。
- イメージ: 100 点満点のテストで、「90 点以上は A 判定、60 点以上は B 判定」と決める代わりに、「90 点以上の確率が 50% 超えたら A、それ以下で 60 点以上の確率が 50% 超えたら B」というように、確率を足し算しながら 1 つの基準で判断する方法です。
- メリット: 設定がシンプルになり、システムが安定して動くようになりました。
4. 結果はどうだった?
この新しい「TaoSR1」を実際のタオバオでテストした結果は素晴らしいものでした。
- オフライン評価: 複雑な質問(「Miu Miu の代わり」など)に対する正解率が大幅に向上しました。
- オンライン評価(人間による比較):
- 「Miu Miu の代わり」のような質問では、34% もユーザー満足度が向上しました!
- 「黒くする薬は?」といった知識が必要な質問でも、**18%**向上しました。
- ビジネスへの影響: ユーザーの購入意欲(PV や取引数)は落ちることなく、むしろ2.4% 増加しました。つまり、検索が良くなったことで、ユーザーがより多くの商品を見て、買ってくれるようになったのです。
まとめ
TaoSR1 は、「思考力のある AI 検索係」を、実用的なスピードと精度で動かすための新しいトレーニング方法です。
- 答えを先に言って、後に理由を説明する(ミスを防ぐ)。
- 難しい問題には、別の天才の答えを参考にする(正解を学ぶ)。
- ちょうどいい難易度の問題だけを特訓する(バランスを保つ)。
このようにして、複雑なユーザーの意図を理解し、より良いショッピング体験を提供できるようになりました。これは、AI を単なる「検索エンジン」から「賢いショッピングアドバイザー」に進化させる大きな一歩と言えるでしょう。