Each language version is independently generated for its own context, not a direct translation.

タオバオの「賢い検索係」が生まれた話：TaoSR1 の解説

こんにちは！今日は、アリババグループ（タオバオ）が発表した新しい技術「TaoSR1」について、難しい専門用語を使わずに、まるでお茶の席で話をしているように解説します。

この技術は、**「ネットショッピングで、ユーザーが探している商品を、より正確に見つけてくれる『賢い検索係』」**を作るためのものです。

1. なぜ新しい「検索係」が必要なの？

昔からネットショッピングの検索には、**「BERT」**という優秀な検索係がいました。

得意なこと: 「赤い靴」と入力すれば、赤い靴を素早く見つける。文字の一致や簡単な意味の理解は抜群です。
苦手なこと: 「Miu Miu（ミウミウ）の代わりになるような、安くて可愛いバッグ」のような、複雑なニュアンスや論理的な推論が必要な質問には弱かったんです。

「代わりになるもの」って、Miu Miu 自体じゃなくて、似ている別のブランドですよね？昔の検索係は「Miu Miu」という言葉に引っ張られて、本来のブランドを「代わり」としておすすめしてしまったりしていました。

そこで、最新の「LLM（大規模言語モデル）」という、**「超天才な検索係」**を使おうと試みられました。でも、この天才は以下の 3 つの悩みを抱えていました。

遅すぎる: 考える過程（思考プロセス）をすべて口に出して説明すると、回答までに時間がかかりすぎて、ユーザーが待てない。
ミスが連鎖する: 思考の途中で少し間違えると、その間違いが積み重なって、最終的な答えも間違ったものになってしまう。
自信過剰な嘘: 論理は完璧なのに、最後の答えだけ間違えてしまう（これを「判別ハルシネーション」と呼びます）。

2. TaoSR1 の解決策：3 段階のトレーニング

TaoSR1 は、この「天才検索係」を、実戦で使えるように鍛え上げるための3 段階のトレーニングプログラムです。

第 1 段階：思考の練習（SFT with CoT）

まず、検索係に「答えを言う前に、なぜそう思ったかを説明する（Chain-of-Thought）」練習をさせます。

工夫: 通常は「考えてから答える」のですが、TaoSR1 は**「まず答えを先に言って、その後に理由を説明する」**という逆転の発想を取り入れました。
なぜ？ 「考えてから答える」だと、思考の途中でミスが起きると、そのミスが答えにまで影響します。でも、「答えを先に言う」ことで、答えの方向性を固定し、その後に理由を補足する形にすることで、ミスの連鎖を防ぎつつ、論理的な思考力も身につけさせました。
RAG（検索支援）: 複雑なビジネスルール（例：「Mate50」で「Mate50 Pro」は関連、逆は不適合など）を教えるために、辞書のようなデータベースから必要なルールをその場で引き出して教える仕組みも導入しました。

第 2 段階：正解の選び方（DPO）

次に、検索係に「正解を選ぶ目」を養います。

方法: 一度に 5 つの答えを生成させます（Pass@N）。その中から「正解」と「不正解」のペアを作り、「正解の方を好きになれ！」と教えます（DPO）。
工夫: 検索係がどうしても間違えてしまう難問については、別の「超天才（Oracle）」に正解を作ってもらい、それを「正解の例」として見せて、検索係に「これこそが正解だ」と理解させました。

第 3 段階：難易度に応じた特訓（GRPO）

最後に、**「難しい問題に特化して強化」**します。

方法: 検索係が「正解も不正解も混ざっている」ような、ちょうどいい難易度の問題だけを抽出して、オンラインで繰り返し特訓させます。
工夫: 「全部正解」や「全部不正解」の問題は、学習効率が悪いため除外しました。また、ラベル（正解の分布）が偏りすぎないように調整することで、モデルが特定の答えに偏って「自信過剰な嘘」をつくのを防ぎました。

3. 実戦への導入：CumPT（累積確率による階層分け）

最後に、この天才検索係を実際のタオバオのシステムに組み込む際の問題を解決しました。

問題: 従来の方法は、答えを「良い・普通・悪い」に分けるために、複数の「しきい値（閾値）」を手動で調整する必要があり、設定が複雑で難しかったです。
解決策（CumPT）: **「累積確率」**という新しい方法を使いました。
- イメージ: 100 点満点のテストで、「90 点以上は A 判定、60 点以上は B 判定」と決める代わりに、「90 点以上の確率が 50% 超えたら A、それ以下で 60 点以上の確率が 50% 超えたら B」というように、確率を足し算しながら 1 つの基準で判断する方法です。
- メリット: 設定がシンプルになり、システムが安定して動くようになりました。

4. 結果はどうだった？

この新しい「TaoSR1」を実際のタオバオでテストした結果は素晴らしいものでした。

オフライン評価: 複雑な質問（「Miu Miu の代わり」など）に対する正解率が大幅に向上しました。
オンライン評価（人間による比較）:
- 「Miu Miu の代わり」のような質問では、34% もユーザー満足度が向上しました！
- 「黒くする薬は？」といった知識が必要な質問でも、**18%**向上しました。
ビジネスへの影響: ユーザーの購入意欲（PV や取引数）は落ちることなく、むしろ2.4% 増加しました。つまり、検索が良くなったことで、ユーザーがより多くの商品を見て、買ってくれるようになったのです。

まとめ

TaoSR1 は、「思考力のある AI 検索係」を、実用的なスピードと精度で動かすための新しいトレーニング方法です。

答えを先に言って、後に理由を説明する（ミスを防ぐ）。
難しい問題には、別の天才の答えを参考にする（正解を学ぶ）。
ちょうどいい難易度の問題だけを特訓する（バランスを保つ）。

このようにして、複雑なユーザーの意図を理解し、より良いショッピング体験を提供できるようになりました。これは、AI を単なる「検索エンジン」から「賢いショッピングアドバイザー」に進化させる大きな一歩と言えるでしょう。

Each language version is independently generated for its own context, not a direct translation.

論文「TaoSR1: The Thinking Model for E-commerce Relevance Search」の技術的サマリー

本論文は、アリババグループ（タオバオ・天猫）において、EC 検索における「クエリと商品の関連性予測」タスクを解決するために提案された、大規模言語モデル（LLM）ベースの最適化フレームワーク「TaoSR1」に関する研究です。従来の BERT ベースのモデルが苦手とする複雑な推論が必要なクエリに対し、CoT（Chain-of-Thought）推論を活用しつつ、オンラインシステムへの実用性を両立させる手法を提案しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 背景と課題 (Problem)

EC 検索エンジンにおいて、クエリと商品の関連性を正しく予測することはユーザー体験の基盤です。

現状の限界: 従来のアプローチは BERT などのモデルに依存しており、テキストマッチングや基本的な意味理解には優れていますが、複雑なクエリ（例：「Miu Miu の代わりになるもの」や否定表現など）に対する推論能力が不足しています。
LLM 導入の課題: 近年、LLM を検索システムに応用する研究が進んでいますが、以下の実用上の課題により、オンラインシステムへの直接導入は困難でした。
1. レイテンシ: CoT（思考プロセス）を生成するとトークン数が増え、応答時間が遅延する。特に、1 回のリクエストで数百の候補商品との関連性を計算する必要がある検索タスクでは、リアルタイム生成は計算コスト的に不可能に近い。
2. CoT における誤りの蓄積: 長い思考プロセスの途中で生じたわずかな誤り（ハルシネーション）が最終的な分類結果に伝播し、精度を低下させる。
3. 識別的ハルシネーション: 正しい推論チェーンを生成しても、最終的な答え（ラベル）が誤っているケースが存在する。

2. 提案手法 (Methodology)

TaoSR1 は、LLM を直接オンラインシステムに展開可能にするための 3 段階の最適化フレームワークと、デプロイメントのための新しいスコアリング手法で構成されています。

2.1 段階 1: CoT を用いた教師あり微調整 (SFT)

目的: モデルに推論能力を付与し、ビジネスルールの理解を深める。
RAG による CoT 生成: EC 関連性の注釈は複雑なビジネスルールに基づいています。これをモデルに学習させるため、RAG（Retrieval-Augmented Generation）パイプラインを用いて、原子化されたルールを動的に検索し、推論プロセス（CoT）を合成しました。
思考順序の逆転（Respond-then-think）:
- 従来の「Think-then-respond」（推論→回答）では、長い生成過程で誤りが蓄積し、精度が低下しました。
- 提案手法では**「Respond-then-think」（回答→推論）**を採用しました。まずラベルを予測し、その後にその根拠となる推論プロセスを生成します。これにより、誤りの蓄積を回避しつつ、推論能力を維持し、低遅延なデプロイを可能にしました。

2.2 段階 2: Pass@N ベースの DPO (Direct Preference Optimization)

目的: モデルの生成品質を向上させ、プロセス誤りによる結果の誤りを修正する。
手法:
- オフラインで複数回サンプリング（Pass@N）を行い、正解を含むケースと正解を含まないケースを識別します。
- 解けるケース: モデル自身が正解したサンプルを「Chosen」、誤ったサンプルを「Rejected」として DPO 学習に使用（自己修正）。
- 解けないケース（Hard Cases）: モデルが常に失敗するケースについては、より強力なモデル（DeepSeek-R1）を「Oracle」として用い、その正解を「Chosen」として学習データに追加します。これにより、モデル単体のサンプリングでは得られない知識を注入します。

2.3 段階 3: 難易度に基づく動的サンプリングと GRPO

目的: 識別的ハルシネーションをさらに軽減し、推論プロセスの質を高める。
手法:
- GRPO（Group Relative Policy Optimization）を採用し、オンラインでの大規模サンプリングを可能にします。
- 難易度ベースのサンプリング: すべて正解またはすべて誤りであるバッチ（同質バッチ）は除外し、正解率が 0 以上かつ閾値 $\gamma$ 未満の「難しいが解ける可能性のある」インスタンスに焦点を当てて学習を行います。
- これにより、学習効率を高め、ハルシネーションの発生率を 30% 削減しました。

2.4 オンライン展開のための Cumulative Probability Tiering (CumPT)

課題: 従来の閾値設定は複数のハイパーパラメータを必要とし、調整が複雑でした。
解決策: 4 つの関連性クラス（Excellent, Related, Mismatch, Irrelevant）の確率を降順に累積し、単一の閾値 $\beta_{cum}$ で「Good/Mid/Bad」の 3 つのティアに分類する手法を提案しました。これにより、ハイパーパラメータを最小化し、オフライン性能とオンライン性能のギャップを埋めました。

3. 主要な貢献 (Key Contributions)

LLM ベースの関連性モデルの直接デプロイ: 推論能力を維持しつつ、レイテンシ制約を満たす「Respond-then-think」アーキテクチャと、効率的なサンプリング戦略を確立しました。
複合的な最適化フレームワーク: SFT（CoT）、DPO（Oracle 指導付き）、GRPO（難易度ベース）の 3 段階を組み合わせ、複雑なクエリに対する推論能力とロバスト性を同時に向上させました。
ハルシネーションの軽減: 識別的ハルシネーションを特定し、GRPO と難易度ベースのサンプリングによってこれを大幅に抑制するメカニズムを実証しました。
実用的なデプロイ手法: 複雑な閾値調整を不要にする CumPT 手法を提案し、大規模 EC システムでの実運用を可能にしました。

4. 実験結果 (Results)

オフライン評価

データセット: 難易度の高いクエリ（否定、代替品、QA、知識ベース）に焦点を当てた 7 万件のテストセット。
性能向上: 提案モデル（TaoSR1）は、ベースラインの BERT や単なる SFT 済みの LLM を大きく上回りました。
- Macro-F1 スコアは、ベースライン（LLM base）に対して4.9 ポイント向上しました。
- 特に「Respond-then-think」構成と RL（DPO/GRPO）の組み合わせが、誤り蓄積を解消し、最高性能を発揮しました。

オンライン評価（A/B テスト）

人間評価（Side-by-Side）:
- 「代替品」を尋ねるクエリにおいて、GSB（Good/Same/Bad）スコアが**+34.43%**向上。
- 「否定」や「知識ベース」のクエリでも、それぞれ +10.92%、+18.45% の改善が見られました。
- 従来のキーワードマッチングモデルでは誤ってブランド名そのものを返してしまうケース（例：「Miu Miu の代わり」で本物の Miu Miu を返す）が、TaoSR1 では正しく代替品を特定できるようになりました。
ビジネス指標:
- ユーザーの購入意図（UV, IPV, 取引件数、GMV）を損なうことなく、検索体験を向上させることに成功しました（PV 増加 2.43%、取引件数増加 0.82% など）。

5. 意義と結論 (Significance)

本論文は、大規模言語モデルを分類タスク（特に検索関連性）に応用する際の実践的な課題を体系的に解決した点で重要です。

推論と実用性の両立: 複雑な推論能力を LLM に持たせつつ、それをオンラインシステムで低遅延に動作させるためのアーキテクチャ（Respond-then-think）と学習パイプラインを確立しました。
分類タスクへの RL の適用: 数学やプログラミング分野に偏っていた RL による推論強化を、EC 検索という実世界の問題に適用し、その有効性を証明しました。
将来への示唆: 本フレームワークは、他の複雑な分類タスクにおいても、CoT 推論と強化学習を組み合わせる新たなパラダイムとして、他の分野への応用可能性を示唆しています。

結論として、TaoSR1 は、単なる精度向上だけでなく、大規模 EC プラットフォームにおける検索品質の飛躍的向上と、LLM の実用化における重要なマイルストーンとなる成果です。

TaoSR1: The Thinking Model for E-commerce Relevance Search