Each language version is independently generated for its own context, not a direct translation.

この論文は、**「WebExpert（ウェブエキスパート）」**という新しい AI 探偵の仕組みについて紹介しています。

普通の AI はインターネットを検索する時、少し「ぼんやり」して、間違った方向に行きがちです。でも、この WebExpert は、**「プロの探偵が持っている経験則（コツ）」**を事前に学んでおくことで、金融や医療、法律など難しい分野でも、非常に正確に答えを見つけられるようになります。

わかりやすくするために、3 つのステップで説明しますね。

🕵️‍♂️ 1. 普通の AI と WebExpert の違い：「迷子」vs「ベテラン探偵」

普通の AI（迷子探偵）：
「この会社の株価はどう？」と聞かれると、とりあえず「株価」や「会社名」で検索します。でも、**「いつの時期？」「どこの国の法律？」「どんな業界の基準？」**といった重要な条件を忘れがちです。その結果、関係ないページを何十回もクリックしてしまい、答えにたどり着くのが遅かったり、間違った情報を信じてしまったりします。
WebExpert（ベテラン探偵）：
この AI は、**「過去の成功した事件のノート（経験データベース）」を持っています。
「あ、この質問は『金融』の分野だ。過去のノートには『金融の件は、必ず「時期」と「地域」を指定しないと答えが変わる』と書いてある！」と即座に思い出します。
そのメモを頼りに、「2024 年の日本の金融庁の規制に基づいて、〇〇社の株価を調べて」**という、非常に的確な検索クエリ（質問文）を最初から作れます。

🛠️ 2. WebExpert がやっている 3 つの魔法

この AI がどうやって「ベテラン」になったのか、3 つの魔法を使っています。

① 「経験のノート」を作る（クリティック・ガイド）

まず、専門家たちが書いた記事や、過去の質問と答えの集まりを AI が見て、**「重要なコツ」**だけを抜き出します。

例：「分散投資は、資産が連動していない時に一番効果的だ」というような、**「1 文で書ける黄金のルール」**を何千も集めて、整理します。
これを**「経験データベース」**として持っておきます。

② 「検索の枠組み」を自動で考える（ファセット誘導）

普通の検索は「キーワード」だけですが、WebExpert は検索する前に**「どんな角度から見るべきか」**を自動で考えます。

「時間（いつ？）」、「地域（どこ？）」、「政策（どんなルール？）」、「業界（どの分野？）」
これらを**「検索の枠（ファセット）」**と呼びます。人間がマニュアルで決めるのではなく、AI がデータから「あ、この分野では『時間』と『地域』が重要だな」と勝手に見つけて、検索に組み込みます。

③ 「ベストな検索」を練習する（好き嫌いの学習）

AI は、「良い検索」か「悪い検索」かを自分で判断する練習をします。

「この検索で良い答えが得られたら『おめでとう！』、ダメな答えなら『次はこうしよう』」と、**「正解に近い方へ」**とAI の思考を調整します。
これにより、無駄なページを回る回数が減り、最短ルートで正解にたどり着けるようになります。

📊 3. 結果はどうだった？

この仕組みを試したところ、以下のような素晴らしい結果が出ました。

正解率がアップ： 難しいクイズ（GAIA や GPQA など）で、従来の最強の AI よりも1.5%〜3.6% ほど正解率が高くなりました。数字にすると一見小さく見えますが、AI の世界では「劇的な差」です。
無駄な動きが減った： 答えを見つけるためにクリックするページ数（ページホップ）が大幅に減りました。つまり、**「余計な回り道をせず、サクサク答えにたどり着ける」**ようになりました。
証拠がしっかりしている： 単に「たぶんこれかな？」と推測するのではなく、**「信頼できるソースから、具体的な証拠を持って答えを導き出せる」**ようになりました。

💡 まとめ：なぜこれがすごいのか？

この論文の核心は、**「AI に『専門家の直感』を教えること」**です。

これまでの AI は、何でも「検索して、読んで、考えて」いましたが、WebExpert は**「検索する前に、プロの経験則で『どう探すか』を計画する」**というステップを挟みました。

まるで、**「地図も持たずに街を歩く初心者」と「地元のベテランガイドが『この道は混むから、あっちの裏道に行こう』と教えてくれる」**の違いのようなものです。

この「WebExpert」のような仕組みがあれば、AI は金融のアドバイスや医療の情報収集など、**「間違えると大変な分野」**でも、より信頼できるパートナーとして活躍できるようになるでしょう。

Each language version is independently generated for its own context, not a direct translation.

WebExpert: 高精度検索のためのクリティック誘導型専門家経験を持つドメイン認識 Web エージェント

本論文は、金融、バイオメディカル、製薬などの専門分野における Web タスクの課題を解決するため、WebExpertという新しいドメイン認識型 Web エージェントを提案しています。既存の汎用 Web エージェントは、専門的なドメイン知識（ドメイン・プライア）が不足しているため、検索クエリの逸脱、ノイズの多い証拠、脆弱な推論に悩まされています。WebExpert は、これらの課題に対し、専門家の経験（Expert Experience）を統合し、高精度な検索と推論を実現します。

以下に、論文の技術的概要を問題定義、手法、主要な貢献、実験結果、意義の観点から詳述します。

1. 問題定義 (Problem)

専門分野（金融、医療、薬学など）における Web ベースのタスクでは、以下の課題が存在します。

ドメイン・プライアの欠如: 汎用エージェントは、季節性、地域規制、ドメイン固有の粒度といった文脈的要因を考慮できず、的外れなクエリを生成したり、無関係なページを徘徊したりします。
証拠のノイズと推論の脆さ: 専門的な文書から正確な証拠を抽出・統合する能力が不足しており、回答の精度が低下します。
静的な辞書への依存: 従来のドメイン適応手法は、手書きの辞書や固定されたスキーマに依存しており、柔軟性に欠けます。

2. 手法 (Methodology)

WebExpert は、深いブラウジングを行う前に「専門家経験モジュール」を統合する 3 ステップのパイプラインで構成されています。

(1) クリティック誘導型専門家経験の抽出 (Critic-Guided Expert Experience Extraction)

オフラインで、QA ペアやキュレーションされたソースから、再利用可能な「文レベルの経験」を構築します。

QA クラスタリング: 質問と回答のベクトル表現を用いて、多視点密度クラスタリング（HDBSCAN や BERTopic など）を行い、意味的に類似した問題群を特定します。
証拠の集約と重複排除: 各クラスタ内で、BM25 と密な検索を用いて上位のページや引用を収集し、MMR（最大限界関連性）で多様性を確保します。
矛盾を考慮した要約: DeepSeek-R1 などの推論モデルを用いて、条件、核心的なガイダンス、エッジケース、既知の失敗モードを含む「ルール（規則）」を生成します。矛盾する記述はフィルタリングされます。
ファセット化と正規化: 生成されたルールを、時間、地域、政策、業界（L2 産業）などの「ファセット（属性）」に構造化し、メタデータを付与します。

(2) スキーマ軽量化ファセット誘導 (Schema-Light Facet Induction)

静的な手書きの辞書に依存せず、弱い教師信号とコーパス統計からファセット語彙を自動的に誘導します。
これにより、特定のドメイン（例：CFA 協会、FDA など）の用語を自動的に検知し、柔軟に対応可能です。

(3) 推論時の経験条件付き計画 (Experience-Conditioned Planning)

オンライン推論時には、以下のプロセスを実行します。

経験の検索: 入力質問に対して、事前構築された経験ベースから Top-k の関連ルールを検索します。
経験ゲート (Experience Gate): 検索された経験の信頼度（コサイン類似度の平均）を計算します。信頼度が閾値（ $\theta=0.3$ ）を下回る場合は、過度な制約を避けるために汎用クエリ生成にフォールバックします。
ドメイン接地クエリ生成: 信頼度が高い場合、アクティブなファセット（時間、地域など）にバイアスをかけたマルチクエリ計画を生成します。
深層ブラウジング: 生成されたクエリに基づき、検索と推論を交互に行い、最終回答を導出します。

(4) 学習と最適化 (SFT and Training Objectives)

ファセット整合性: 検索されたファセットと一致するドメイン接地クエリを生成するように、QwQ-32B モデルを微調整（SFT）します。
ペアワイズ選好最適化: 高品質な経験を選択し、ファセットのカバレッジを最大化するように、対照的学習（Contrastive Learning）と選好最適化を適用します。

3. 主要な貢献 (Key Contributions)

クリティック誘導型抽出チェーン: 注釈付きデータや専門家資料から文レベルの経験を引き出し、ドメイン固有のファセットに沿ったクエリ意味を誘導する新しい枠組みを提案しました。
実用的なパイプライン: 文埋め込み、トピックマージ、ルール蒸留（UMAP, HDBSCAN, BERTopic を使用）を含む一貫したパイプラインを実装しました。
スキーマ軽量化ファセット誘導: 手書きの辞書に依存せず、弱い教師信号からファセット語彙を自動誘導する手法を導入し、ドメイン適応の柔軟性を向上させました。
経験条件付き計画と最適化: カバレッジを考慮した SFT と選好最適化を組み合わせ、汎用 RAG（Retrieval-Augmented Generation）を超えた精度を達成しました。

4. 実験結果 (Results)

GAIA, GPQA, HLE, WebWalkerQA などの主要ベンチマークで評価を行いました。

精度の向上: 最強のブラウジングベースライン（WebThinker-32B-Base など）と比較して、Answer Exact Match (EM) が 1.5〜3.6 ポイント向上しました。
- 例：GAIA で 44.7% → 47.7%、GPQA で 68.7% → 71.9%。
効率性の向上: 解決に必要なページ遷移数（Page Hops）が 8.1 から 5.2 へと大幅に減少し、不要な検索を回避しています。
クエリ品質: 検索精度（Query Precision@3）が 49.3% から 61.8% へと向上しました。
アブレーション研究: 文レベルの埋め込み、トピックマージ、SFT が精度向上に最も寄与していることが示されました。

5. 意義と結論 (Significance)

WebExpert は、専門分野における Web エージェントの限界を克服する重要なステップです。

ドメイン適応の新たなパラダイム: 単なる検索の強化ではなく、専門家の経験（ルール）を構造化して推論プロセスに直接組み込むことで、ドメイン固有の文脈（規制、季節性など）を正確に反映できます。
実用性: 金融、医療、薬学など、高い正確性が求められる分野での実装が可能となり、誤った情報に基づく意思決定のリスクを低減します。
技術的革新: 静的な辞書に依存しない動的なファセット誘導と、クリティック（批判的）な要約によるルール生成は、将来的なドメイン適応型 AI システムの設計指針となるでしょう。

本論文は、コードを GitHub で公開しており、研究コミュニティにおけるさらなる発展を促すものです。

WebExpert: domain-aware web agents with critic-guided expert experience for high-precision search