WebExpert: domain-aware web agents with critic-guided expert experience for high-precision search

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 비유: "초보 탐정 vs. 베테랑 형사"

상상해 보세요. 일반적인 AI는 이제 막 수사대에 들어온 초보 탐정과 같습니다.

문제: "이 사건을 해결해 줘"라고 하면, 초보 탐정은 막연하게 "범인 찾기"라고 검색창에 입력합니다.
결과: 관련 없는 뉴스, 오래된 정보, 헛된 단서들이 잔뜩 쏟아져 나옵니다. 이 중에서 진짜 단서를 찾아내려면 시간을 많이 쓰고, 때로는 엉뚱한 길로 빠지기도 합니다. 특히 금융, 의학, 법률처럼 전문 지식이 필요한 분야에서는 더더욱 막막해집니다.

반면, 이 논문에서 만든 WebExpert는 수십 년간 현장에서 일해온 베테랑 형사와 같습니다.

특징: 이 형사는 사건을 듣자마자 "아, 이 사건은 '서울시'에서 '지난달'에 발생한 '금융 사기' 사건이군. 그러면 '서울시 금융당국'의 '최근 규정'을 먼저 확인해야겠어"라고 바로 생각합니다.
핵심: 검색하기 전에 **전문가들의 경험 (Expert Experience)**을 미리 꺼내어 검색 방향을 정확히 잡는 것입니다.

🛠️ WebExpert 가 어떻게 작동할까요? (3 단계 미션)

이 시스템은 크게 세 가지 단계로 이루어져 있습니다.

1 단계: "현장 경험장 (Experience Base) 만들기"

무엇을 하나요? 과거의 성공적인 질문과 답변, 그리고 전문가들이 남긴 팁들을 모아서 **작은 규칙 (Rules)**으로 정리합니다.
비유: 마치 형사들이 수백 건의 사건을 분석해서 "금융 사기 사건일 때는 반드시 '지역'과 '시점'을 확인해야 한다"는 수사 매뉴얼을 만드는 것과 같습니다.
기술적 특징: 단순히 텍스트를 모으는 게 아니라, 비슷한 주제끼리 묶고 (Topic Merging), 중복된 내용은 제거하며, 핵심만 추려냅니다.

2 단계: "검색 전, 전문가의 조언 듣기 (Experience Retrieval)"

무엇을 하나요? 사용자가 질문을 던지면, AI 는 먼저 만든 '수사 매뉴얼'에서 관련된 조언을 찾아냅니다.
비유: 초보 탐정이 사건을 맡으면, 베테랑 형사가 "이런 사건은 보통 A 지역과 B 시기에 많이 발생해. 검색할 때 이 키워드를 꼭 넣어!"라고 **조언 (Gate)**을 줍니다.
효과: 검색어가 "돈 관련 뉴스"가 아니라 "2024 년 서울 금융 규제"처럼 정확한 방향으로 바뀝니다.

3 단계: "정밀 수사 (Deep Browsing)"

무엇을 하나요? 이제 정확한 조언을 바탕으로 웹을 검색하고, 필요한 정보를 찾아 답을 만듭니다.
비유: 조언을 들은 탐정은 불필요한 길을 돌아다니지 않고, 가장 확실한 단서가 있는 곳으로 직행합니다. 그래서 더 적은 횟수 (Page Hops) 로 더 정확한 답을 찾아냅니다.

🌟 왜 이 기술이 특별한가요?

전문 분야에 강합니다:
- 일반 AI 는 "의학적 조언"을 검색할 때 "의사에게 물어보세요" 같은 뻔한 답만 줍니다. 하지만 WebExpert 는 "해당 질병의 '지역별 치료 가이드라인'과 '최신 임상 시험'을 확인해야 한다"는 전문적인 맥락을 먼저 이해하고 검색합니다.
실수 (할루시네이션) 를 줄입니다:
- 검색어가 정확해지므로, 엉뚱한 정보를 믿고 답을 만드는 실수가 크게 줄어듭니다.
효율적입니다:
- 불필요한 웹 페이지를 몇 번이나 클릭할 필요가 없어집니다. (논문 결과에 따르면 페이지 이동 횟수가 크게 감소했습니다.)

📊 실제 성과 (시험 성적)

이 시스템을 다양한 시험 (GAIA, GPQA 등) 에 적용해 보니, 기존에 가장 잘하던 AI 들보다 정답률 (Exact Match) 이 1.5~3.6% 포인트 더 높았습니다.

숫자로만 보면 작아 보일 수 있지만, AI 가 복잡한 문제를 풀 때 매우 큰 차이입니다. 마치 수능 시험에서 1 등과 2 등 사이의 격차를 좁히는 것과 같습니다.

💡 한 줄 요약

WebExpert는 "검색하기 전에 전문가의 경험을 먼저 참고해서, 검색어를 전문가 수준으로 다듬은 뒤 웹을 찾아보게 만든 똑똑한 AI 비서"입니다.

이제부터 AI 가 검색을 할 때, 단순히 키워드를 입력하는 게 아니라 전문가의 눈으로 상황을 파악하고 가장 중요한 정보를 찾아낸다고 생각하시면 됩니다!

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

금융, 바이오의약품, 제약과 같은 전문 도메인에서의 웹 태스크는 여전히 큰 도전 과제로 남아 있습니다. 기존 일반 웹 에이전트들은 다음과 같은 한계를 겪습니다:

도메인 사전 지식 (Domain Priors) 부재: 에이전트가 전문적인 맥락 (계절성, 지역 규제, 도메인 특이적 세분화 등) 을 고려하지 못해 검색 쿼리가 빗나가거나 (query drift), 관련 없는 페이지로 이동하며 증거를 놓칩니다.
노이즈와 취약한 추론: 증거가 노이즈가 많고 추론 과정이 부서지기 쉽습니다.
정적 스키마 의존: 기존 방법들은 수동으로 작성된 고정된 어휘집 (lexicons) 에 의존하여 시간, 지역, 정책, 산업 등의 요인 (facet) 을 처리하는 데 한계가 있습니다.

2. 방법론 (Methodology)

논문은 WebExpert라는 도메인 인식 웹 에이전트를 제안하며, 이는 심층 웹 탐색 (Deep Browsing) 전에 전문가 경험을 통합하는 3 단계 파이프라인을 따릅니다.

A. 비판자 유도 전문가 경험 추출 (Critic-Guided Expert Experience Extraction)

오프라인 단계에서 전문가 코퍼스와 QA 쌍을 기반으로 재사용 가능한 '문장 수준의 경험 (Sentence-level experiences)'을 추출하고 규칙으로 정제합니다.

질문 수집 및 표준화: QA 쌍을 수집하고, 문장 유사도 및 의미적 의도를 정규화합니다.
다중 뷰 클러스터링: 질문과 답변의 임베딩을 기반으로 HDBSCAN 또는 BERTopic 등을 사용하여 의미적으로 유사한 QA 그룹을 형성합니다.
증거 집계 및 중복 제거: BM25 와 밀도 기반 검색을 통해 상위 페이지를 선별하고, MMR(Maximal Marginal Relevance) 을 적용하여 다양성을 확보합니다.
모순 인식 요약 (Critic-Guided Summarization): DeepSeek-R1 과 같은 대형 추론 모델을 사용하여 각 클러스터의 내용을 요약합니다. 이 과정은 가정, 핵심 지침, 엣지 케이스, 실패 모드를 포함하는 **규칙 (Rule)**을 생성하며, 모순되는 진술은 필터링됩니다.
요인화 (Facetization) 및 정규화: 생성된 규칙을 시간, 지역, 정책, 산업 (L2) 등의 요인 (facet) 으로 분류하고 메타데이터를 부착합니다. 이는 수동 스키마 없이 약한 감독 (weak supervision) 과 코퍼스 통계로부터 자동 유도됩니다.

B. 추론 (Inference)

온라인 단계에서 에이전트는 다음과 같이 작동합니다:

경험 검색: 입력 질문 $q$ 에 대해 Top-k 개의 관련 전문가 경험 $E^{(k)}$ 을 검색합니다.
도메인 기반 쿼리 생성: 검색된 경험을 기반으로 쿼리 계획 $z$ 를 생성합니다. Experience Gate가 활성화된 요인 (active facets) 으로 디코딩을 편향시키지만, 검색 신뢰도가 임계값 ( $\theta=0.3$ ) 이하일 경우 일반 쿼리 생성으로 백업 (fallback) 하여 과도한 제약을 방지합니다.
심층 탐색: 생성된 쿼리를 사용하여 웹을 탐색하고, 검색된 문서와 추론을 교차시키며 최종 답변을 도출합니다.

C. 훈련 및 최적화 (SFT and Training Objectives)

QwQ-32B 모델을 경험 인식 (Experience-aware) 목적 함수로 미세 조정 (SFT) 합니다.

계획 최적화: 검색된 요인 (facet) 과 일치하는 도메인 기반 쿼리를 생성하도록 토큰 가중치를 조정합니다.
검색 마진 및 선호도 최적화: 고품질 경험을 선택하고 요인 커버리지를 보장하기 위해 대비 학습 (Contrastive Learning) 과 선호도 최적화 (Preference Optimization) 를 적용합니다.

3. 주요 기여 (Key Contributions)

비판자 유도 추출 체인: 문장 수준의 전문가 사전 지식을 추출하여 도메인 관련 요인 (facet) 에 따라 쿼리 시맨틱을 유도하는 새로운 프레임워크 제안.
실용적인 파이프라인: 문장 추출, 임베딩, 주제 클러스터링/병합, 규칙 정제 (UMAP, HDBSCAN, BERTopic 활용) 를 아우르는 자동화 프로세스 구축.
스키마-라이트 요인 유도 (Schema-light Facet Induction): 수동 어휘집 대신 약한 감독과 코퍼스 통계로부터 시간, 지역, 정책, 산업 요인 어휘를 자동 유도하여 유연성 확보.
경험 기반 계획 및 최적화: 커버리지 인식 SFT, 검색 마진, 선호도 최적화를 결합하여 기존 RAG 보다 높은 정밀도 달성.
성능 입증: GAIA, GPQA, HLE, WebWalkerQA 등 주요 벤치마크에서 기존 최강의 브라우징 베이스라인 대비 Answer Exact Match (EM) 를 1.5~3.6%p 향상시키고 페이지 이동 횟수 (Page Hops) 를 감소시킴.

4. 실험 결과 (Results)

주요 벤치마크 성능:
- GAIA: WebExpert+SFT 가 47.7% (EM) 달성 (기존 최강인 WebThinker-32B-Base 의 44.7% 대비 향상).
- GPQA: 71.9% (EM) 달성 (Search-o1 의 67.2% 대비 우위).
- HLE: 16.6% (EM) 달성.
- WebWalkerQA: 46.3% (EM) 달성.
정밀도 및 효율성:
- 쿼리 정밀도 (QP@3): WebExpert+SFT 는 61.8% 로, 기존 모델 대비 상승.
- 페이지 이동 (Page Hops): 해결된 예제당 페이지 방문 횟수가 8.1 에서 5.2 로 감소하여 효율성 증대.
- 증거 품질: 인용된 페이지의 nDCG@10 이 4~6 포인트 향상.
Ablation Study: 문장 수준의 임베딩과 SFT 가 성능 향상에 가장 큰 기여를 했으며, Top-5 경험 검색이 정밀도와 커버리지 간의 균형을 이룸을 확인.

5. 의의 (Significance)

이 논문은 도메인 특화 웹 에이전트의 성능 한계를 극복하기 위해, 단순한 검색 증강 생성 (RAG) 을 넘어 전문가 경험 (Expert Experience) 을 구조화된 규칙과 요인으로 정제하여 에이전트의 추론 과정에 주입하는 새로운 패러다임을 제시합니다.

실무 적용성: 금융, 의료 등 고위험 도메인에서 에이전트가 잘못된 정보를 검색하거나 추론하는 것을 방지하여 신뢰성을 높입니다.
기술적 혁신: 수동 스키마에 의존하지 않고 데이터에서 자동으로 도메인 요인을 학습하는 '스키마-라이트' 접근법은 다양한 도메인으로의 확장을 용이하게 합니다.
효율성: 불필요한 웹 페이지 탐색을 줄여 계산 비용과 시간을 절감하면서도 정답률을 높이는 효율적인 아키텍처를 증명했습니다.

결론적으로 WebExpert 는 전문 도메인에서의 웹 에이전트 성능을 획기적으로 개선할 수 있는 도메인 인식 (Domain-aware) 및 경험 기반 (Experience-guided) 접근법의 유효성을 입증한 중요한 연구입니다.