Each language version is independently generated for its own context, not a direct translation.

웹 에이전트 'Go-Browse' 설명: 미로 속을 헤매지 않는 똑똑한 탐험가

이 논문은 **"웹 에이전트 (웹사이트를 대신 돌아다니는 AI)"**가 왜 자주 길을 잃고 실패하는지, 그리고 이를 해결하기 위해 개발된 새로운 방법 **'Go-Browse'**에 대해 설명합니다.

상상해 보세요. AI 가 쇼핑몰이나 뉴스 사이트에 들어갔는데, 마치 처음 보는 거대한 미로에 떨어진 것처럼 어디로 가야 할지 몰라 헤매고 있습니다. 기존 AI 들은 "저기 버튼 클릭해 봐"라는 지시만 받고 무작정 돌아다니느라, 중요한 페이지는 찾지 못하거나 같은 곳을 계속 돌고 있었습니다.

이 문제를 해결하기 위해 연구진들은 Go-Browse라는 새로운 방법을 개발했습니다. 이를 이해하기 쉽게 세 가지 비유로 설명해 드리겠습니다.

1. 기존 방식의 문제점: "눈가리개 하고 미로 찾기"

기존의 AI 학습 방식은 두 가지 문제가 있었습니다.

무작정 걷기 (Interaction-first): AI 에게 "사이트를 돌아다니며 재미있는 것을 찾아봐"라고만 시켰습니다. AI 는 같은 페이지를 수십 번이나 방문하거나, 중요하지 않은 구석구석만 헤매는 경우가 많았습니다. 마치 눈가리개를 하고 미로에서 무작정 걷는 것처럼 비효율적이었습니다.
지시만 내리기 (Instruction-first): "이 페이지에서 장바구니에 물건을 담아봐"라고 지시를 내렸지만, AI 가 그 페이지에 도달하는 방법 (네비게이션) 을 모르면 실패합니다. 마치 미로의 입구 (홈페이지) 에만 서서, 미로 깊은 곳에 있는 보물 (목표 페이지) 에 대한 지도만 보고 있는 상황과 같습니다.

2. Go-Browse 의 해결책: "지도 그리기 + 리셋 버튼 활용"

Go-Browse 는 이 문제를 해결하기 위해 두 가지 핵심 전략을 사용합니다.

A. 미로의 지도를 그리기 (구조화된 탐색)

Go-Browse 는 웹사이트를 돌아다닐 때마다 **방문한 곳의 지도 (그래프)**를 그립니다.

외부 루프 (Outer Loop): "지금까지 발견했지만 아직 충분히 탐험하지 않은 페이지"들을 목록 (프론티어) 에 저장해 둡니다.
내부 루프 (Inner Loop): 목록에서 하나를 골라 그 페이지에서 할 수 있는 모든 일을 찾아내고, 그 페이지에서 연결된 새로운 페이지들을 찾아냅니다.

이 방식은 미로 탐험가가 한 번 발견한 길은 다시 찾지 않고, 새로운 길로만 나아가는 것과 같습니다. 덕분에 같은 곳을 반복해서 헤매는 낭비를 줄이고, 사이트 전체를 빠르고 넓게 커버할 수 있습니다.

B. '리셋' 버튼을 활용한 학습 (Decoupling)

이게 가장 재미있는 부분입니다. Go-Browse 는 AI 가 **목표 페이지에 도달하는 과정 (길 찾기)**과 **그 페이지에서 일을 수행하는 과정 (작업 수행)**을 분리해서 학습시킵니다.

기존 방식: AI 가 "A 페이지에서 B 페이지로 가서 물건을 사야 해"라고 하면, AI 는 B 페이지까지 가는 길과 물건 사는 일을 동시에 해야 해서 어렵습니다.
Go-Browse 방식:
1. 먼저 AI 가 B 페이지까지 가는 길을 찾아 성공하면, 그 위치에서 '리셋'을 누릅니다.
2. 이제 AI 는 "B 페이지에 이미 도착했으니, 여기서 물건을 사는 일만 해"라고 학습합니다.

이는 마치 게임에서 '체크포인트'를 활용하는 것과 같습니다. 미로에서 길을 찾는 것은 어렵지만, 일단 목적지에 도착했다면 그다음 일은 상대적으로 쉽습니다. Go-Browse 는 AI 가 어려운 '길 찾기'는 성공적으로 해낸 뒤, 그 위치로 다시 돌아와서 '작업 수행'을 반복적으로 연습하게 함으로써 더 강력한 AI 를 만듭니다.

3. 결과: 작은 모델도 거인보다 강해지다

이 방법으로 수집된 데이터로 **70 억 개의 파라미터를 가진 작은 AI 모델 (Qwen-2.5-7B)**을 훈련시켰습니다. 결과는 놀라웠습니다.

성공률 21.7%: 이 작은 모델이 GPT-4o Mini라는 거대 모델보다 더 잘 작동했습니다.
이유: Go-Browse 는 AI 가 웹사이트를 어떻게 '탐색'하고 '이해'해야 하는지 체계적으로 가르쳤기 때문입니다.

요약: 한 마디로 정리하면?

Go-Browse 는 **"AI 가 웹사이트라는 미로에서 길을 잃지 않도록, 체계적으로 지도를 그리면서 '체크포인트'를 활용해 효율적으로 훈련시키는 방법"**입니다.

이 방법을 통해 AI 는 더 이상 헤매지 않고, 사용자가 원하는 곳으로 정확히 이동하여 일을 처리할 수 있게 되었습니다. 이는 앞으로 우리가 사용하는 모든 디지털 비서 (웹서핑, 쇼핑, 예약 등) 가 훨씬 똑똑하고 신뢰할 수 있게 만드는 중요한 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

Go-Browse: 구조화된 탐색을 통한 웹 에이전트 학습 (Go-Browse: Training Web Agents with Structured Exploration)

이 논문은 디지털 에이전트, 특히 웹 브라우징 에이전트가 환경에 대한 이해 부족으로 인해 미지의 웹사이트에서 길을 잃거나 목표를 달성하지 못하는 문제를 해결하기 위해 제안된 Go-Browse 방법론을 소개합니다. Go-Browse 는 대규모 웹 환경의 구조화된 탐색을 통해 다양하고 현실적인 웹 에이전트 데이터를 자동으로 수집하는 프레임워크입니다.

1. 문제 정의 (Problem)

기존의 사전 훈련된 대규모 언어 모델 (LLM) 은 다른 분야에서는 뛰어난 성능을 보이지만, GUI 기반의 웹 에이전트 작업에서는 성능이 현저히 떨어집니다.

환경 이해 부족: 에이전트는 익숙하지 않은 웹사이트에서 어떤 페이지를 방문해야 목표를 달성할지 파악하지 못해 탐색에 실패합니다.
데이터 수집의 한계:
- 인간 생성 데이터: 고품질이지만 수집 비용이 매우 높고 시간이 많이 소요됩니다.
- 기존 자동화 방법:
  - Interaction-first (상호작용 우선): 구체적인 작업 없이 에이전트를 탐색하게 하여 데이터를 수집한 뒤 태스크를 라벨링하는 방식 (예: NNetNav). 이는 탐색의 중복성이 크고, 에이전트가 흥미롭지 않은 경로를 반복적으로 탐색할 수 있습니다.
  - Instruction-first (지시 우선): 특정 태스크를 생성하고 이를 해결하려는 방식. 하지만 현재 페이지에 국한된 지시만 생성하거나, 관찰되지 않은 부분의 태스크를 환각 (hallucinate) 할 수 있어 전역적인 탐색 효율이 낮습니다.

2. 방법론 (Methodology: Go-Browse)

Go-Browse 는 웹 탐색을 그래프 탐색 문제로 재구성하여, 이전 탐색 에피소드에서 얻은 정보를 재사용함으로써 효율성을 극대화합니다. 이 방법은 Go-Explore 알고리즘에서 영감을 받아 '초기화 후 탐색 (reset-then-explore)' 전략을 사용합니다.

핵심 구조

Go-Browse 는 **외부 루프 (Outer Loop)**와 **내부 루프 (Inner Loop)**로 구성됩니다.

외부 루프 (전역적 웹사이트 커버리지):
- 아직 완전히 탐색되지 않은 웹페이지들의 **'프런티어 (Frontier)'**를 유지합니다.
- 프런티어에서 다음 웹페이지를 선택하여 탐색을 시작합니다.
- 이 과정에서 에이전트는 루트 페이지 (홈페이지) 로 돌아가는 것이 아니라, 이전에 발견된 유망한 웹페이지로 **재설정 (Reset)**됩니다. 이는 '웹 탐색 (올바른 페이지 찾기)'과 '로컬 태스크 해결 (페이지 내 행동 수행)'을 분리하여, 약한 모델도 로컬 태스크 해결에 집중할 수 있게 합니다.
내부 루프 (국소적 웹페이지 탐색):
- 선택된 웹페이지 $v$ $v$ 에 대해 다음 3 단계 과정을 수행합니다.
  - NavExplorer: 현재 페이지에서 이웃 페이지로 이동할 수 있는 내비게이션 태스크를 제안합니다. 이는 정적인 관찰이 아닌, 에이전트 스스로 상호작용하며 동적으로 얻은 관찰을 기반으로 합니다.
  - PageExplorer: 현재 페이지 내에서 수행 가능한 로컬 태스크 (정보 검색, 콘텐츠 수정 등) 를 제안합니다.
  - FeasibilityChecker & Solvers: 제안된 태스크의 실현 가능성을 강력한 LLM 에이전트와 VLM(시각 언어 모델) 저지 (Judge) 를 통해 검증합니다. 성공한 경로 (Trajectory) 만 데이터셋에 추가하며, 실패한 태스크는 필터링됩니다.
- Prefixed vs. Unprefixed Sampling:
  - Prefixed: 에이전트가 현재 페이지 (프런티어에서 선택된 노드) 에서 태스크를 시작합니다. (탐색 부담 감소, 성공률 향상)
  - Unprefixed: 에이전트가 루트 페이지에서 태스크를 시작합니다. (장기적 탐색 능력 함양)

3. 주요 기여 (Key Contributions)

Go-Browse 알고리즘: 웹 에이전트 데이터 수집을 위한 구조화된 그래프 탐색 프레임워크를 제안하여, 기존 비지도 학습 방법들의 비효율적인 탐색과 정보 재사용 부족을 해결했습니다.
Go-Browse-WA 데이터셋: WebArena 벤치마크 (쇼핑, Reddit, Gitlab 등 5 개 도메인, 100 개 URL) 에서 수집한 대규모 데이터셋을 공개했습니다.
- 성공한 태스크 해결 궤적: 약 10,000 개
- 실패한 궤적 포함 총 상호작용 단계: 약 196,000 개 (성공 39k, 실패 157k)
성능 향상: 수집된 데이터로 7B 파라미터 모델 (Qwen-2.5-7B-Instruct) 을 파인튜닝하여, 10B 미만 파라미터 모델 중 최선 (SOTA) 결과를 달성했습니다.

4. 실험 결과 (Results)

WebArena 벤치마크에서 Go-Browse 로 파인튜닝된 Go-Browse-7B 모델의 성능은 다음과 같습니다.

전체 성공률 (Success Rate): 21.7%
- 기존 SOTA 인 NNetNav-7B (18.8%) 보다 2.9%p 향상.
- GPT-4o-mini (19.3%) 보다 2.4%p 우위.
- 원본 Qwen-2.5-7B-Instruct (8.3%) 보다 13.4%p 대폭 향상.
도메인별 성과: Gitlab 을 제외한 모든 도메인 (Admin, Shopping, Reddit, Map) 에서 GPT-4o-mini 와 NNetNav-7B 를 상회했습니다. 특히 Shopping Admin (+11%) 과 Reddit (+7%) 에서 큰 격차를 보였습니다.
OOD (Out-of-Domain) 일반화: Online-Mind2Web 벤치마크에서도 NNetNav-7B 보다 우수한 성능을 보였으며, WebArena 와 유사한 도메인에서는 GPT-4o-mini 와 유사한 성능을 달성했습니다.
데이터 다양성: Go-Browse 는 NNetNav 보다 더 깊은 URL 경로 (Deep URLs) 를 탐색하고, 더 다양한 태스크 유형을 수집하여 데이터의 편향을 줄였습니다.

5. 의의 및 결론 (Significance)

효율적인 데이터 수집: Go-Browse 는 '재설정 (Reset)' 메커니즘을 통해 에이전트가 복잡한 웹사이트 탐색에 소모되는 에너지를 줄이고, 실제 태스크 수행 학습에 집중할 수 있게 하여, 상대적으로 작은 모델 (7B) 로도 고성능 에이전트를 훈련시킬 수 있음을 증명했습니다.
구조화된 탐색의 중요성: 웹 에이전트의 성능 향상을 위해서는 단순한 상호작용 데이터 수집을 넘어, 웹 구조를 이해하고 체계적으로 탐색하는 데이터 수집 전략이 필수적임을 보여줍니다.
오픈 소스 기여: 코드, 데이터셋, 모델을 공개하여 웹 에이전트 연구 커뮤니티의 재현성과 발전을 도모했습니다.

결론적으로, Go-Browse 는 웹 에이전트 학습을 위한 데이터 수집의 패러다임을 '무작위 탐색'에서 '구조화된 그래프 기반 탐색'으로 전환함으로써, 소형 모델의 웹 자동화 능력을 획기적으로 향상시킨 획기적인 연구입니다.

Go-Browse: Training Web Agents with Structured Exploration