Go-Browse: Training Web Agents with Structured Exploration

이 논문은 웹 환경의 구조적 탐색을 통해 대규모 웹 에이전트 데이터를 수집하는 'Go-Browse' 방법을 제안하고, 이를 통해 7B 파라미터 언어 모델이 WebArena 벤치마크에서 GPT-4o mini 를 능가하는 21.7% 의 성공률을 달성했음을 보여줍니다.

Apurva Gandhi, Graham Neubig

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

웹 에이전트 'Go-Browse' 설명: 미로 속을 헤매지 않는 똑똑한 탐험가

이 논문은 **"웹 에이전트 (웹사이트를 대신 돌아다니는 AI)"**가 왜 자주 길을 잃고 실패하는지, 그리고 이를 해결하기 위해 개발된 새로운 방법 **'Go-Browse'**에 대해 설명합니다.

상상해 보세요. AI 가 쇼핑몰이나 뉴스 사이트에 들어갔는데, 마치 처음 보는 거대한 미로에 떨어진 것처럼 어디로 가야 할지 몰라 헤매고 있습니다. 기존 AI 들은 "저기 버튼 클릭해 봐"라는 지시만 받고 무작정 돌아다니느라, 중요한 페이지는 찾지 못하거나 같은 곳을 계속 돌고 있었습니다.

이 문제를 해결하기 위해 연구진들은 Go-Browse라는 새로운 방법을 개발했습니다. 이를 이해하기 쉽게 세 가지 비유로 설명해 드리겠습니다.


1. 기존 방식의 문제점: "눈가리개 하고 미로 찾기"

기존의 AI 학습 방식은 두 가지 문제가 있었습니다.

  • 무작정 걷기 (Interaction-first): AI 에게 "사이트를 돌아다니며 재미있는 것을 찾아봐"라고만 시켰습니다. AI 는 같은 페이지를 수십 번이나 방문하거나, 중요하지 않은 구석구석만 헤매는 경우가 많았습니다. 마치 눈가리개를 하고 미로에서 무작정 걷는 것처럼 비효율적이었습니다.
  • 지시만 내리기 (Instruction-first): "이 페이지에서 장바구니에 물건을 담아봐"라고 지시를 내렸지만, AI 가 그 페이지에 도달하는 방법 (네비게이션) 을 모르면 실패합니다. 마치 미로의 입구 (홈페이지) 에만 서서, 미로 깊은 곳에 있는 보물 (목표 페이지) 에 대한 지도만 보고 있는 상황과 같습니다.

2. Go-Browse 의 해결책: "지도 그리기 + 리셋 버튼 활용"

Go-Browse 는 이 문제를 해결하기 위해 두 가지 핵심 전략을 사용합니다.

A. 미로의 지도를 그리기 (구조화된 탐색)

Go-Browse 는 웹사이트를 돌아다닐 때마다 **방문한 곳의 지도 (그래프)**를 그립니다.

  • 외부 루프 (Outer Loop): "지금까지 발견했지만 아직 충분히 탐험하지 않은 페이지"들을 목록 (프론티어) 에 저장해 둡니다.
  • 내부 루프 (Inner Loop): 목록에서 하나를 골라 그 페이지에서 할 수 있는 모든 일을 찾아내고, 그 페이지에서 연결된 새로운 페이지들을 찾아냅니다.

이 방식은 미로 탐험가가 한 번 발견한 길은 다시 찾지 않고, 새로운 길로만 나아가는 것과 같습니다. 덕분에 같은 곳을 반복해서 헤매는 낭비를 줄이고, 사이트 전체를 빠르고 넓게 커버할 수 있습니다.

B. '리셋' 버튼을 활용한 학습 (Decoupling)

이게 가장 재미있는 부분입니다. Go-Browse 는 AI 가 **목표 페이지에 도달하는 과정 (길 찾기)**과 **그 페이지에서 일을 수행하는 과정 (작업 수행)**을 분리해서 학습시킵니다.

  • 기존 방식: AI 가 "A 페이지에서 B 페이지로 가서 물건을 사야 해"라고 하면, AI 는 B 페이지까지 가는 길과 물건 사는 일을 동시에 해야 해서 어렵습니다.
  • Go-Browse 방식:
    1. 먼저 AI 가 B 페이지까지 가는 길을 찾아 성공하면, 그 위치에서 '리셋'을 누릅니다.
    2. 이제 AI 는 "B 페이지에 이미 도착했으니, 여기서 물건을 사는 일만 해"라고 학습합니다.

이는 마치 게임에서 '체크포인트'를 활용하는 것과 같습니다. 미로에서 길을 찾는 것은 어렵지만, 일단 목적지에 도착했다면 그다음 일은 상대적으로 쉽습니다. Go-Browse 는 AI 가 어려운 '길 찾기'는 성공적으로 해낸 뒤, 그 위치로 다시 돌아와서 '작업 수행'을 반복적으로 연습하게 함으로써 더 강력한 AI 를 만듭니다.

3. 결과: 작은 모델도 거인보다 강해지다

이 방법으로 수집된 데이터로 **70 억 개의 파라미터를 가진 작은 AI 모델 (Qwen-2.5-7B)**을 훈련시켰습니다. 결과는 놀라웠습니다.

  • 성공률 21.7%: 이 작은 모델이 GPT-4o Mini라는 거대 모델보다 더 잘 작동했습니다.
  • 이유: Go-Browse 는 AI 가 웹사이트를 어떻게 '탐색'하고 '이해'해야 하는지 체계적으로 가르쳤기 때문입니다.

요약: 한 마디로 정리하면?

Go-Browse 는 **"AI 가 웹사이트라는 미로에서 길을 잃지 않도록, 체계적으로 지도를 그리면서 '체크포인트'를 활용해 효율적으로 훈련시키는 방법"**입니다.

이 방법을 통해 AI 는 더 이상 헤매지 않고, 사용자가 원하는 곳으로 정확히 이동하여 일을 처리할 수 있게 되었습니다. 이는 앞으로 우리가 사용하는 모든 디지털 비서 (웹서핑, 쇼핑, 예약 등) 가 훨씬 똑똑하고 신뢰할 수 있게 만드는 중요한 기술입니다.