WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

이 논문은 실제 웹사이트 기반의 대규모 작업 환경 'WebGym'과 효율적인 병렬 롤아웃 시스템을 통해 강화학습을 수행함으로써, 기존 독점 모델들을 능가하는 성능을 보이는 시각적 웹 에이전트를 개발한 연구 결과를 제시합니다.

Hao Bai, Alexey Taymanov, Tong Zhang, Aviral Kumar, Spencer Whitehead

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

웹짐 (WebGym): 웹 에이전트를 위한 거대한 운동장

이 논문은 **"WebGym"**이라는 새로운 시스템을 소개합니다. 쉽게 말해, 이는 인공지능 (AI) 이 웹사이트를 스스로 돌아다니며 일을 처리하도록 가르치는 **거대한 '운동장'이자 '훈련 프로그램'**입니다.

기존의 AI 는 웹사이트를 볼 때 마치 안경을 쓰지 않고 어지러운 방을 보는 것처럼 헷갈려 하거나, 간단한 일만 할 수 있었습니다. 하지만 이 연구팀은 AI 가 실제 인간처럼 웹사이트를 보고 복잡한 일을 해결할 수 있도록 돕기 위해 다음과 같은 혁신적인 방법을 개발했습니다.


1. 왜 새로운 운동장이 필요했을까요? (문제점)

기존의 AI 훈련 방식은 마치 **"유치원생에게만 적합한 놀이터"**에서 훈련을 시키는 것과 비슷했습니다.

  • 단순한 미로만 있었음: AI 가 연습할 수 있는 웹사이트는 너무 단순하거나, 실제와 다른 가짜 사이트들이 대부분이었습니다.
  • 실전 감각 부족: 실제 웹사이트는 매일 모양이 바뀌고 (신발 가게에 가면 매일 신발이 달라지듯), 복잡한 구조를 가지고 있습니다. 기존 훈련장에서는 이런 '실전'을 경험할 수 없었습니다.
  • 결과: 훈련받은 AI 는 가짜 미로에서는 잘 뛰지만, 실제 복잡한 웹사이트에 가면 길을 잃거나 같은 행동을 반복하며 멈춰버립니다.

2. WebGym 이란 무엇인가요? (해결책)

연구팀은 WebGym이라는 거대한 훈련 환경을 만들었습니다. 이는 다음과 같은 특징을 가집니다.

  • 30 만 개의 미션 (과제): 기존 훈련장의 3 배나 되는 거대한 양의 과제 (약 30 만 개) 가 준비되어 있습니다.
  • 다양한 난이도: 아주 쉬운 '초보 미션'부터, 여러 단계를 거쳐야 해결되는 '고수 미션'까지 다양한 수준이 있습니다.
  • 실제 웹사이트 12 만 개: 가짜 사이트가 아니라, 실제 존재하는 12 만 개 이상의 웹사이트에서 훈련합니다.
  • 정교한 채점 시스템: AI 가 일을 잘했는지 단순히 "맞았다/틀렸다"가 아니라, **"어떤 부분에서 실수했는지"**를 세세하게 분석하는 '채점 기준표 (Rubric)'를 사용합니다. 마치 시험지 채점할 때 정답만 보는 게 아니라, 풀이 과정까지 꼼꼼히 확인하는 것과 같습니다.

3. 어떻게 훈련 속도를 5 배나 빠르게 했나요? (기술적 혁신)

웹 에이전트를 훈련할 때 가장 큰 병목 현상은 **'데이터 수집 속도'**였습니다.

  • 기존 방식 (동기식): 마치 한 줄로 서서 줄을 서는 학생들처럼, 모든 AI 가 동시에 한 단계씩만 진행했습니다. 한 명이 느리면 전체가 멈추는 비효율적인 방식이었습니다.
  • WebGym 방식 (비동기식): 연구팀은 고속도로의 여러 차선처럼 시스템을 설계했습니다.
    • CPU(브라우저를 조작하는 역할) 와 GPU(AI 가 생각하는 역할) 가 서로 기다리지 않고, 각자 할 일을 계속 처리합니다.
    • 마치 조리실과 주방이 따로 움직이면서 주문이 들어오자마자 바로 요리를 만들어 내는 것처럼, 데이터 수집 속도가 기존보다 4~5 배 빨라졌습니다.

4. 훈련 결과: 어떻게 변했나요?

이 거대한 운동장에서 훈련을 받은 AI 는 놀라운 성장을 했습니다.

  • 기존 AI (GPT-4o 등): 복잡한 웹사이트에서 과제를 성공할 확률이 약 **27~29%**였습니다.
  • WebGym 훈련 AI (오픈소스 모델): 같은 과제를 성공할 확률이 **42.9%**로 크게 향상되었습니다.
  • 핵심 비결:
    1. 기억력 강화: AI 가 이전 단계에서 본 정보를 잊지 않고 기억하도록 '메모리' 기능을 추가했습니다. (예: 첫 번째 상품을 본 가격을 두 번째 상품을 볼 때 기억하는 것)
    2. 실수 방지: 같은 화면에서 같은 행동을 반복하는 '고정관념'을 깨는 벌칙을 적용했습니다.
    3. 균형 잡힌 훈련: 쉬운 문제만 풀지 않고, 어렵고 쉬운 문제를 적절히 섞어 훈련했습니다.

5. 한 줄 요약

이 논문은 **"AI 가 웹사이트를 다룰 수 있게 하려면, 단순한 놀이터가 아니라 실제와 똑같은 거대한 운동장에서, 다양한 난이도의 과제를 빠르게 반복하며 훈련시켜야 한다"**는 것을 증명했습니다.

WebGym 은 AI 가 이제 유치원을 졸업하고, 실제 사회 (웹) 에서 인간처럼 복잡한 일을 처리할 수 있는 능력을 갖출 수 있는 발판을 마련해 주었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →