WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

이 논문은 웹 에이전트 연구를 가속화하기 위해 시각, 구조, 행동 데이터의 삼중 정렬을 포함한 대규모 인간 주석 웹 상호작용 데이터셋 'WebChain'을 소개하고, 이를 활용한 듀얼 미드-트레이닝 기법으로 웹 에이전트의 성능을 획기적으로 개선했음을 보고합니다.

Sicheng Fan, Rui Wan, Yifei Leng, Gaoning Liang, Li Ling, Yanyi Shang, Dehan Kong

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"웹 브라우저라는 거대한 미로를 헤쳐 나가는 인공지능 **(웹 에이전트)입니다.

기존의 인공지능들은 웹을 다룰 때 종종 길을 잃거나, 버튼을 잘못 누르거나, 복잡한 작업을 중간에 포기하곤 했습니다. 이 논문은 그 이유를 "잘못된 지도"와 "연습 부족"에서 찾았으며, 이를 해결하기 위해 WebChain이라는 새로운 도구를 소개합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제점: 왜 AI 는 웹을 못 할까? (지도가 없거나 엉터리야)

지금까지 AI 를 훈련시킬 때 사용된 데이터들은 두 가지 큰 문제가 있었습니다.

  • **가짜 지도 **(Synthetic Data) 컴퓨터가 자동으로 만들어낸 데이터입니다. 마치 "가상 현실 게임"에서 연습하는 것과 비슷해요. 게임 속에는 도깨비가 없으니 AI 가 잘하지만, 실제 세상 (실제 웹사이트) 에 가보면 보안 검사 (CAPTCHA) 나 로그인 같은 진짜 장벽에 부딪혀서 당황해합니다.
  • **너무 작은 지도 **(Small Datasets) 사람이 직접 기록한 데이터는 있지만, 양이 너무 적어서 AI 가 다양한 상황을 경험해보기엔 부족했습니다.

비유: 마치 "유튜브로 요리법을 보고만" 실제 부엌에 들어간 요리사처럼, 이론은 알지만 실제 재료가 다르고 불 조절이 어려우면 실패하기 마련입니다.

2. 해결책: WebChain (진짜 세상에서 찍은 3D 지도)

저자들은 WebChain이라는 거대한 데이터셋을 만들었습니다. 이는 31,725 개의 실제 웹사이트 작업 기록을 사람이 직접 수행하고 기록한 것입니다.

이 데이터의 핵심은 **'트리플 얼라인먼트 **(Triple Alignment)라는 세 가지 정보를 완벽하게 맞춰준다는 점입니다.

  1. **눈 **(Visual) 화면이 어떻게 보이는지 (스크린샷).
  2. **뼈대 **(Structural) 웹페이지의 HTML 구조와 접근성 정보 (무엇이 버튼이고 무엇인지).
  3. **손 **(Action) 사람이 정확히 어디를 클릭하고 무엇을 입력했는지 (좌표).

비유:
기존 AI 는 "저기 빨간 버튼이 있어"라고만 봤다면, WebChain 은 "저기 빨간 버튼이 있고, 그 버튼은 HTML 코드상 '구매하기'이며, 사람의 손가락이 정확히 (x, y) 좌표에 닿았어"라고 3 차원적으로 완벽하게 가르쳐 줍니다.

3. 훈련 방법: 두 단계로 나누어 가르치기 (Dual Mid-Training)

이제 이 데이터를 어떻게 가르쳐야 할까요? 저자들은 "눈으로 보는 능력"과 "계획하는 능력"을 따로따로 훈련시키는 새로운 방법을 발견했습니다.

  • **1 단계: 눈 훈련 **(Spatial Grounding)
    • AI 가 화면을 보고 "이게 버튼이야, 저게 입력창이야"라고 정확히 식별하게 합니다.
    • 비유: 요리사가 "이건 소금통이고, 저건 후추통이야"라고 재료를 구별하는 법을 먼저 배우는 단계입니다.
  • **2 단계: 계획 훈련 **(Long-horizon Planning)
    • 재료를 구별하는 법을 배운 AI 에게 "이제 이 소금으로 국을 끓여"라는 복잡한 목표를 줍니다.
    • 비유: 재료를 다 구별했으니, 이제 "국 끓이는 순서"를 계획하고 실행하는 단계입니다.

이렇게 **눈 **(인식)을 분리해서 훈련시키니, AI 가 훨씬 똑똑해졌습니다.

4. 결과: 새로운 챔피언 탄생 (WebChainBench)

이 새로운 방법 (WebChain 데이터 + 두 단계 훈련법) 으로 만든 AI 는 기존에 없던 성능을 보여줍니다.

  • 복잡한 작업도 가능: "미국에서 300 달러 이하의 TCL TV 를 찾아서, 2023 년 모델로 필터링하고, 인기순으로 정렬해" 같은 복잡한 작업을 척척 해냅니다.
  • 다른 곳에서도 잘함: 웹뿐만 아니라 모바일 앱이나 데스크톱 프로그램에서도 잘 작동합니다.
  • 기록 경신: 기존에 없던 최고 성능 (State-of-the-Art) 을 달성했습니다.

5. 결론: 왜 이것이 중요한가?

이 논문은 "진짜 데이터를 공개하고, 올바른 훈련법을 찾았다"는 점에서 의미가 큽니다.

  • 공개성: 이제 누구나 이 데이터를 무료로 쓸 수 있어, AI 연구가 더 투명해지고 빨라집니다.
  • 미래: 앞으로 AI 가 은행 계좌에 로그인해서 송금하거나, 항공권 예매를 대신 해주는 등, 우리가 매일 하는 복잡한 웹 작업을 대신할 수 있는 기반이 마련되었습니다.

한 줄 요약:

**"AI 가 웹을 다룰 때 길을 잃지 않게, 사람이 직접 그린 '진짜 지도' **(WebChain)

이제 AI 는 더 이상 가상의 게임 속에서만 연습하는 것이 아니라, 실제 세상의 복잡한 웹을 헤쳐 나가는 전문가로 거듭났습니다!