WebXSkill: Skill Learning for Autonomous Web Agents

이 논문은 자연어 설명과 실행 가능한 코드를 결합한 'WebXSkill' 프레임워크를 제안하여, 기존 웹 에이전트의 장기 작업 수행 한계를 극복하고 WebArena 및 WebVoyager 벤치마크에서 성공률을 크게 향상시켰음을 보여줍니다.

Zhaoyang Wang, Qianhui Wu, Xuchao Zhang, Chaoyun Zhang, Wenlin Yao, Fazle Elahi Faisal, Baolin Peng, Si Qin, Suman Nath, Qingwei Lin, Chetan Bansal, Dongmei Zhang, Saravan Rajmohan, Jianfeng Gao, Huax
게시일 2026-04-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 문제: 요리사가 왜 자꾸 망치는 걸까?

지금까지의 웹 에이전트 (AI) 는 마치 요리책 (지시사항) 만 보고 요리하는 초보 요리사와 비슷했습니다.

  • 지시사항: "소스를 만들고, 고기를 굽고, 접시에 담아라." (자연어)
    • → 하지만 이 말만 들으면, "어떻게 소스를 만들지? 어떤 팬을 써야 하지?"라고 매번 처음부터 고민해야 합니다.
  • 코드 (스킬): "이 버튼을 누르고 저 입력창에 타이핑해." (실행 가능한 코드)
    • → 이건 바로 실행되지만, 요리사에게 "왜 이렇게 해야 하지?"라는 설명이 없어서, 중간에 불이 꺼지거나 재료가 없으면 당황해서 멈춰버립니다.

이 두 가지 방식의 **결점 (Grounding Gap)**을 모두 해결하지 못해서, AI 는 같은 일을 반복할 때마다 매번 처음부터 다시 고민하느라 시간을 낭비하고 실수를 저지르는 것입니다.

✨ 해결책: WEBXSKILL (요리사의 '완성된 레시피 + 설명서')

이 논문은 WEBXSKILL이라는 새로운 시스템을 제안합니다. 이는 요리사에게 **두 가지가 동시에 포함된 '완벽한 레시피 카드'**를 주는 것과 같습니다.

  1. 실행 가능한 프로그램 (자동 조리): "이 버튼을 누르면 자동으로 소스가 만들어집니다." (코드가 실행됨)
  2. 단계별 설명서 (자연어 가이드): "소스를 만들 때는 먼저 팬을 예열하세요. 만약 팬이 뜨겁지 않다면 다시 1 분을 기다리세요." (AI 가 이해하고 상황에 맞게 대처할 수 있음)

이 레시피 카드는 세 단계로 만들어집니다.

1 단계: 레시피 추출 (Skill Extraction)

  • 비유: 수많은 요리 실습 영상 (데이터) 을 보고, 자주 나오는 '소스 만들기', '고기 굽기' 같은 반복적인 동작들을 찾아내서 하나의 레시피로 정리하는 과정입니다.
  • 핵심: AI 가 실수한 영상에서도 유용한 부분만 뽑아내어, "이건 '검색하기'라는 레시피로 쓸 수 있겠다"라고 정리합니다.

2 단계: 레시피 정리 (Skill Organization)

  • 비유: 모든 레시피를 무작정 쌓아두는 게 아니라, **주방의 서랍 (URL 기반 그래프)**에 정리해 둡니다.
  • 핵심: "냉장고 (쇼핑 사이트)"를 열면 '식자재 손질 레시피'만 나오고, "오븐 (관리자 페이지)"을 열면 '굽기 레시피'만 나오도록 상황에 맞는 레시피만 꺼내오게 합니다.

3 단계: 레시피 활용 (Skill Deployment)

이제 AI 는 두 가지 방식으로 이 레시피를 쓸 수 있습니다.

  • 🚀 모드 A: 자동 실행 (Grounded Mode)
    • 상황: 요리사가 아주 능숙할 때 (고성능 AI).
    • 방식: "소스 만들기" 레시피를 누르면, AI 는 눈을 감고도 모든 과정을 자동으로 끝냅니다. 매우 빠릅니다.
    • 장점: 시간이 단축됩니다.
  • 🧭 모드 B: 단계별 가이드 (Guided Mode)
    • 상황: 요리사가 초보이거나, 상황이 예상과 다를 때 (약한 AI 또는 복잡한 상황).
    • 방식: 레시피가 "먼저 팬을 켜세요. (AI 가 직접 클릭)", **"다음에 소금을 넣으세요. (AI 가 직접 입력)"**라고 단계별로 알려줍니다.
    • 장점: AI 가 중간에 "아! 팬이 뜨거워졌네?"라고 스스로 판단하고 대처할 수 있어, 실수가 나도 바로 고칠 수 있습니다.

📊 결과는 어떨까요?

이 방법을 실험해 보니, 기존 방식보다 성공률이 10~13% 정도 크게 향상되었습니다.

  • 특히 약한 AI는 '단계별 가이드' 모드를 쓸 때 훨씬 더 잘 작동했습니다. (스스로 적응할 기회를 주기 때문)
  • 강한 AI는 '자동 실행' 모드를 쓸 때 가장 빨랐습니다.

💡 한 줄 요약

WEBXSKILL은 AI 에게 "무작정 시키기만 하는 코드"나 "막연한 지시사항"만 주는 게 아니라, **"자동으로 실행도 되지만, 필요하면 단계별로 설명도 해주는 똑똑한 레시피"**를 만들어줍니다. 덕분에 AI 는 웹상에서 더 길고 복잡한 일도 실수 없이, 그리고 상황에 맞춰 유연하게 처리할 수 있게 되었습니다.

이제 AI 도 요리사처럼, 레시피를 보며 요리하듯 웹사이트를 더 잘 다룰 수 있게 된 셈입니다! 🍽️✨

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →