WARC-Bench: Web Archive Based Benchmark for GUI Subtask Executions

본 논문은 복잡한 GUI 서브태스크에 대한 멀티모달 AI 에이전트를 평가하기 위해 웹 아카이브 파일을 활용한 새로운 벤치마크인 WARC-Bench 를 소개하며, 최첨단 모델들은 어려움을 겪는 반면 오픈소스 모델들은 검증 가능한 보상을 활용한 감독 미세조정과 강화학습을 통해 경쟁력 있는 성능을 달성함으로써 크게 개선됨을 보여줍니다.

원저자: Sanjari Srivastava, Gang Li, Cheng Chang, Rishu Garg, Manpreet Kaur, Charlene Y. Lee, Yuezhang Li, Yining Mao, Ignacio Cases, Yanan Xie, Peng Qi

게시일 2026-05-20✓ Author reviewed
📖 3 분 읽기☕ 가벼운 읽기

원저자: Sanjari Srivastava, Gang Li, Cheng Chang, Rishu Garg, Manpreet Kaur, Charlene Y. Lee, Yuezhang Li, Yining Mao, Ignacio Cases, Yanan Xie, Peng Qi

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

로봇에게 컴퓨터 사용법을 가르친다고 상상해 보세요. 대부분의 이전 테스트는 로봇에게 두 가지 중 하나를 수행하도록 요청했습니다: 화면의 단일 버튼을 가리키기 ("빨간 버튼을 클릭하세요") 또는 거대하고 복잡한 여정을 계획하기 ("항공권, 호텔, 렌터카를 포함해 4 인 가족의 휴가를 2,000 달러 이하로 예약하세요").

이 논문의 저자들은 그 사이에 거대한 공백이 있음을 깨달았습니다. 로봇이 그 휴가를 예약하기 전에, 그 사이에 있는 작고 까다로운 단계들을 마스터해야 한다는 사실을 발견한 것입니다: 특정 날짜를 찾기 위해 목록을 스크롤하거나, 예산을 조정하기 위해 슬라이더를 드래그하거나, 이미 입력된 텍스트를 실수로 삭제하지 않고 양식을 작성하는 것. 이들을 **"GUI 하위 작업"**이라고 부릅니다.

이들의 작업, WARC-Bench에 대한 간단한 개요는 다음과 같습니다:

1. 문제: "빠진 중간 단계"

복잡한 웹 작업을 케이크 굽기와 비교해 보세요.

  • 시각적 그라운딩 (Visual Grounding): "달걀을 집으세요." (너무 단순함).
  • 장기 내비게이션 (Long-Horizon Navigation): "케이크를 굽고, 아이싱을 바르고, 파티에 배달하세요." (너무 복잡하고 변수가 너무 많음).
  • 빠진 중간 단계: "달걀 껍질이 들어가지 않도록 달걀을 그릇에 깨뜨리거나," "반죽이 매끄러워질 때까지 휘젓는 것."

저자들은 현재의 AI 로봇들이 이러한 "중간 단계"에서 실패하고 있다고 주장합니다. 로봇들은 케이크가 무엇인지는 알 수 있지만, 주방 도구의 구체적이고 까다로운 기계적 조작에는 어려움을 겪습니다.

2. 해결책: "시간 여행" 테스트 주방

이러한 로봇들을 테스트하기 위해 팀은 WARC-Bench를 구축했습니다.

보통 실인터넷에서 로봇을 테스트하는 것은 혼란스럽습니다. 웹사이트는 변경되고, 팝업이 나타나며, 서버가 충돌합니다. 이를 해결하기 위해 팀은 **WARC 파일 (웹 아카이브)**을 사용했습니다.

  • 유사성: 특정 시점에 웹사이트를 완벽하게 얼린 스냅샷을 찍는다고 상상해 보세요. 모든 버튼, 스크립트, 이미지가 포함됩니다. 이 스냅샷을 "시간 캡슐"에 넣는 것입니다.
  • 작동 원리: 로봇을 테스트할 때, 팀은 이를 실시간 인터넷으로 보내지 않습니다. 대신 이 "시간 캡슐"로 보냅니다. 로봇은 이 웹사이트의 얼어붙은 완벽한 복사본과 상호작용합니다. 이는 웹 브라우저를 위한 비행 시뮬레이터와 같습니다: 안전하고, 반복 가능하며, 매번 정확히 동일합니다.

이 시뮬레이터에서 "달력에서 3 월 21 일 선택"이나 "가격을 찾기 위해 아래로 스크롤"과 같은 438 개의 다양한 "미니 챌린지"를 만들었습니다.

3. 결과: 가장 "똑똑한" 로봇조차도 고군분투함

팀은 이러한 미니 챌린지들에서 세계 최고의 AI 모델들 (Claude 4.0 및 GPT-5 등) 을 테스트했습니다.

  • 현실 확인: 가장 똑똑한 로봇들조차도 이러한 간단한 작업의 약 **65%**만 올바르게 수행했습니다.
  • 유사성: 이는 똑똑한 인간에게 특정 매듭을 묶거나 세무서를 작성하는 테스트를 주는 것과 같습니다. 지시사항이 까다롭거나 인터페이스가 혼란스러우면 똑똑한 사람들도 실수를 합니다. 로봇들은 웹사이트의 "분위기"를 읽는 데 실패하고 있습니다.

4. 해결책: "비디오 게임"으로 훈련하기

저자들은 오픈 소스 로봇들 (보통 더 약함) 을 더 잘 가르칠 수 있는지 확인하고자 했습니다. 그들은 두 가지 훈련 방법을 사용했습니다:

  1. 지도 미세 조정 (Supervised Fine-Tuning, SFT): 학생들이 해결된 수학 문제를 보는 것처럼, 로봇에게 인간이 이러한 작업을 성공적으로 수행하는 수천 개의 예시를 보여주는 것.
  2. 검증 가능한 보상을 통한 강화 학습 (Reinforcement Learning with Verifiable Rewards, RLVR): 이는 비디오 게임과 같습니다. 로봇이 작업을 시도하게 합니다. 성공하면 "점수" (보상) 를 얻고, 실패하면 0 점을 얻습니다. 로봇은 수천 번의 게임을 플레이하며 "아, 지난번에는 잘못된 버튼을 클릭했구나, 다시는 그렇게 하지 말아야겠다"라고 깨닫습니다.

결과:
합성 (가짜이지만 현실적인) 웹사이트에서 이 "비디오 게임" 훈련 방법을 사용하여, 그들의 오픈 소스 모델은 낮은 점수에서 **52.3%**로 급상승했습니다. 이는 이러한 특정 작업에서 많은 비싸고 폐쇄적인 "슈퍼 브레인"들을 능가했기 때문에 인상적입니다.

5. 왜 이것이 중요한가

이 논문은 로봇이 휴가 예약과 같은 크고 복잡한 일을 잘 수행하려면, 먼저 올바른 날짜를 클릭하는 것과 같은 작고 지루한 일을 잘 수행하도록 해야 한다고 결론지었습니다.

그들은 로봇이 이러한 작고 구체적인 하위 작업을 처리하는 능력이, 로봇이 크고 복잡한 작업을 얼마나 잘 처리할지에 대한 매우 강력한 예측 지표임을 발견했습니다. 로봇이 드롭다운 메뉴를 탐색할 수 없다면, 아마도 여행을 계획할 수도 없을 것입니다.

간단히 말해: 저자들은 로봇이 웹사이트 사용의 작고 까다로운 세부 사항을 얼마나 잘 처리하는지 테스트하기 위해 안전하고 시간이 얼어붙은 놀이터를 구축했습니다. 그들은 최고의 로봇들조차 이러한 세부 사항에 서툴다는 것을 발견했지만, 올바르게 수행할 때 점수를 얻는 "비디오 게임"을 통해 훈련하면 훨씬 더 나아질 수 있음을 발견했습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →