WebDS: An End-to-End Benchmark for Web-based Data Science

이 논문은 기존 벤치마크의 한계를 극복하고 현실적인 웹 기반 데이터 과학 워크플로우를 평가하기 위해 다양한 웹사이트와 복잡한 도구 사용 능력을 요구하는 새로운 엔드투엔드 벤치마크인 'WebDS'를 제안하고, 현재 최첨단 LLM 에이전트와 인간 간에 큰 성능 격차가 있음을 입증합니다.

Ethan Hsu, Hong Meng Yam, Ines Bouissou, Aaron Murali John, Raj Thota, Josh Koe, Vivek Sarath Putta, G K Dharesan, Alexander Spangher, Shikhar Murty, Tenghao Huang, Christopher D. Manning

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ WebDS: "디지털 탐정"을 위한 극한 미션

1. 기존 테스트는 왜 부족했을까? (과거의 상황)

지금까지 AI 에이전트 (웹을 돌아다니는 로봇) 를 테스트할 때는 주로 두 가지 방식만 썼습니다.

  • 웹 서핑 테스트: "레드디에 글 써줘"나 "아마존에서 장바구니에 물건을 담으" 같은 단순한 명령을 내리는 거죠. 마치 어린이가 장난감 가게에서 장난감을 고르는 것처럼 단순합니다.
  • 데이터 분석 테스트: 미리 정리된 엑셀 파일이나 데이터베이스만 주고 "이 숫자의 평균을 구해"라고 시키는 거죠. 이는 교과서 문제집만 푸는 것과 비슷합니다.

하지만 현실의 데이터 과학자들은 어떻게 일할까요?

"인터넷에 흩어진 뉴스, 정부 통계, 블로그 글들을 찾아서, 서로 다른 포맷 (이미지, 표, 텍스트) 으로 된 정보를 모으고, 이를 정리해서 최종 보고서를 써줘."

이건 미스터리 소설을 읽고, 여러 증거를 모아서 범인을 찾아낸 뒤, 법정에서 변론을 하는 것처럼 복잡합니다. 기존 테스트는 이 '극한 미션'을 제대로 평가하지 못했습니다.

2. WebDS 란 무엇인가? (새로운 기준)

연구팀은 WebDS라는 새로운 시험지를 만들었습니다.

  • 구성: 29 개의 다양한 웹사이트 (정부 통계, 뉴스, 쇼핑몰 등) 에서 870 개의 미션을 준비했습니다.
  • 미션 예시: "2022 년 10 월 19 일 기준, 인종별 대학생 등록 인수를 조사하고, 국가 인구 통계와 비교해서 대학의 다양성 정책에 어떤 영향을 줄지 분석한 보고서를 써줘."
  • 특징: AI 는 단순히 링크를 클릭하는 게 아니라, 데이터를 다운로드하고, 엑셀로 정리하고, 통계 프로그램을 실행하고, 최종적으로 글을 써야 합니다.

3. 결과는 어땠을까? (AI vs 인간)

이 시험지를 최신 AI (GPT-4o 등) 에게 풀어보게 했더니 결과가 충격적이었습니다.

  • 기존 시험지 (WebVoyager 등): AI 가 80% 이상을 성공했습니다. (마치 수학 문제집을 잘 푼 학생)
  • WebDS (실전 미션): AI 의 성공률은 **13%~22%**에 불과했습니다. (마치 실전 전쟁에 나가서 당황한 학생)
  • 인간: 일반인은 같은 조건에서 **90%**를 성공했습니다.

결론: AI 는 "문제집"은 잘 풀지만, "실전"에서는 완전히 무너집니다.

4. 왜 AI 는 실패했을까? (실패 원인 분석)

연구팀은 AI 가 왜 실패했는지 자세히 분석했습니다. 주요 원인은 다음과 같습니다.

  • 👻 환각 (Groundedness): AI 는 정답이 적힌 문서를 실제로 보았음에도 불구하고, 내용을 잘못 읽거나 아예 잊어버리고 엉뚱한 답을 냅니다. (예: 문서에 "12% 증가"라고 써있는데, AI 는 "감소했다"고 말함)
  • 🔄 반복의 함정 (Repetitive Behavior): 검색 필터를 적용했는데 안 되면, AI 는 그 필터를 수십 번이나 똑같이 누릅니다. "이건 안 되는구나"라고 깨닫지 못합니다.
  • 🚧 길 찾기 실수 (Navigation): "미국 교통협회"를 찾으려는데 이름이 비슷한 "미국 물리치료협회"로 잘못 들어갑니다.
  • 🛠️ 도구 사용 실패: 데이터를 분석하려면 파이썬 코드를 짜야 하는데, 그걸 제대로 못 쓰거나, 코드를 짜는 대신 구글에 검색해서 엉뚱한 답을 구해옵니다.

5. 이 연구의 의미는 무엇일까?

이 논문은 **"AI 가 웹에서 일할 수 있는 진짜 시기는 아직 멀었다"**고 경고합니다.

  • 현재 상태: AI 는 단순한 '비서' 수준은 넘었지만, 복잡한 '데이터 분석가'가 되려면 아직 갈 길이 멉니다.
  • 미래 전망: WebDS 는 AI 개발자들이 앞으로 어떤 능력을 키워야 하는지 (정보를 정확히 이해하는 능력, 실패를 인지하고 전략을 바꾸는 능력 등) 보여주는 나침반이 될 것입니다.

📝 한 줄 요약

"지금까지 AI 는 '문제집'만 잘 풀었는데, WebDS 라는 '실전 미션'을 주니 10 점 만점에 2 점도 못 받았습니다. AI 가 진짜 데이터 분석가가 되려면, 단순한 계산 능력보다 '현실 세계를 이해하고 유연하게 대처하는 능력'이 훨씬 더 필요합니다."