TimeWarp: Evaluating Web Agents by Revisiting the Past

이 논문은 웹 환경의 변화에 따른 에이전트의 취약성을 평가하기 위해 'TimeWarp' 벤치마크를 제안하고, 여러 버전의 UI 를 아우르는 궤적을 활용한 'TimeTraj' 알고리즘을 통해 웹 에이전트의 일반화 성능과 견고성을 획기적으로 향상시켰음을 보여줍니다.

Md Farhan Ishmam, Kenneth Marino

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

타임워프 (TIMEWARP): 웹 에이전트를 과거로 보내 시험하다

이 논문은 **"오늘날 우리가 만든 인공지능 (웹 에이전트) 이 내일의 인터넷에서도 잘 작동할까?"**라는 중요한 질문에서 시작합니다.

지금까지의 연구들은 대부분 인터넷이 변하지 않는다고 가정하고 에이전트를 훈련시켰습니다. 하지만 현실의 인터넷은 매일 디자인이 바뀌고, 버튼이 이동하고, 기능이 추가되거나 사라지는 살아있는 생명체와 같습니다.

이 논문은 이 문제를 해결하기 위해 **'타임워프 (TIMEWARP)'**라는 새로운 실험실과 **'타임트랙 (TIMETRAJ)'**이라는 새로운 훈련 방법을 소개합니다.


1. 문제: "과거의 지도로 미래를 헤매다"

비유: 1990 년대 지도로 2025 년 서울을 운전하는 것
상상해 보세요. 1990 년대에 만든 지도를 들고 2025 년의 서울을 운전한다고 칩시다.

  • 그때는 '네이버'가 없었고, '카카오'도 없었습니다.
  • 길은 다르고, 건물의 모양도 다르고, 신호등 위치도 달랐습니다.
  • 1990 년대 지도만 보고 훈련된 운전사 (AI) 는 2025 년의 복잡한 도로에서 길을 잃거나, 신호등을 무시하고 사고를 낼 것입니다.

지금까지의 웹 에이전트 연구도 비슷했습니다. 에이전트를 **특정 버전의 웹사이트 (예: 2024 년 버전)**에서만 훈련시켰습니다. 그래서 그 버전에서는 천재처럼 작동했지만, 웹사이트 디자인이 조금만 바뀌어도 (버전 2025 로 업데이트되면) 완전히 멍청해져서 아무것도 못 하는 경우가 많았습니다.

2. 해결책 1: 타임워프 (TIMEWARP) - "시간 여행 실험실"

연구진은 에이전트의 능력을 진짜로 테스트하기 위해 시간을 거슬러 올라가는 실험실을 만들었습니다.

  • 세 가지 세계: 위키백과 (Wiki), 뉴스 (News), 쇼핑몰 (Shop) 세 가지 환경을 만들었습니다.
  • 6 개의 시대: 각 환경마다 인터넷의 역사적 흐름을 따라 **6 가지 버전 (v1~v6)**을 구현했습니다.
    • 과거 (v1, v2): 디자인이 투박하고, 검색창이 페이지 맨 아래에 있거나, 메뉴가 없는 등 구식 인터페이스.
    • 현대 (v5, v6): 화려한 아이콘, 팝업 광고, 드롭다운 추천 등 복잡한 현대적 인터페이스.
  • 미션: 에이전트에게 "과거의 구식 웹사이트에서 정보를 찾아라" 혹은 "미래의 복잡한 웹사이트에서 물건을 사라"는 과제를 줍니다.

이 실험을 통해 연구진은 **"대부분의 AI 는 디자인이 조금만 바뀌어도 완전히 무너진다"**는 사실을 발견했습니다. 특히 시각적 (이미지) 으로만 보는 AI 는 구식 디자인을 전혀 이해하지 못했습니다.

3. 해결책 2: 타임트랙 (TIMETRAJ) - "한 번의 지도로 모든 길을 가르치다"

그렇다면 어떻게 에이전트를 모든 시대에 적응하게 만들까요? 연구진은 효율적인 훈련 방법을 고안했습니다.

비유: "스승이 모든 시대의 길을 먼저 걷고, 제자가 그 발자국을 따라가는 것"

  1. 스승 (Teacher) 의 계획: 먼저 인간 전문가와 강력한 AI 가 협력하여, 하나의 목표에 대한 **고수준의 실행 계획 (Plan)**을 세웁니다.

    • 예: "쿠키를 사려면 1. 검색창을 찾아라, 2. 쿠키를 입력해라, 3. 결제 버튼을 누르라."
    • 이 계획은 특정 디자인에 의존하지 않는 핵심 로직입니다.
  2. 스승의 여행 (Rollouts): 이 계획을 바탕으로, 강력한 '스승 AI'가 모든 6 가지 버전의 웹사이트를 직접 돌아다니며 성공적인 길 (궤적) 을 만들어냅니다.

    • 과거 버전에서는 "검색창이 아래에 있으니 스크롤을 내려라"라고 배우고,
    • 미래 버전에서는 "검색 아이콘을 먼저 클릭하라"라고 배우는 것입니다.
  3. 제자 (Student) 의 학습: 이렇게 수집된 다양한 시대의 성공 기록을 바탕으로, 우리가 훈련하려는 '제자 AI'를 가르칩니다.

    • 단순히 "무엇을 클릭하라"는 행동만 가르치는 게 아니라, **"왜 그 버튼을 클릭했는지 (생각)", "앞으로 무엇을 할지 (계획)", "무엇을 기억해야 하는지 (기억)"**까지 모두 가르칩니다.

4. 결과: "강철 같은 적응력"

이 방법을 적용한 결과, 놀라운 변화가 일어났습니다.

  • 기존 방식 (단일 버전 훈련): 0% 에서 20% 정도의 성공률. 디자인이 바뀌면 완전히 망함.
  • 새로운 방식 (타임워프 훈련):
    • Qwen-3 4B 모델: 성공률이 **20.4% → 37.7%**로 크게 향상.
    • Llama-3.1 8B 모델: 성공률이 **0% → 27.0%**로, 아예 못 하던 것이 제대로 작동하는 수준으로 변함.

이 방법은 에이전트가 웹사이트가 어떻게 변하든 상관없이 핵심 목표를 달성할 수 있도록 '강철 같은 적응력'을 길러줍니다.

5. 결론: 왜 이것이 중요한가?

이 연구는 AI 개발자들에게 중요한 교훈을 줍니다.

  • 단순한 훈련은 부족하다: 인터넷은 매일 변합니다. 오늘 완벽하게 작동하는 AI 는 내일 쓸모없어질 수 있습니다.
  • 계획의 중요성: 단순히 행동만 복사하는 게 아니라, **왜 그 행동을 했는지 (생각과 계획)**를 함께 가르쳐야 합니다.
  • 미래 지향적: 한 번 인간이 만든 '핵심 계획'을 바탕으로 AI 가 자동으로 다양한 시대의 데이터를 수집하고 학습하게 함으로써, 미래의 변화에도 끄떡없는 AI를 만들 수 있는 길을 열었습니다.

한 줄 요약:

"인터넷은 매일 변하는 거대한 바다인데, 우리는 과거의 지도만 들고 배를 띄우고 있었습니다. 이 연구는 **'시간을 거슬러 모든 파도를 경험하게 하는 훈련'**을 통해, 어떤 바다에서도 항해할 수 있는 진정한 선장 (AI) 을 만드는 법을 알려줍니다."