Each language version is independently generated for its own context, not a direct translation.

타임워프 (TIMEWARP): 웹 에이전트를 과거로 보내 시험하다

이 논문은 **"오늘날 우리가 만든 인공지능 (웹 에이전트) 이 내일의 인터넷에서도 잘 작동할까?"**라는 중요한 질문에서 시작합니다.

지금까지의 연구들은 대부분 인터넷이 변하지 않는다고 가정하고 에이전트를 훈련시켰습니다. 하지만 현실의 인터넷은 매일 디자인이 바뀌고, 버튼이 이동하고, 기능이 추가되거나 사라지는 살아있는 생명체와 같습니다.

이 논문은 이 문제를 해결하기 위해 **'타임워프 (TIMEWARP)'**라는 새로운 실험실과 **'타임트랙 (TIMETRAJ)'**이라는 새로운 훈련 방법을 소개합니다.

1. 문제: "과거의 지도로 미래를 헤매다"

비유: 1990 년대 지도로 2025 년 서울을 운전하는 것
상상해 보세요. 1990 년대에 만든 지도를 들고 2025 년의 서울을 운전한다고 칩시다.

그때는 '네이버'가 없었고, '카카오'도 없었습니다.
길은 다르고, 건물의 모양도 다르고, 신호등 위치도 달랐습니다.
1990 년대 지도만 보고 훈련된 운전사 (AI) 는 2025 년의 복잡한 도로에서 길을 잃거나, 신호등을 무시하고 사고를 낼 것입니다.

지금까지의 웹 에이전트 연구도 비슷했습니다. 에이전트를 **특정 버전의 웹사이트 (예: 2024 년 버전)**에서만 훈련시켰습니다. 그래서 그 버전에서는 천재처럼 작동했지만, 웹사이트 디자인이 조금만 바뀌어도 (버전 2025 로 업데이트되면) 완전히 멍청해져서 아무것도 못 하는 경우가 많았습니다.

2. 해결책 1: 타임워프 (TIMEWARP) - "시간 여행 실험실"

연구진은 에이전트의 능력을 진짜로 테스트하기 위해 시간을 거슬러 올라가는 실험실을 만들었습니다.

세 가지 세계: 위키백과 (Wiki), 뉴스 (News), 쇼핑몰 (Shop) 세 가지 환경을 만들었습니다.
6 개의 시대: 각 환경마다 인터넷의 역사적 흐름을 따라 **6 가지 버전 (v1~v6)**을 구현했습니다.
- 과거 (v1, v2): 디자인이 투박하고, 검색창이 페이지 맨 아래에 있거나, 메뉴가 없는 등 구식 인터페이스.
- 현대 (v5, v6): 화려한 아이콘, 팝업 광고, 드롭다운 추천 등 복잡한 현대적 인터페이스.
미션: 에이전트에게 "과거의 구식 웹사이트에서 정보를 찾아라" 혹은 "미래의 복잡한 웹사이트에서 물건을 사라"는 과제를 줍니다.

이 실험을 통해 연구진은 **"대부분의 AI 는 디자인이 조금만 바뀌어도 완전히 무너진다"**는 사실을 발견했습니다. 특히 시각적 (이미지) 으로만 보는 AI 는 구식 디자인을 전혀 이해하지 못했습니다.

3. 해결책 2: 타임트랙 (TIMETRAJ) - "한 번의 지도로 모든 길을 가르치다"

그렇다면 어떻게 에이전트를 모든 시대에 적응하게 만들까요? 연구진은 효율적인 훈련 방법을 고안했습니다.

비유: "스승이 모든 시대의 길을 먼저 걷고, 제자가 그 발자국을 따라가는 것"

스승 (Teacher) 의 계획: 먼저 인간 전문가와 강력한 AI 가 협력하여, 하나의 목표에 대한 **고수준의 실행 계획 (Plan)**을 세웁니다.
- 예: "쿠키를 사려면 1. 검색창을 찾아라, 2. 쿠키를 입력해라, 3. 결제 버튼을 누르라."
- 이 계획은 특정 디자인에 의존하지 않는 핵심 로직입니다.
스승의 여행 (Rollouts): 이 계획을 바탕으로, 강력한 '스승 AI'가 모든 6 가지 버전의 웹사이트를 직접 돌아다니며 성공적인 길 (궤적) 을 만들어냅니다.
- 과거 버전에서는 "검색창이 아래에 있으니 스크롤을 내려라"라고 배우고,
- 미래 버전에서는 "검색 아이콘을 먼저 클릭하라"라고 배우는 것입니다.
제자 (Student) 의 학습: 이렇게 수집된 다양한 시대의 성공 기록을 바탕으로, 우리가 훈련하려는 '제자 AI'를 가르칩니다.
- 단순히 "무엇을 클릭하라"는 행동만 가르치는 게 아니라, **"왜 그 버튼을 클릭했는지 (생각)", "앞으로 무엇을 할지 (계획)", "무엇을 기억해야 하는지 (기억)"**까지 모두 가르칩니다.

4. 결과: "강철 같은 적응력"

이 방법을 적용한 결과, 놀라운 변화가 일어났습니다.

기존 방식 (단일 버전 훈련): 0% 에서 20% 정도의 성공률. 디자인이 바뀌면 완전히 망함.
새로운 방식 (타임워프 훈련):
- Qwen-3 4B 모델: 성공률이 **20.4% → 37.7%**로 크게 향상.
- Llama-3.1 8B 모델: 성공률이 **0% → 27.0%**로, 아예 못 하던 것이 제대로 작동하는 수준으로 변함.

이 방법은 에이전트가 웹사이트가 어떻게 변하든 상관없이 핵심 목표를 달성할 수 있도록 '강철 같은 적응력'을 길러줍니다.

5. 결론: 왜 이것이 중요한가?

이 연구는 AI 개발자들에게 중요한 교훈을 줍니다.

단순한 훈련은 부족하다: 인터넷은 매일 변합니다. 오늘 완벽하게 작동하는 AI 는 내일 쓸모없어질 수 있습니다.
계획의 중요성: 단순히 행동만 복사하는 게 아니라, **왜 그 행동을 했는지 (생각과 계획)**를 함께 가르쳐야 합니다.
미래 지향적: 한 번 인간이 만든 '핵심 계획'을 바탕으로 AI 가 자동으로 다양한 시대의 데이터를 수집하고 학습하게 함으로써, 미래의 변화에도 끄떡없는 AI를 만들 수 있는 길을 열었습니다.

한 줄 요약:

"인터넷은 매일 변하는 거대한 바다인데, 우리는 과거의 지도만 들고 배를 띄우고 있었습니다. 이 연구는 **'시간을 거슬러 모든 파도를 경험하게 하는 훈련'**을 통해, 어떤 바다에서도 항해할 수 있는 진정한 선장 (AI) 을 만드는 법을 알려줍니다."

TimeWarp: Evaluating Web Agents by Revisiting the Past

타임워프 (TIMEWARP): 웹 에이전트를 과거로 보내 시험하다

1. 문제: "과거의 지도로 미래를 헤매다"

2. 해결책 1: 타임워프 (TIMEWARP) - "시간 여행 실험실"

3. 해결책 2: 타임트랙 (TIMETRAJ) - "한 번의 지도로 모든 길을 가르치다"

4. 결과: "강철 같은 적응력"

5. 결론: 왜 이것이 중요한가?

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

A. TIMEWARP 벤치마크

B. TIMETRAJ (Trajectory Collection Algorithm)

C. TIMEWARP-BC (Training Method)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

TimeWarp: Evaluating Web Agents by Revisiting the Past

타임워프 (TIMEWARP): 웹 에이전트를 과거로 보내 시험하다

1. 문제: "과거의 지도로 미래를 헤매다"

2. 해결책 1: 타임워프 (TIMEWARP) - "시간 여행 실험실"

3. 해결책 2: 타임트랙 (TIMETRAJ) - "한 번의 지도로 모든 길을 가르치다"

4. 결과: "강철 같은 적응력"

5. 결론: 왜 이것이 중요한가?

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

A. TIMEWARP 벤치마크

B. TIMETRAJ (Trajectory Collection Algorithm)

C. TIMEWARP-BC (Training Method)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA