TimeWarp: Evaluating Web Agents by Revisiting the Past

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale assistent hebt die voor jou op internet kan winkelen, nieuws lezen en informatie zoeken. We noemen dit een web-agent. De afgelopen jaren zijn deze agents steeds slimmer geworden op de huidige testbanen. Maar er is een groot probleem: het internet verandert constant. Wat vandaag werkt, kan morgen alweer anders zijn.

Deze paper, getiteld "TIMEWARP", introduceert een nieuwe manier om te testen of deze digitale assistenten echt slim zijn, of dat ze alleen maar uit hun hoofd hebben geleerd hoe een specifieke website er nu uitziet.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Stuck in 2024"-Agent

Stel je voor dat je een chauffeur traint om een auto te besturen, maar je traint hem alleen op een weg die eruitziet als een oude, kronkelige landweg uit 1990. Als je die chauffeur dan op een moderne snelweg zet met digitale borden en rijbanen, zal hij waarschijnlijk in paniek raken. Hij weet niet hoe hij moet reageren op de nieuwe signalen.

Dit is precies wat er gebeurt met huidige web-agents. Ze zijn getraind op de huidige versie van websites (zoals Wikipedia of Amazon). Zodra die websites hun ontwerp veranderen (een nieuwe knop, een andere zoekbalk), raken de agents in de war en falen ze. Ze hebben geen "algemene intelligentie", ze hebben alleen een "fotograafje" van de oude situatie in hun hoofd.

2. De Oplossing: De "Tijdmachine" (TIMEWARP)

De auteurs hebben een nieuw testlab gebouwd dat ze TIMEWARP noemen.

De Analogie: Stel je een museum voor waar je niet alleen de huidige versie van een website kunt zien, maar ook hoe die eruitzag in 2001, 2005, 2010 en 2025.
Hoe het werkt: TIMEWARP is een verzameling van drie "werelden" (een Wiki, een Nieuwssite en een Webshop). Elke wereld heeft 6 verschillende versies die lijken op de internet-esthetiek van verschillende tijdperken.
- Versie 1: De "oude school" versie (kleine letters, zoekbalken onderaan, geen menu's).
- Versie 6: De moderne, strakke versie (iconen, pop-ups, complexe lay-outs).

Met dit systeem kunnen onderzoekers kijken: "Kan deze agent nog steeds zijn taak uitvoeren als de website eruitziet als in 1999, terwijl hij getraind is op de versie van 2025?"

3. De Uitdaging: Waarom is dit zo moeilijk?

Het is heel lastig om agents te trainen die dit kunnen.

Het probleem met "Kopieer en Plak" (Behavior Cloning): Standaard leren agents door te kijken naar een voorbeeld van hoe een mens een taak doet. Maar als je ze alleen leert op de moderne versie, leren ze alleen de moderne knoppen te vinden. Als ze naar de oude versie gaan, weten ze niet waar de knop zit.
Het probleem met "Vergeten": Als je een agent traint op de oude versie en daarna op de nieuwe, vergeet hij vaak hoe hij de oude versie moest bedienen. Dit heet "catastrophic forgetting".

4. De Nieuwe Methode: De "Meester-Plan" (TIMETRAJ)

De auteurs bedachten een slimme truc om dit op te lossen, genaamd TIMETRAJ.

De Analogie: Stel je voor dat je een student wilt leren een stad te verkennen. In plaats van de student zelf door elke straat te laten lopen (wat tijd kost), geef je de student eerst een algemeen plan van een expert: "Ga naar het station, zoek de blauwe deur, en loop naar links."
Hoe het werkt:
1. Een mens schrijft één keer een hoog-niveau plan voor een taak (bijv. "Zoek een koekje onder de $5").
2. Een zeer slimme "meester-agent" (de leraar) neemt dit plan en voert het uit op alle 6 versies van de website tegelijk.
3. Omdat het plan algemeen is ("zoek de knop"), kan de meester-agent de knop vinden, of die nu links, rechts, boven of onder staat.
4. De "leerling-agent" kijkt dan naar hoe de meester dit op alle versies heeft gedaan. Zo leert de leerling niet alleen welke knop te klikken, maar hoe te denken en te plannen, ongeacht hoe de website eruitziet.

5. De Resultaten: Een Revolutie in Robuustheid

De resultaten zijn indrukwekkend:

Vroeger: Agents die op één versie werden getraind, faalden bijna volledig (0% tot 20% succes) als ze naar een andere versie van de website werden gestuurd.
Nu: Met de nieuwe methode (TIMEWARP-BC) stijgt het succes van 0% naar 27% voor sommige modellen, en van 20% naar 37% voor andere.
De les: Door agents te leren plannen en te denken (niet alleen te klikken), worden ze veel flexibeler. Ze worden als een echte mens die een nieuwe stad binnenkomt: ze weten dat er een ingang is, ook al ziet de deur er anders uit dan die in hun eigen stad.

Conclusie

TIMEWARP is een belangrijke stap voor de toekomst van AI. Het laat zien dat we niet alleen moeten kijken of een agent slim is op de huidige internet-versie, maar of hij kan meedenken met de veranderingen die komen.

Het is alsof we stoppen met het trainen van chauffeurs op één specifiek wegdek, en ze in plaats daarvan leren hoe ze in elk type auto en op elk type weg kunnen rijden. Zo worden onze digitale assistenten echt betrouwbaar, ook als het internet morgen weer verandert.

TimeWarp: Evaluating Web Agents by Revisiting the Past

1. Het Probleem: De "Stuck in 2024"-Agent

2. De Oplossing: De "Tijdmachine" (TIMEWARP)

3. De Uitdaging: Waarom is dit zo moeilijk?

4. De Nieuwe Methode: De "Meester-Plan" (TIMETRAJ)

5. De Resultaten: Een Revolutie in Robuustheid

Conclusie

1. Het Probleem: Dynamiek van het Web en Generalisatie

2. Methodologie: TIMEWARP en TIMETRAJ

A. De TIMEWARP Benchmark

B. TIMETRAJ: Trajectieverzameling via Plan-distillatie

C. TIMEWARP-BC: Verbeterd Behavior Cloning

3. Belangrijkste Resultaten

4. Bijdragen en Significantie

TimeWarp: Evaluating Web Agents by Revisiting the Past

1. Het Probleem: De "Stuck in 2024"-Agent

2. De Oplossing: De "Tijdmachine" (TIMEWARP)

3. De Uitdaging: Waarom is dit zo moeilijk?

4. De Nieuwe Methode: De "Meester-Plan" (TIMETRAJ)

5. De Resultaten: Een Revolutie in Robuustheid

Conclusie

1. Het Probleem: Dynamiek van het Web en Generalisatie

2. Methodologie: TIMEWARP en TIMETRAJ

A. De TIMEWARP Benchmark

B. TIMETRAJ: Trajectieverzameling via Plan-distillatie

C. TIMEWARP-BC: Verbeterd Behavior Cloning

3. Belangrijkste Resultaten

4. Bijdragen en Significantie

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA