The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Each language version is independently generated for its own context, not a direct translation.

De Wereld Blijft Niet Stilstaan: Een Simpele Uitleg van de "ProEvolve" Studie

Stel je voor dat je een super slimme robot-assistent hebt die voor jou boodschappen doet, reizen boekt of software schrijft. Tot nu toe hebben we deze robots getest in een stille, statische wereld. Het was alsof we ze trainden in een museum waar de tentoonstellingen nooit veranderen, de regels altijd hetzelfde zijn en de gereedschappen nooit kapot gaan.

Maar in het echte leven? Daar verandert alles constant. Nieuwe apps komen, oude functies verdwijnen, prijzen schommelen en websites krijgen nieuwe knoppen. De vraag is: Hoe goed past een robot zich aan als de wereld om hem heen verandert?

Dit onderzoek, getiteld "The World Won't Stay Still", introduceert een nieuwe manier om deze robots te testen. Hier is de uitleg, zonder jargon:

1. Het Probleem: De "Stille Museum" Valstrik

Vroeger testten we robots in een omgeving die leek op een fotografie. Alles stond vast. Als je een robot leerde om een bestelling te annuleren, was de knop daar altijd, en het formulier zag er altijd hetzelfde uit.

In de realiteit is de wereld echter een levend organisme.

Soms komt er een nieuwe functie bij (zoals "abonnementen").
Soms wordt een oude tool verwijderd (zoals "winkelmandje" dat tijdelijk offline gaat voor onderhoud).
Soms verandert de structuur van de data (zoals een adresveld dat opeens twee regels nodig heeft in plaats van één).

Als we robots alleen testen in de "stille wereld", denken we dat ze slim zijn. Maar zodra ze de echte, veranderende wereld in gaan, raken ze in paniek omdat hun "landkaart" niet meer klopt.

2. De Oplossing: ProEvolve (De "Bouwmeester")

De auteurs van dit paper hebben een systeem bedacht dat ze ProEvolve noemen. Je kunt dit zien als een intelligente bouwmeester die een virtuele stad bouwt en die stad live aanpast terwijl de robot erin werkt.

In plaats van 100 verschillende, losse steden te bouwen, bouwen ze één stad en laten ze die groeien en veranderen.

Hoe werkt het? De "Lego-kaart"

Het geheim zit in hoe ze de wereld beschrijven: met een grafiek (een soort super-Lego-kaart).

De Stekken (Knopen): Dit zijn de onderdelen: "Gebruiker", "Bestelling", "Product", "Korting".
De Verbindingen (Lijnen): Dit zijn de regels: "Een gebruiker heeft een bestelling", "Een bestelling bevat producten".

Wanneer de wereld moet veranderen, hoeven ze niet alles opnieuw te bouwen. Ze doen alleen Lego-aanpassingen aan deze kaart:

Toevoegen (Completion): Ze plakken een nieuw blokje "Abonnement" aan de kaart en verbinden het met de bestaande "Bestelling".
Versnellen (Saturation): Ze merken dat het te veel stappen kost om van A naar B te gaan. Ze leggen een kortere weg (een nieuwe tunnel) aan op de kaart, zodat de robot sneller bij de informatie komt.
Verwijderen (Deprecation): Ze halen een blokje weg (bijvoorbeeld "Winkelmandje") omdat het kapot is. De robot moet nu een andere route vinden om hetzelfde doel te bereiken.

3. De Test: De "Vluchtsimulator"

Om te testen of de robot slim is, laten ze hem door deze veranderende stad lopen.

De Opdracht: "Koop een schoen."
De Verandering: Halverwege de opdracht verdwijnt de knop "Koop nu" en moet de robot zelf een nieuwe route vinden via "Wishlist" en "Later kopen".
De Simulatie: Een andere AI (de "klant") praat met de robot. Als de robot de juiste stappen zet, gaat de klant verder. Als de robot vastloopt omdat hij niet merkt dat de wereld veranderd is, stopt de test.

Ze hebben dit zo verregaand uitgevoerd dat ze één basisomgeving hebben getransformeerd in 200 verschillende versies met 3.000 taken.

4. Wat Leerden Ze? (De Resultaten)

Toen ze verschillende grote AI-modellen (zoals GPT-5, Claude, DeepSeek) door deze veranderende wereld stuurden, zagen ze interessante dingen:

Succes is niet lineair: Een robot kan heel goed zijn in een wereld met meer opties (toevoegingen), maar volledig vastlopen als er opties verdwijnen.
Geen universele oplossing: Wat voor de ene robot werkt (bijvoorbeeld: "probeer alles wat je kunt vinden"), werkt niet voor de andere. Sommige robots worden paniekerig en maken te veel fouten als de regels veranderen.
Het geheugen helpt, maar niet altijd: Robots die hun eerdere gesprekken onthouden (zoals een mens die zegt: "Gisteren werkte dit nog zo"), deden het soms beter, maar soms ook slechter omdat ze vastbleven in oude patronen.

Conclusie: Waarom is dit belangrijk?

Dit onderzoek zegt eigenlijk: "Stop met het testen van robots in een museum."

Als we AI-systemen willen bouwen die echt veilig en betrouwbaar zijn in onze dynamische wereld (waar apps updaten, wetten veranderen en tools verdwijnen), moeten we ze trainen in een wereld die meebeweegt.

ProEvolve is de eerste stap naar een "fitnesscentrum" voor AI, waar ze niet alleen zware gewichten tillen in een stilstaande ruimte, maar leren rennen op een loopband die constant van snelheid en richting verandert. Alleen zo worden ze echt klaar voor de realiteit.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Statische versus Dynamische Omgevingen

Huidige benchmarks voor LLM-gebaseerde agenten (zoals SWE-bench, WebArena, ToolBench) evalueren agenten voornamelijk in statische omgevingen. Deze omgevingen hebben vaste schema's, onveranderlijke datasets en een statische set van tools.

Dit creëert een fundamenteel gat met de realiteit:

Realiteit: Wereldwijde systemen evolueren continu. Nieuwe functies worden toegevoegd, bestaande tools worden geïtereerd, en verouderde API's worden verwijderd (deprecated).
Gevolg: Huidige benchmarks kunnen de adaptiviteit en robustheid van agenten tegenover deze dynamische veranderingen niet goed meten. Agenten die goed presteren in een statische snapshot, kunnen falen zodra de onderliggende structuur (schema, tools, data) verandert.

De kernvraag van het paper is: Hoe kunnen we agent-omgevingen op een schaalbare en controleerbare manier laten evolueren om adaptiviteit te testen?

2. Methodologie: PROEVOLVE Framework

De auteurs stellen PROEVOLVE voor, een graf-gebaseerd framework dat omgevingsevolutie "programmeerbaar" maakt. Het framework bestaat uit drie hoofdblokken:

A. Grafische Formalisering (Environment Modeling)

In plaats van losse bestanden of databases, wordt een omgevingsversie gemodelleerd als een getypeerde relationele graaf $G = (V, E)$ .

Nodes ( $V$ ): Vertegenwoordigen schema-elementen (bijv. User.user_id, Order.order_id).
Edges ( $E$ ): Vertegenwoordigen getypeerde relaties of tool-gestuurde transities die informatie van het ene schema-element naar het andere brengen.
Evolutie: Omgevingsveranderingen worden gedefinieerd als een reeks graftransformaties ( $\Delta$ ). Een nieuwe versie $G^{(k+1)}$ wordt gegenereerd uit $G^{(k)}$ door knopen en randen toe te voegen, te verwijderen of te wijzigen.

B. Programmeerbare Evolutie (Graph Transformations)

Om schaalbaarheid te garanderen, gebruikt PROEVOLVE een agent-pipeline (met LLM's) om drie strategieën voor graftransformatie automatisch toe te passen:

Completion ( $\Delta_{comp}$ ): Voegt knopen en randen toe om nieuwe functionaliteiten te ondersteunen (bijv. een "wishlist" functie toevoegen). De LLM plant de benodigde schema-uitbreidingen en tools.
Saturation ( $\Delta_{sat}$ ): Ontdekt indirecte relaties via random walks en voegt "shortcut"-tools toe. Dit simuleert het optimaliseren van systemen door complexe multi-hop queries te vervangen door directe API-calls.
Deprecation ( $\Delta_{dep}$ ): Verwijdert knopen en randen om het afschalen van services of API-updates te simuleren. De LLM moet realistische "workarounds" genereren voor agenten.

Na elke transformatie genereert een Coding Agent de uitvoerbare code (data-modellen, tool-implementaties en unit-tests) die consistent is met de nieuwe graaf.

C. Taakgeneratie en Evaluatie (Subgraph Sampling)

Taken worden niet handmatig geschreven, maar gegenereerd via subgraaf-sampling:

Een taak wordt gedefinieerd als een beperkte subgraaf $H \subseteq G$ die de structuur (schema/tools) specificeert die de agent moet traverseren.
Een User Simulator (gebaseerd op een LLM) genereert multi-turn dialogen die de agent dwingen om door de subgraaf te navigeren.
Evaluatiemaatstaf: In plaats van alleen een eindresultaat te checken, wordt de state-wise success rate gemeten. De simulator controleert bij elke stap of de agent de vereiste informatie heeft verkregen om door te gaan naar de volgende stap.

3. Belangrijkste Bijdragen

Eerste expliciete formulering: Dit is het eerste werk dat agent-evaluatie in evoluerende omgevingen als een zelfstandig onderzoeksprobleem behandelt.
Programmeerbaar Framework: Introductie van PROEVOLVE, dat omgevingsevolutie formaliseert als graftransformaties, waardoor coherentie tussen schema's, data en tools behouden blijft tijdens schaalbare generatie.
Schaalbare Validatie: Het framework is gevalideerd door één e-commerce seed-omgeving te evolueren naar 200 unieke omgevingsversies en 3.000 taak-sandboxes.
Nieuwe Evaluatiemethodiek: Een systeem dat agenten test langs expliciete evolutie-trajecten, in plaats van in geïsoleerde statische momentopnames.

4. Resultaten en Experimenten

De auteurs hebben het framework getest op een e-commerce scenario met 50 evolutie-trajecten (in totaal 200 omgevingen) en hebben diverse state-of-the-art modellen getest (o.a. GPT-5, Claude-Opus-4.5, DeepSeek-V3.2, Qwen3, Gemini-2.5-Pro).

Kernbevindingen:

Hoge Variabiliteit: De prestaties van agenten fluctueren drastisch afhankelijk van het type evolutie. Een agent die presteert bij het toevoegen van tools (Completion), kan falen bij het verwijderen van tools (Deprecation). Er is geen consistent patroon over alle modellen heen.
Gebrekkige Adaptiviteit: Bestaande strategieën zoals "History Replay" (hergebruik van eerdere gesprekken) of "Reflection Replay" (samenvattingen van ervaringen) verbeteren de prestaties niet consistent. Sommige modellen (zoals DeepSeek) profiteren sterk, terwijl anderen (zoals Qwen3) zelfs slechter presteren door over-exploratie.
Tool-gebruik: Agenten vertonen verschillende strategieën. GPT-5 gebruikt veel meer tools en is intensiever, wat leidt tot hogere succespercentages maar ook hogere kosten. Gemini-2.5-Pro is zuiniger maar faalt vaker bij complexe, afhankelijke taken.
Kosten-Robuustheid Trade-off: Er is een duidelijke trade-off zichtbaar. Hogere taakcomplexiteit vereist diepere traversie in de graaf, wat leidt tot meer interactie-kosten (meer tool calls, meer rondes).

5. Betekenis en Impact

Dit paper is van groot belang voor de toekomst van AI-agenten:

Realistische Evaluatie: Het verschuift de focus van "kan de agent deze statische taak oplossen?" naar "kan de agent omgaan met veranderingen in zijn werkomgeving?". Dit is cruciaal voor de inzet van agenten in productie.
Robuustheid: Het identificeert kwetsbaarheden in huidige modellen die vaak worden gemaskeerd in statische benchmarks.
Methodologie: Het biedt een gestructureerde, reproduceerbare manier om curriculum learning en adaptieve strategieën voor agenten te onderzoeken.

Kortom, PROEVOLVE toont aan dat de wereld niet stil blijft staan, en dat onze benchmarks dat ook niet mogen doen als we echte, robuuste AI-agenten willen bouwen.