The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Dit artikel introduceert ProEvolve, een grafisch gebaseerd framework dat programmabele evolutie van agentomgevingen mogelijk maakt om de aanpassingsvermogen van LLM-agenten aan dynamische real-world veranderingen beter te evalueren dan statische benchmarks.

Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Wereld Blijft Niet Stilstaan: Een Simpele Uitleg van de "ProEvolve" Studie

Stel je voor dat je een super slimme robot-assistent hebt die voor jou boodschappen doet, reizen boekt of software schrijft. Tot nu toe hebben we deze robots getest in een stille, statische wereld. Het was alsof we ze trainden in een museum waar de tentoonstellingen nooit veranderen, de regels altijd hetzelfde zijn en de gereedschappen nooit kapot gaan.

Maar in het echte leven? Daar verandert alles constant. Nieuwe apps komen, oude functies verdwijnen, prijzen schommelen en websites krijgen nieuwe knoppen. De vraag is: Hoe goed past een robot zich aan als de wereld om hem heen verandert?

Dit onderzoek, getiteld "The World Won't Stay Still", introduceert een nieuwe manier om deze robots te testen. Hier is de uitleg, zonder jargon:

1. Het Probleem: De "Stille Museum" Valstrik

Vroeger testten we robots in een omgeving die leek op een fotografie. Alles stond vast. Als je een robot leerde om een bestelling te annuleren, was de knop daar altijd, en het formulier zag er altijd hetzelfde uit.

In de realiteit is de wereld echter een levend organisme.

  • Soms komt er een nieuwe functie bij (zoals "abonnementen").
  • Soms wordt een oude tool verwijderd (zoals "winkelmandje" dat tijdelijk offline gaat voor onderhoud).
  • Soms verandert de structuur van de data (zoals een adresveld dat opeens twee regels nodig heeft in plaats van één).

Als we robots alleen testen in de "stille wereld", denken we dat ze slim zijn. Maar zodra ze de echte, veranderende wereld in gaan, raken ze in paniek omdat hun "landkaart" niet meer klopt.

2. De Oplossing: ProEvolve (De "Bouwmeester")

De auteurs van dit paper hebben een systeem bedacht dat ze ProEvolve noemen. Je kunt dit zien als een intelligente bouwmeester die een virtuele stad bouwt en die stad live aanpast terwijl de robot erin werkt.

In plaats van 100 verschillende, losse steden te bouwen, bouwen ze één stad en laten ze die groeien en veranderen.

Hoe werkt het? De "Lego-kaart"

Het geheim zit in hoe ze de wereld beschrijven: met een grafiek (een soort super-Lego-kaart).

  • De Stekken (Knopen): Dit zijn de onderdelen: "Gebruiker", "Bestelling", "Product", "Korting".
  • De Verbindingen (Lijnen): Dit zijn de regels: "Een gebruiker heeft een bestelling", "Een bestelling bevat producten".

Wanneer de wereld moet veranderen, hoeven ze niet alles opnieuw te bouwen. Ze doen alleen Lego-aanpassingen aan deze kaart:

  1. Toevoegen (Completion): Ze plakken een nieuw blokje "Abonnement" aan de kaart en verbinden het met de bestaande "Bestelling".
  2. Versnellen (Saturation): Ze merken dat het te veel stappen kost om van A naar B te gaan. Ze leggen een kortere weg (een nieuwe tunnel) aan op de kaart, zodat de robot sneller bij de informatie komt.
  3. Verwijderen (Deprecation): Ze halen een blokje weg (bijvoorbeeld "Winkelmandje") omdat het kapot is. De robot moet nu een andere route vinden om hetzelfde doel te bereiken.

3. De Test: De "Vluchtsimulator"

Om te testen of de robot slim is, laten ze hem door deze veranderende stad lopen.

  • De Opdracht: "Koop een schoen."
  • De Verandering: Halverwege de opdracht verdwijnt de knop "Koop nu" en moet de robot zelf een nieuwe route vinden via "Wishlist" en "Later kopen".
  • De Simulatie: Een andere AI (de "klant") praat met de robot. Als de robot de juiste stappen zet, gaat de klant verder. Als de robot vastloopt omdat hij niet merkt dat de wereld veranderd is, stopt de test.

Ze hebben dit zo verregaand uitgevoerd dat ze één basisomgeving hebben getransformeerd in 200 verschillende versies met 3.000 taken.

4. Wat Leerden Ze? (De Resultaten)

Toen ze verschillende grote AI-modellen (zoals GPT-5, Claude, DeepSeek) door deze veranderende wereld stuurden, zagen ze interessante dingen:

  • Succes is niet lineair: Een robot kan heel goed zijn in een wereld met meer opties (toevoegingen), maar volledig vastlopen als er opties verdwijnen.
  • Geen universele oplossing: Wat voor de ene robot werkt (bijvoorbeeld: "probeer alles wat je kunt vinden"), werkt niet voor de andere. Sommige robots worden paniekerig en maken te veel fouten als de regels veranderen.
  • Het geheugen helpt, maar niet altijd: Robots die hun eerdere gesprekken onthouden (zoals een mens die zegt: "Gisteren werkte dit nog zo"), deden het soms beter, maar soms ook slechter omdat ze vastbleven in oude patronen.

Conclusie: Waarom is dit belangrijk?

Dit onderzoek zegt eigenlijk: "Stop met het testen van robots in een museum."

Als we AI-systemen willen bouwen die echt veilig en betrouwbaar zijn in onze dynamische wereld (waar apps updaten, wetten veranderen en tools verdwijnen), moeten we ze trainen in een wereld die meebeweegt.

ProEvolve is de eerste stap naar een "fitnesscentrum" voor AI, waar ze niet alleen zware gewichten tillen in een stilstaande ruimte, maar leren rennen op een loopband die constant van snelheid en richting verandert. Alleen zo worden ze echt klaar voor de realiteit.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →