Hybrid Self-evolving Structured Memory for GUI Agents

Dit artikel introduceert HyMEM, een hybride, zelfevoluerende gestructureerde grafgeheugenarchitectuur die open-source GUI-agents aanzienlijk verbetert door multi-hop-retrieval en dynamische updates mogelijk te maken, waardoor zelfs kleinere modellen presteren die concurreren met of superieur zijn aan geavanceerde gesloten modellen.

Sibo Zhu, Wenyi Wu, Kun Zhou, Stephen Wang, Biwei Huang

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe computerbesturing probeert te leren, zoals het boeken van een vlucht of het zoeken naar een restaurant. Als je een mens bent, leer je dit door ervaringen op te slaan in je hoofd. Als je een computerprogramma (een "agent") bent, zonder geheugen, ben je als een amnesiër: elke keer als je een knop indrukt, vergeet je direct wat je net deed en waarom.

Dit is het probleem dat de onderzoekers van dit paper proberen op te lossen. Ze hebben een nieuw systeem bedacht genaamd HYMEM. Laten we dit uitleggen met een paar creatieve vergelijkingen.

Het Probleem: De "Losse Notitiebriefjes"

Tot nu toe hadden computerprogramma's voor het bedienen van schermen (GUI-agents) een soort geheugen, maar het was niet erg slim.

  • Hoe het werkte: Ze verzamelden al hun eerdere pogingen in een grote stapel losse briefjes. Als ze een nieuwe taak kregen, zochten ze op een woordje of een zinnetje in die stapel.
  • Het nadeel: Dit is als proberen een recept te vinden in een berg losse krantenknipsels zonder volgorde. Je vindt misschien wel iets dat lijkt op wat je zoekt, maar je mist de context en de structuur. Ook vergeten ze vaak wat ze eerder hebben geleerd als de situatie iets anders wordt.

De Oplossing: HYMEM (Het "Levende Brein")

De onderzoekers hebben gekeken naar hoe het menselijk brein werkt en een systeem gebouwd dat daarop lijkt. Ze noemen het HYMEM (Hybrid Self-evolving Structured Memory).

Je kunt HYMEM zien als een levende, groeiende bibliotheek in plaats van een stapel losse briefjes. Hier zijn de drie belangrijkste kenmerken:

1. Twee soorten geheugen (De "Hoofd" en de "Fotoalbum")

Het menselijk brein heeft twee manieren om te onthouden:

  • De Strategie (Het Hoofd): Je onthoudt hoe je iets doet. Bijvoorbeeld: "Om een goedkope vlucht te vinden, sorteer je eerst op prijs." Dit is een symbool of een regel.
  • De Ervaring (Het Fotoalbum): Je onthoudt de details. Hoe zag het scherm eruit? Welke knop was er precies? Dit is de visuele data.

HYMEM combineert deze twee. Het heeft een grafiek (een netwerk van verbindingen) waar:

  • De strategieën (de regels) als knopen in het netwerk staan.
  • De visuele details (de foto's van het scherm) eraan hangen als een soort "geheugenstick".
    Dit zorgt ervoor dat de agent niet alleen weet wat hij moet doen, maar ook precies hoe het eruitzag toen hij het deed.

2. Het is een "Levende" Bibliotheek (Zelf-evolutie)

Stel je een gewone bibliotheek voor waar boeken worden toegevoegd, maar nooit worden verwijderd of herschreven. Na een tijdje is het een chaos.
HYMEM is anders. Het is een levende bibliotheek die zichzelf bijwerkt:

  • Nieuwe ervaringen: Als de agent iets nieuws doet, kijkt het eerst: "Hebben we dit al?"
  • Geen dubbel werk: Als het iets is dat we al weten, maar dan beter, dan vervangen ze het oude boek door het nieuwe, betere boek.
  • Samenvoegen: Als twee boeken bijna hetzelfde verhaal vertellen, smelten ze die samen tot één sterk boek.
  • Nieuwe routes: Als er een heel nieuwe manier van werken is, bouwen ze een nieuwe vleugel in de bibliotheek.

Dit betekent dat het systeem niet alleen groeit, maar ook slimmer en efficiënter wordt naarmate het meer ervaringen opdoet. Het wordt niet "dikker" door onzin, maar "strakker" door de beste kennis te bewaren.

3. Het "Werkgeheugen" dat meebeweegt

Tijdens het uitvoeren van een taak (bijvoorbeeld: "Boek een hotel"), verandert de situatie voortdurend. Eerst zoek je, dan kies je een datum, dan betaal je.

  • Oude systemen: Kijken naar één setje notities en blijven daar vastzitten, zelfs als je al bent overgestapt naar de betaalpagina.
  • HYMEM: Heeft een dynamisch werkgeheugen. Zodra de agent merkt dat hij van fase is veranderd (bijv. van "zoeken" naar "betalen"), gooit hij de oude notities weg die niet meer relevant zijn en haalt hij direct de juiste nieuwe instructies uit de bibliotheek. Het is alsof je tijdens het koken de receptenkaart voor "soep" weggooit en direct de kaart voor "dessert" pakt zodra de soep klaar is.

Waarom is dit geweldig?

De onderzoekers hebben dit systeem getest op verschillende open-source computerprogramma's (die vaak minder krachtig zijn dan de dure, gesloten systemen van grote tech-bedrijven).

Het resultaat?

  • Een relatief klein en goedkoop programma (met een "hersengrootte" van 7 miljard parameters) werd met HYMEM zo goed dat het de dure, gesloten systemen van Google en OpenAI (zoals GPT-4o) versloeg.
  • Het verbeterde de prestaties met maar liefst 22,5%.

Samenvatting in één zin

HYMEM is als het geven van een slimme, zichzelf bijwerkende reisgids aan een computer, in plaats van een stapel losse briefjes; hierdoor kan de computer niet alleen zien waar hij is, maar ook onthouden hoe hij daar kwam, wat hij moet doen, en zich aanpassen als de reis verandert.