HiconAgent: History Context-aware Policy Optimization for GUI Agents

HiconAgent is een nieuwe GUI-agent die met de History Context-aware Policy Optimization (HCPO) methode, bestaande uit Dynamische Context Sampling en Anker-gestuurde Historiecompressie, historische context efficiënter gebruikt dan bestaande modellen, wat leidt tot betere prestaties en aanzienlijke reducties in rekenkosten.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale assistent hebt die je helpt om taken uit te voeren op je telefoon of computer, zoals een boeking maken of een app openen. Dit noemen we een GUI-agent (een agent die grafische gebruikersinterfaces bestuurt).

Het probleem is dat deze assistenten vaak vergeten wat ze eerder hebben gedaan, of juist verstrikt raken in te veel oude informatie. Ze kijken naar het huidige scherm, maar vergeten de context van de vorige stappen. Of ze proberen alles wat ze ooit hebben gezien te onthouden, waardoor hun "brein" overbelast raakt en ze traag worden.

De auteurs van dit paper hebben HiconAgent bedacht. Dit is een slimme manier om deze digitale assistenten te trainen zodat ze precies weten wat ze moeten onthouden en wat ze kunnen vergeten.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het probleem: Te veel of te weinig herinneringen

Stel je voor dat je een reisplanner bent.

  • Optie A (Te weinig): Je kijkt alleen naar het huidige scherm. Je weet niet dat je net een vliegticket hebt geboekt, dus je probeert misschien weer een ticket te kopen.
  • Optie B (Te veel): Je probeert je elke stap te herinneren die je ooit hebt gedaan, van jaren geleden. Je hoofd zit vol met oude foto's en notities die nu niet meer relevant zijn. Je wordt traag en maakt fouten omdat je niet weet wat belangrijk is.

HiconAgent lost dit op door twee slimme trucjes te gebruiken.

2. Truc 1: De "Dynamische Herinnerings-Training" (DCS)

In de oude methoden kregen de agents altijd precies hetzelfde aantal vorige stappen te zien (bijvoorbeeld altijd de laatste 2 stappen). Maar soms heb je 1 stap nodig, en soms heb je 5 stappen nodig om een beslissing te nemen.

De analogie:
Stel je voor dat je een student bent die voor een examen leert. De leraar geeft je altijd precies dezelfde hoeveelheid oude tentamens om te studeren. Soms is dat te weinig, soms te veel.
Met HiconAgent doet de leraar iets anders: hij geeft je willekeurig 1, 2 of 3 oude tentamens. Soms zelfs geen enkele.

  • Het doel: De student (de agent) leert hierdoor om zelf te beslissen: "Oh, voor deze vraag heb ik alleen de laatste stap nodig, maar voor die andere vraag moet ik terugkijken naar drie stappen geleden."
  • Het resultaat: De agent wordt flexibeler en slimmer, omdat hij leert om precies de juiste hoeveelheid context te gebruiken, afhankelijk van de situatie.

3. Truc 2: De "Anker-Strategie" (AHC)

Dit is de meest creatieve oplossing. Als je terugkijkt naar je geschiedenis, zie je twee dingen:

  1. Beelden: Foto's van schermen (zwaar, veel informatie, vaak overbodig).
  2. Acties: Wat je daadwerkelijk hebt gedaan (klikken, typen, scrollen).

De onderzoekers ontdekten iets fascinerends: De acties zijn de "ankers".
De analogie:
Stel je voor dat je een bootje (de agent) hebt dat door een mistig meer vaart (de geschiedenis).

  • De foto's van het water zijn als een dikke, zware deken die je over je heen trekt. Ze zijn zwaar om te dragen en vertragen je.
  • De acties (waar je hebt geankerd) zijn als een stevige ankerlijn. Zolang je de ankerlijn vasthoudt, weet je waar je bent, zelfs als je de zware deken (de foto's) laat vallen.

HiconAgent doet precies dit:

  • Het houdt de acties (de ankers) vast.
  • Het gooit de oude foto's (de zware deken) weg na een bepaald punt.
  • Belangrijk: Tijdens het trainen krijgt de agent wel de volle deken te zien, maar tijdens het werken (inference) draagt hij alleen de ankerlijn. Hierdoor is hij 2,5 keer sneller en verbruikt hij veel minder energie, zonder dat hij zijn weg kwijtraakt.

4. Het resultaat: Een snellere, slimmere agent

Door deze twee methoden te combineren, is HiconAgent een doorbraak:

  • Snelheid: Het is tot 2,5 keer sneller dan de huidige beste modellen.
  • Efficiëntie: Het verbruikt 60% minder rekenkracht.
  • Prestatie: Een klein model (3 miljard parameters) presteert beter dan veel grotere modellen (7 miljard parameters) op complexe taken.

Kort samengevat:
HiconAgent leert een digitale assistent om niet blindelings alles te onthouden, maar om slim te kiezen wat belangrijk is. Het leert om de "ankers" (wat je hebt gedaan) vast te houden en de "zware koffers" (oude foto's) achter te laten. Zo blijft de assistent snel, energiek en precies op de weg, zelfs bij moeilijke taken.