HiconAgent: History Context-aware Policy Optimization for GUI Agents

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale assistent hebt die je helpt om taken uit te voeren op je telefoon of computer, zoals een boeking maken of een app openen. Dit noemen we een GUI-agent (een agent die grafische gebruikersinterfaces bestuurt).

Het probleem is dat deze assistenten vaak vergeten wat ze eerder hebben gedaan, of juist verstrikt raken in te veel oude informatie. Ze kijken naar het huidige scherm, maar vergeten de context van de vorige stappen. Of ze proberen alles wat ze ooit hebben gezien te onthouden, waardoor hun "brein" overbelast raakt en ze traag worden.

De auteurs van dit paper hebben HiconAgent bedacht. Dit is een slimme manier om deze digitale assistenten te trainen zodat ze precies weten wat ze moeten onthouden en wat ze kunnen vergeten.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het probleem: Te veel of te weinig herinneringen

Stel je voor dat je een reisplanner bent.

Optie A (Te weinig): Je kijkt alleen naar het huidige scherm. Je weet niet dat je net een vliegticket hebt geboekt, dus je probeert misschien weer een ticket te kopen.
Optie B (Te veel): Je probeert je elke stap te herinneren die je ooit hebt gedaan, van jaren geleden. Je hoofd zit vol met oude foto's en notities die nu niet meer relevant zijn. Je wordt traag en maakt fouten omdat je niet weet wat belangrijk is.

HiconAgent lost dit op door twee slimme trucjes te gebruiken.

2. Truc 1: De "Dynamische Herinnerings-Training" (DCS)

In de oude methoden kregen de agents altijd precies hetzelfde aantal vorige stappen te zien (bijvoorbeeld altijd de laatste 2 stappen). Maar soms heb je 1 stap nodig, en soms heb je 5 stappen nodig om een beslissing te nemen.

De analogie:
Stel je voor dat je een student bent die voor een examen leert. De leraar geeft je altijd precies dezelfde hoeveelheid oude tentamens om te studeren. Soms is dat te weinig, soms te veel.
Met HiconAgent doet de leraar iets anders: hij geeft je willekeurig 1, 2 of 3 oude tentamens. Soms zelfs geen enkele.

Het doel: De student (de agent) leert hierdoor om zelf te beslissen: "Oh, voor deze vraag heb ik alleen de laatste stap nodig, maar voor die andere vraag moet ik terugkijken naar drie stappen geleden."
Het resultaat: De agent wordt flexibeler en slimmer, omdat hij leert om precies de juiste hoeveelheid context te gebruiken, afhankelijk van de situatie.

3. Truc 2: De "Anker-Strategie" (AHC)

Dit is de meest creatieve oplossing. Als je terugkijkt naar je geschiedenis, zie je twee dingen:

Beelden: Foto's van schermen (zwaar, veel informatie, vaak overbodig).
Acties: Wat je daadwerkelijk hebt gedaan (klikken, typen, scrollen).

De onderzoekers ontdekten iets fascinerends: De acties zijn de "ankers".
De analogie:
Stel je voor dat je een bootje (de agent) hebt dat door een mistig meer vaart (de geschiedenis).

De foto's van het water zijn als een dikke, zware deken die je over je heen trekt. Ze zijn zwaar om te dragen en vertragen je.
De acties (waar je hebt geankerd) zijn als een stevige ankerlijn. Zolang je de ankerlijn vasthoudt, weet je waar je bent, zelfs als je de zware deken (de foto's) laat vallen.

HiconAgent doet precies dit:

Het houdt de acties (de ankers) vast.
Het gooit de oude foto's (de zware deken) weg na een bepaald punt.
Belangrijk: Tijdens het trainen krijgt de agent wel de volle deken te zien, maar tijdens het werken (inference) draagt hij alleen de ankerlijn. Hierdoor is hij 2,5 keer sneller en verbruikt hij veel minder energie, zonder dat hij zijn weg kwijtraakt.

4. Het resultaat: Een snellere, slimmere agent

Door deze twee methoden te combineren, is HiconAgent een doorbraak:

Snelheid: Het is tot 2,5 keer sneller dan de huidige beste modellen.
Efficiëntie: Het verbruikt 60% minder rekenkracht.
Prestatie: Een klein model (3 miljard parameters) presteert beter dan veel grotere modellen (7 miljard parameters) op complexe taken.

Kort samengevat:
HiconAgent leert een digitale assistent om niet blindelings alles te onthouden, maar om slim te kiezen wat belangrijk is. Het leert om de "ankers" (wat je hebt gedaan) vast te houden en de "zware koffers" (oude foto's) achter te laten. Zo blijft de assistent snel, energiek en precies op de weg, zelfs bij moeilijke taken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "HiconAgent: History Context-aware Policy Optimization for GUI Agents" in het Nederlands.

Probleemstelling

GUI-agenten (Graphical User Interface agents) gebaseerd op Multimodale Grootte Taalmodellen (MLLM's) moeten historische context gebruiken om complexe navigatietaken uit te voeren. Bestaande Reinforcement Learning (RL) benaderingen kampen echter met een fundamenteel dilemma:

Onvoldoende context: Veel methoden negeren visuele observaties uit het verleden en gebruiken alleen eerdere acties als input om rekentijd te besparen. Dit leidt echter tot het verlies van cruciale visuele aanwijzingen die nodig zijn voor het oplossen van ambiguïteiten en het handhaven van temporele consistentie.
Overmatige context: Het naïef toevoegen van volledige geschiedenis (alle vorige screenshots en acties) leidt tot een enorme rekenkundige overhead door de kwadratische complexiteit van attention-mechanismen en de grote hoeveelheid visuele tokens. Dit kan de agent ook afleiden door irrelevante informatie.

Er is dus behoefte aan een methode die de meest informatieve delen van de geschiedenis behoudt terwijl redundantie wordt geminimaliseerd, zonder in te leveren op besluitvormingskwaliteit.

Methodologie: HiconAgent & HCPO

De auteurs introduceren HiconAgent, een agent getraind met History Context-aware Policy Optimization (HCPO). HCPO is een trainingsframework dat zowel de sampling- als de update-fase van het RL-proces optimaliseert via twee complementaire componenten:

1. Dynamische Context Sampling (DCS)

In plaats van een vaste lengte voor de geschiedenis te gebruiken, past DCS de contextlengte dynamisch aan tijdens het trainingsproces.

Mechanisme: Tijdens het roll-out proces worden voor elke stap meerdere varianten van de geschiedenis gesampled met variabele lengtes ( $\tau$ ).
Verdeling: De auteurs gebruiken een exponentieel-biased verdeling die evolueert tijdens het trainen. In de vroege fasen is de verdeling bijna uniform (om exploratie te stimuleren), maar verschuift deze geleidelijk naar langere geschiedenissen naarmate het trainen vordert. Dit voorkomt dat het model instort (degeneratie) door te vroeg te focussen op korte geschiedenissen, terwijl het toch leert welke lengte het meest relevant is voor specifieke taken.

2. Anchor-gestuurde Geschiedeniscompressie (AHC)

Deze component richt zich op het verminderen van redundantie tijdens de policy-update, gebaseerd op een empirische analyse van informatieflow in het model.

Inzicht: Analyse toont aan dat actie-tokens (eerdere acties) fungeren als "ankers" voor visuele informatie. Zelfs als visuele tokens worden verwijderd, kunnen latere lagen van het model effectieve aanwijzingen halen uit de geschiedenis zolang de actie-ankers behouden blijven. Visuele tokens zijn vooral belangrijk in de vroege lagen van het model, maar minder kritiek in de diepere lagen.
Dual-Branch Strategie:
- Ongecomprimeerde tak: Verwerkt de volledige geschiedenis (acties + visuele observaties) en dient als "leraar".
- Gecomprimeerde tak: Verwijdert historische visuele tokens na een vroege fusie-laag ( $k$ ), maar behoudt de actie-tokens als ankers.
- Alignement: Beide takken worden gezamenlijk geoptimaliseerd via een history-enhanced alignment loss (KL-divergentie). De gecomprimeerde tak wordt gedwongen om zich te aligneren met de output van de ongecomprimeerde tak, zodat de beslissingskwaliteit behouden blijft ondanks de compressie.

Beloning (Reward Design)

Het systeem gebruikt een gedetailleerde beloningsfunctie die bestaat uit drie componenten:

Format reward: Controleert of de output de juiste structuur heeft.
Actietype reward: Controleert of het gekozen actietype (bijv. klikken, typen) correct is.
Actiewaarde reward: Beoordeelt de nauwkeurigheid van de parameters (bijv. coördinaten, getypte tekst) met een continue beloning voor precisie.

Belangrijkste Bijdragen

Empirische Analyse: De auteurs tonen aan dat verschillende taken en beslissingsstappen verschillende optimale geschiedenislengtes vereisen en dat actie-tokens cruciale ankers zijn voor visuele informatieflow.
HCPO Framework: Een nieuw RL-fine-tuning framework dat DCS en AHC combineert om adaptief gebruik van geschiedenis te leren en redundantie te reduceren.
Efficiëntie en Prestaties: HiconAgent bereikt superieure prestaties met aanzienlijk minder rekenkracht dan grotere modellen.

Resultaten

De methode is geëvalueerd op drie populaire GUI-navigatiebenchmarks: AndroidControl, AITW en GUI-Odyssey.

Prestaties: HiconAgent-3B (een model van 3 miljard parameters) presteert beter dan grotere concurrenten zoals GUI-R1-7B.
- Op GUI-Odyssey behaalt het een +8,46% verbetering in "grounding accuracy" en +11,32% in "step success rate" vergeleken met GUI-R1-7B.
- Het presteert vergelijkbaar op AndroidControl en AITW.
Efficiëntie:
- Snelheid: Tot 2,47x snellere inferentie.
- Rekenlast: Een reductie van 60% in FLOPs (Floating Point Operations) vergeleken met niet-gecomprimeerde versies.
Data-efficiëntie: Het model is getraind op slechts 3.000 ongefilterde samples, maar generaliseert beter dan modellen die getraind zijn op veel grotere datasets (bijv. 13M of 32K samples).

Betekenis en Impact

HiconAgent biedt een praktische route naar lichtgewicht, hoogpresterende GUI-agenten. Het paper bewijst dat het naïef toevoegen van meer geschiedenis niet altijd beter is; in plaats daarvan is slim gebruik van geschiedenis (via dynamische sampling en anker-gestuurde compressie) essentieel.

De belangrijkste implicaties zijn:

Kostenverlaging: Door de FLOPs met 60% te reduceren, worden GUI-agenten veel haalbaarder voor real-time toepassingen op mobiele apparaten of in cloudomgevingen met beperkte resources.
Robuustheid: Het model leert om irrelevante visuele informatie te negeren en zich te focussen op de actuele context, wat leidt tot betere besluitvorming in complexe, multi-stap workflows.
Algemeen Inzicht: De bevindingen over de rol van actie-tokens als ankers voor visuele informatieflow bieden waardevolle richtlijnen voor het ontwerp van toekomstige multimodale agenten en compressietechnieken.

Kortom, HiconAgent lost het trade-off-probleem tussen besluitvormingskwaliteit en rekenefficiëntie op door de geschiedenis niet alleen te comprimeren, maar de agent ook te leren hoe en wanneer deze geschiedenis het beste te gebruiken.

HiconAgent: History Context-aware Policy Optimization for GUI Agents

1. Het probleem: Te veel of te weinig herinneringen

2. Truc 1: De "Dynamische Herinnerings-Training" (DCS)

3. Truc 2: De "Anker-Strategie" (AHC)

4. Het resultaat: Een snellere, slimmere agent

Probleemstelling

Methodologie: HiconAgent & HCPO

1. Dynamische Context Sampling (DCS)

2. Anchor-gestuurde Geschiedeniscompressie (AHC)

Beloning (Reward Design)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers