CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

Each language version is independently generated for its own context, not a direct translation.

📱 De Droom: Een Digitale Butler

Stel je voor dat je een persoonlijke assistent hebt die niet alleen luistert, maar ook echt kan kijken en klikken op je telefoon of computer. Hij kan een app openen, een bestelling plaatsen, of een instelling wijzigen, gewoon omdat jij het vraagt. Dit noemen we een GUI-agent (een agent die werkt met grafische gebruikersinterfaces).

Het probleem tot nu toe was dat deze digitale assistenten vaak vastliepen. Ze waren slim, maar ze leerden niet goed van hun fouten. Het was alsof je een kind leert te fietsen door het direct op een berg af te sturen, zonder eerst op een vlakke weg te oefenen.

🚧 Het Probleem: "Eén groot brij"

De onderzoekers van Ant Group en Zhejiang Universiteit ontdekten twee grote fouten in hoe deze agents tot nu toe werden getraind:

De "Grote Schep" aanpak: De computers leerden op alle taken tegelijk. Of het nu een simpele taak was (zoals "zet de lamp aan") of een complexe missie (zoals "bestel pizza voor drie mensen op verschillende adressen en betaal met een kortingscode"), de computer kreeg allemaal dezelfde behandeling.
- Vergelijking: Het is alsof je een schoolkinderen in één klas zet: de kleuters die leren tellen en de universiteitsstudenten die kwantumfysica studeren, krijgen allemaal hetzelfde boekje. De kleuters raken overweldigd, en de studenten worden saai.
De "Grote Duim" beloning: Als de computer iets goed deed, kreeg hij een beloning. Maar die beloning was vaak vaag. "Goed gedaan!" of "Niet goed."
- Vergelijking: Stel je voor dat je een kok een taak geeft om een complexe maaltijd te maken. Als hij de soep op tijd klaar heeft, maar de vis verbrandt, zegt de chef: "Je hebt de taak niet goed gedaan." De kok weet niet waar hij precies de fout maakte. Hij krijgt geen feedback over de vis, alleen dat het totaalplaatje mislukt is.

🛠️ De Oplossing: CRAFT-GUI

De onderzoekers bedachten CRAFT-GUI. De naam staat voor Curriculum-Reinforced Agent for GUI Tasks. Laten we het opsplitsen in twee slimme onderdelen:

1. De "Leesplaatjes" Methode (Curriculum Learning)

In plaats van alles door elkaar te gooien, hebben ze een leesplaatje (curriculum) gemaakt.

Stap 1: De computer begint met simpele taken (maximaal 3 klikken). Dit is als het leren van de fiets op een vlakke weg.
Stap 2: Zodra hij dat goed kan, krijgt hij iets moeilijkere taken (4 tot 8 stappen).
Stap 3: Pas als hij die beheerst, krijgt hij de "boss-level" taken: complexe reeksen met veel logica en visuele puzzels.

Dit zorgt ervoor dat de computer stap voor stap groeit, net zoals een mens dat doet. Hij bouwt vertrouwen op voordat hij de zware lasten moet dragen.

2. De "Fijne Tandjes" Beloning (Fine-Grained Rewards)

Ze hebben de beloningssysteem veel slimmer gemaakt. In plaats van alleen te kijken of de taak helemaal af was, kijken ze nu naar elk klein stukje.

De Regels: "Heb je op de juiste knop geklikt?" (Ja/Nee).
De Model-Rechter: Als de computer moet uitleggen waarom hij ergens op klikte, kijkt een andere slimme AI (een "rechter") of de uitleg logisch is.
De Straf voor te veel praten: Soms beginnen computers te "dromen" en te veel tekst te genereren voordat ze iets doen. CRAFT-GUI straft dit af, zodat ze niet blijven praten maar gaan doen.

Vergelijking: In plaats van alleen te zeggen "De maaltijd is mislukt", zegt de chef nu: "De soep was goed, maar je hebt de vis te lang gebakken en je bent vergeten de saus te roeren." De kok kan nu precies verbeteren wat er misging.

🏆 Wat is het resultaat?

Toen ze deze methode testten, was het resultaat indrukwekkend:

Op openbare tests (AndroidWorld) was hun agent 7,1% beter dan de beste bestaande methoden.
Op hun eigen, moeilijke tests (met echte apps zoals eten bestellen en bankieren) was ze 10,3% beter.

Het is alsof je een leerling hebt die eerst op een vlakke weg fietst, dan op een heuvel, en pas daarna de berg op gaat. Uiteindelijk is die leerling veel veiliger en sneller dan degene die direct de berg op werd gegooid.

💡 Samenvatting

CRAFT-GUI is een nieuwe manier om computers te leren hoe ze op schermen moeten werken. Door ze stap-voor-stap te laten oefenen (van makkelijk naar moeilijk) en ze gedetailleerde feedback te geven over elke kleine fout, worden ze veel slimmer en betrouwbaarder. Het is de sleutel naar een toekomst waarin je je telefoon gewoon kunt vertellen wat je wilt, en hij het gewoon voor je regelt.

Each language version is independently generated for its own context, not a direct translation.

, ` tags).
* Lengte Penalty: Een adaptieve straf voor te lange antwoorden om "overthinking" en token-explosie te voorkomen.

Voor Visueel Begrip-taken:
- Een semantische beloning ( $R_{sem}$ ) die wordt bepaald door een "LLM-as-a-judge" benadering om de kwaliteit van het begrip van schermcontent te beoordelen, gecombineerd met format- en lengtebeloningen.

Belangrijkste Bijdragen

Curriculum RL-strategie: Een systematische aanpak die overgaat van eenvoudige naar complexe taken op basis van trajectlengte en cognitieve eisen, wat leidt tot stabielere convergentie.
Hybride Beloningsmechanisme: Een fijnmazig systeem dat regelgebaseerde validatie (voor operaties) koppelt aan modelgebaseerde evaluatie (voor semantiek), wat zorgt voor rijkere feedback dan eerdere methoden.
Gecombineerde Training: Het succesvol integreren van zowel operationele taken (handelingen uitvoeren) als begrip-taken (visuele interpretatie) in één model, wat resulteert in een veelzijdiger agent.

Resultaten

De prestaties van CRAFT-GUI (gebaseerd op Qwen2.5-VL modellen) werden getest op zowel open-source benchmarks als een intern dataset:

AndroidWorld (Open Source): CRAFT-GUI-32B (Stage 3) behaalde een success rate van 51,7%. Dit is een verbetering van 7,1% ten opzichte van de state-of-the-art (SOTA) methoden zoals UI-TARS-72B (46,6%).
Intern Dataset (Privé): Op een dataset van 80.000 samples over zes categorieën (zoals eten bestellen, financiën, gaming) behaalde het model een gemiddelde success rate van 75,7%. Dit is een verbetering van 10,3% ten opzichte van de beste bestaande baselines (zoals Claude-3.7-Sonnet en GPT-4.1).
Ablatie Studies:
- Curriculum RL presteerde 14,9% beter dan Supervised Fine-Tuning (SFT) en 3,8% beter dan standaard RL zonder curriculum.
- Het mengen van operationele en begrip-taken in de training gaf een extra 2,5% verbetering in succesrate ten opzichte van alleen operationele data.

Betekenis en Impact

CRAFT-GUI bewijst dat het combineren van Reinforcement Learning met een curriculum-gebaseerde aanpak cruciaal is voor het trainen van robuuste GUI-agenten. Door de moeilijkheidsgraad van taken te respecteren en fijnmazige feedback te geven, kunnen agenten niet alleen sneller leren, maar ook complexere, multi-stap taken uitvoeren die visueel begrip vereisen. Dit legt de basis voor de volgende generatie autonome software-assistenten die in staat zijn om zich aan te passen aan diverse en dynamische gebruikersinterfaces zonder afhankelijk te zijn van API-toegang of handmatige prompt-tuning. De auteurs plannen toekomstige uitbreidingen naar computertaken en het introduceren van "trial-and-error" met rollback-mogelijkheden.

CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

📱 De Droom: Een Digitale Butler

🚧 Het Probleem: "Eén groot brij"

🛠️ De Oplossing: CRAFT-GUI

1. De "Leesplaatjes" Methode (Curriculum Learning)

2. De "Fijne Tandjes" Beloning (Fine-Grained Rewards)

🏆 Wat is het resultaat?

💡 Samenvatting

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers