OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

Het artikel introduceert OSExpert, een computer-agent die door middel van een GUI-gebaseerde diepte-zoekalgoritme en het zelfbouwen van een vaardigheidscurriculum complexe taken efficiënter en nauwkeuriger uitvoert, waardoor de prestaties met ongeveer 20% stijgen en het efficiëntieverschil met mensen met 80% wordt verkleind.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🤖 De Digitale Leerling die een Meester wordt: OSExpert

Stel je voor dat je een computerprogramma hebt dat een computer moet besturen, alsof het een mens is. Dit programma heet een "agent". Tot nu toe waren deze agenten als leergierige maar onervaren stagiaires. Ze konden simpele dingen doen, zoals een e-mail sturen of een website openen. Maar als je ze vroeg om een complexe taak uit te voeren in een professionele software (zoals een ingewikkeld foto-bewerkingsprogramma of een data-analyse-tool), raakten ze in paniek. Ze maakten veel fouten, waren traag en gaven vaak op.

Het probleem? Ze leerden vooral door na te bootsen wat mensen al hadden gedaan. Maar als ze in een nieuwe situatie terechtkwamen die ze niet kenden, wisten ze niet hoe ze moesten handelen. Ze probeerden het maar raak (trial and error), wat veel tijd kostte en vaak leidde tot frustratie.

OSExpert is een nieuwe manier om deze agenten op te leiden. In plaats van ze alleen te laten kijken naar voorbeelden, laten we ze zelf de computer verkennen, net als een kind dat een nieuw speelgoed uitpakt en alle knoppen uitprobeert.

Hier zijn de drie belangrijkste "geheime wapens" van OSExpert, vertaald in alledaagse taal:

1. De "Diepte-Verkenner" (De Ontdekkingsreiziger)

Stel je voor dat je in een enorm, onbekend kasteel bent (de software). Een normale agent zou proberen het kasteel te bestormen en hoopt dat hij de schatkamer vindt. OSExpert daarentegen gebruikt een slimme strategie: de "Diepte-Verkenner" (GUI-DFS).

  • Hoe het werkt: De agent gaat systematisch elke kamer, elke kast en elk lade in het kasteel na. Hij drukt op elke knop, opent elk menu en kijkt wat er gebeurt.
  • De analogie: Het is alsof je een nieuwe stad verkent door elke straat in te lopen, elke deur open te duwen en te noteren wat erachter zit.
  • Het resultaat: De agent bouwt een groot boek met instructies (een "vaardigheidsdatabase"). Hij leert precies welke knop welke functie heeft. Hij weet nu: "Als ik op deze rode knop klik, opent zich een venster om een foto te knippen."

2. De "Snelle Planner" (De Chef-kok)

Vroeger moest de agent bij elke stap opnieuw nadenken: "Wat moet ik nu doen? Waar klik ik?" Dit was traag, zoals een kok die bij elke snede in de groenten opnieuw een recept moet opzoeken.

  • Hoe het werkt: Omdat de agent nu al die instructies uit het boekje kent, kan hij een volledig recept in één keer bedenken.
  • De analogie: In plaats van te zoeken naar de ingrediënten, heeft de chef-kok nu een klare maaltijd voor zich staan. Hij hoeft alleen maar de stappen te volgen.
  • Het voordeel: De agent is veel sneller. Hij hoeft niet meer te twijfelen of te proberen. Hij weet precies wat hij moet doen, net als een ervaren kok die een gerecht uit zijn hoofd kan koken.

3. De "Slimme Stopknop" (De Realistische Coach)

Soms proberen agenten iets dat simpelweg onmogelijk is voor hen, en blijven ze maar doorgaan tot ze uitgeput zijn. Dat is als een leerling die blijft proberen om een vliegtuig te bouwen terwijl hij alleen maar een hamer en spijkers heeft.

  • Hoe het werkt: OSExpert heeft een grenscontrole. Als de agent ziet dat een taak buiten zijn bereik ligt (bijvoorbeeld omdat hij de juiste tool niet heeft gevonden tijdens zijn verkenning), stopt hij direct en zegt: "Dit kan ik niet."
  • De analogie: Het is als een slimme coach die tegen de leerling zegt: "Stop met proberen, dit gaat niet lukken met jouw huidige gereedschap. Laten we een andere taak kiezen."
  • Het voordeel: Dit bespaart enorm veel tijd. De agent verspillen geen energie aan zinloze pogingen.

4. De "Micro-Handjes" (Voor de fijne motoriek)

Soms moet je op een computer heel precies zijn, zoals een tekst selecteren met de muis of een object in een foto precies afknippen. Dit is lastig voor computers; ze zijn vaak te grof.

  • Hoe het werkt: Als de agent merkt dat hij iets te moeilijk vindt (bijvoorbeeld "knip deze cirkel uit"), pakt hij uit zijn gereedschapskist een speciale hulpmethode (een "primitief"). Dit is een vooraf bedacht stappenplan voor precies dit soort fijne werk.
  • De analogie: Stel je voor dat je een diamant moet slijpen. In plaats van met een hamer te slaan, pakt de agent een microscoop en een diamantzaagje uit zijn kist. Hij gebruikt deze speciale tool om de taak perfect uit te voeren.

🏆 Wat is het resultaat?

De onderzoekers hebben dit getest op een nieuwe toets genaamd OSExpert-Eval. Dit is een examen voor computer-agenten dat veel moeilijker is dan de oude toetsen.

  • De oude agenten: Haalden vaak minder dan 10% van de vragen goed. Ze waren traag en maakten veel fouten.
  • De OSExpert-agent: Haalde ongeveer 30% goed (een enorme sprong!) en was 80% sneller dan de oude agenten.

Ze naderen nu het niveau van een menselijke expert. Ze zijn niet langer de onhandige stagiaire, maar de ervaren professional die de computer kent als zijn broekzak.

Conclusie

OSExpert leert computers niet door ze duizenden voorbeelden te laten zien, maar door ze de ruimte te geven om zelf te ontdekken hoe de computer werkt. Ze bouwen hun eigen kennisbank op, leren hoe ze snel plannen kunnen maken, en weten precies wanneer ze moeten stoppen. Hierdoor worden ze sneller, slimmer en betrouwbaarder.

Het is alsof we een robot niet meer alleen maar laten kijken naar een filmpje van iemand die fietsen rijdt, maar hem de fiets geven, hem laten vallen, laten opstaan, en laten ontdekken hoe het balanceren werkt. Uiteindelijk rijdt hij dan beter dan de mens die het filmpje heeft gemaakt.