Why Johnny Can't Use Agents: Industry Aspirations vs. User… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Pradyumna Shome, Sashreek Krishnan, Sauvik Das

Gepubliceerd 2026-05-05✓ Author reviewed ⓘ

📖 6 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Pradyumna Shome, Sashreek Krishnan, Sauvik Das

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je net een gloednieuwe, high-tech robotbutler hebt gekocht. De reclames van het bedrijf tonen hem perfect alles te doen: je hele vakantie plannen, een presentatiemap voor je baas maken en je volgende carrièrestap onderzoeken, terwijl jij koffie drinkt en ontspant. De robot wordt gepromoot als een "AI-agent" – een slimme partner die initiatief neemt en dingen voor je regelt.

Maar wanneer je hem echt aanzet en probeert te gebruiken, wordt het rommelig. Je kunt je verward, gefrustreerd of onzeker voelen of de robot je eigenlijk helpt of juist een grotere puinhoop maakt.

Dit artikel, getiteld "Waarom Johnny geen Agents kan gebruiken", onderzoekt precies die kloof tussen de glanzende marketingbeloften van AI-agents en de verwarrende realiteit van het gebruik ervan vandaag. De onderzoekers stelden twee hoofdvragen:

Wat verkopen bedrijven eigenlijk? (De Hype)
Wat gebeurt er wanneer gewone mensen proberen ze te gebruiken? (De Realiteit)

Hier volgt een overzicht van hun bevindingen, uitgelegd met eenvoudige analogieën.

1. De Drie Soorten "Robotbutlers" (De Hype)

De onderzoekers keken naar 102 verschillende producten die als "AI-agent" worden verkocht en verdeelden ze in drie categorieën, gebaseerd op wat de bedrijven zeggen dat ze doen:

De Orkestrator (De Reisagent): Deze agents moeten naar buiten gaan, op websites op knoppen klikken, vluchten boeken en formulieren voor je invullen. Ze "orkestreren" een reeks acties in de echte wereld.
De Schepper (De Kunstenaar): Deze agents moeten dingen voor je maken, zoals presentatiemappen, websites of documenten. Ze richten zich op de uitstraling en het formaat van het eindproduct.
De Inzichten-generator (De Onderzoeker): Deze agents moeten door het internet graven, informatie vinden en je een samenvatting of aanbeveling geven. Ze zijn je persoonlijke bibliothecaris en analist.

2. Het Experiment: "Johnny" op de Proef Gesteld

Om te zien of deze robots echt werken, rekruteerden de onderzoekers 31 gewone mensen (ze noemen dit persona "Johnny", een knipoog naar een oud onderzoek over waarom gewone mensen geen encryptie konden gebruiken). Deze deelnemers waren bekend met chatbots, maar hadden nooit een AI-agent gebruikt die een computer kon besturen.

Ze gaven "Johnny" drie specifieke taken:

Orkestratie: Een driedaagse vakantiereis plannen (vluchten en hotels boeken).
Creatie: Een presentatiemap van 10 minuten maken.
Inzicht: Uitzoeken hoe je een budget van 2.000 dollar kunt besteden aan persoonlijke ontwikkeling.

Ze gebruikten twee populaire commerciële agents (genaamd Operator en Manus) om te zien hoe de mensen het deden.

3. De Vijf Grote Problemen (De Realiteit)

Hoewel de deelnemers over het algemeen onder de indruk waren van de technologie en de taken vaak konden voltooien, botsten ze op vijf grote muren die de ervaring frustrerend maakten.

Barrière 1: Het "Mind-reading"-misverstand

De Analogie: Stel je voor dat je een nieuwe assistent inhuurt. Je zegt: "Maak me een boterham." Je verwacht een hamboterham. De assistent brengt je een kom bloem en een mes omdat ze niet wisten dat je ham wilde. Je wordt geïrriteerd, maar je beseft dat je niet had gespecificeerd "ham".
De Realiteit: Gebruikers wisten niet hoeveel details ze de AI moesten geven. Sommigen dachten dat ze een perfecte, stap-voor-stap handleiding voor de robot moesten schrijven. Anderen dachten dat de robot hun gedachten kon lezen. Omdat de AI niet uitlegde hoe het dacht, voelden gebruikers zich alsof ze "gokten" met hun eerste prompt. Als ze het fout hadden, ging de robot de verkeerde kant op, en voelde de gebruiker zich vastzitten.

Barrière 2: De "Vertrouw Mij"-sprong

De Analogie: Je vraagt een vreemde om je portemonnee vast te houden terwijl je je schoenveter bindt. Ze zeggen: "Ik ben zo terug", en rennen weg met je portemonnee. Je voelt je onveilig.
De Realiteit: De AI-agents vroegen vaak om gevoelige dingen (zoals inloggen op je Google-account) of begonnen beslissingen te nemen (zoals een hotel boeken) zonder te vragen: "Wil je een kamer met een zwembad of een uitzicht?" Gebruikers voelden dat ze blind op de robot moesten vertrouwen, maar de robot verdiende dat vertrouwen niet door zijn keuzes uit te leggen of eerst om toestemming te vragen.

Barrière 3: De "Eén-maat-voor-alles"-danspartner

De Analogie: Stel je voor dat je danst met een partner die maar één dansstijl kent. Als je wilt walsen, proberen ze te breakdancen. Als je wilt stoppen, blijven ze draaien.
De Realiteit: Mensen hebben verschillende werkstijlen. Sommigen willen het zware werk doen en controleren alleen het werk van de AI; anderen willen dat de AI alles doet. De agents waren te enthousiast om gewoon "het werk te doen" zonder te checken. Als een gebruiker wilde pauzeren of het plan wilde wijzigen, luisterde de agent vaak niet of maakte het moeilijk om te stoppen, waardoor de gebruiker het gevoel had de controle over de dans te hebben verloren.

Barrière 4: De "Waterkanon"-stroom aan informatie

De Analogie: Je vraagt een vriend om aanwijzingen. In plaats van te zeggen "Sla linksaf", geven ze je een lezing van 20 minuten over de geschiedenis van de straat, de verkeerspatronen en het weer, terwijl je probeert te rijden.
De Realiteit: De agents waren erg kletserig. Ze toonden elke stap die ze zetten, elk zoekresultaat en elk denkproces. Voor sommige gebruikers was dit behulpzaam; voor anderen was het overweldigende ruis. Het was moeilijk om de belangrijke delen te vinden omdat de "logs" te dicht en verwarrend waren.

Barrière 5: De Robot die Niet Weet dat Hij Vastzit

De Analogie: Je vraagt een GPS om een route te vinden. Het blijft vastzitten in een lus, probeert door een muur te rijden en blijft zeggen "Herverkalkuleren" zonder ooit te zeggen: "Hé, ik kom hier niet doorheen, je moet zelf sturen."
De Realiteit: Wanneer de AI vastliep (zoals bij het proberen in te loggen op een website die robots blokkeerde), merkte het vaak niet dat het faalde. Het zou gewoon bevriezen of dezelfde actie keer op keer herhalen. Het miste het "zelfbewustzijn" om te zeggen: "Ik zit vast, help me alsjeblieft." Gebruikers moesten de fout zelf uitzoeken, wat de bedoeling van het hebben van een agent tenietdeed.

De Conclusie

Het artikel concludeert dat AI-agents, hoewel krachtig en in staat tot wonderlijke dingen, nog niet klaar zijn voor de prime-time met gewone mensen.

De technologie is als een racewagenmotor die nog niet in een auto met stuur, remmen of dashboard is geplaatst. De industrie verkoopt de motor (het vermogen om taken te verrichten), maar gebruikers hebben de auto nodig (het vermogen om de motor te controleren, te vertrouwen en te begrijpen).

Tot deze agents beter kunnen begrijpen wat mensen verwachten, hun fouten kunnen uitleggen en ons de leiding kunnen laten nemen wanneer er iets misgaat, zal "Johnny" blijven worstelen om ze effectief te gebruiken.

Technische Samenvatting: Waarom Johnny Geen Agents Kan Gebruiken: Industrie-Aspiraties versus Gebruikersrealiteiten met AI-Agents

Probleemstelling
Het artikel adresseert een toenemende onnauwkeurigheid met betrekking tot de definitie, de mogelijkheden en de bruikbaarheid van "AI-agents". Hoewel de technologie-industrie deze systemen promoot als intelligente partners die autonoom multi-stap uitvoeringen kunnen realiseren, ontbreekt er een systematisch begrip van hoe eindgebruikers er daadwerkelijk mee interageren. Eerdere evaluaties van AI-agents hebben zich grotendeels gericht op technische benchmarks en kwantificeerbare idealen (bijvoorbeeld taakvoltooiingspercentages in gecontroleerde omgevingen), waarbij vaak de menselijke factoren van delegering, toezicht en herstel over het hoofd werden gezien. De auteurs stellen dat de gepromote mogelijkheden vaak afwijken van de gebruikersrealiteiten, wat wrijving creëert die effectieve adoptie door beginnende gebruikers verhindert. Het kernprobleem is de kloof tussen industrie-aspiraties (wat agents gepromoot worden om te doen) en gebruikersrealiteiten (de uitdagingen die men tegenkomt bij het proberen ze te gebruiken voor geadverteerde taken).

Methodologie
Het onderzoek hanteert een tweeledige aanpak om de disconnectie tussen industriële framing en gebruikerservaring te onderzoeken:

Systematische Review (RQ1): De auteurs construeerden een taxonomie van gepromote AI-agent-mogelijkheden door $N=102$ commerciële producten te analyseren, afkomstig van aggregator-lijsten (bijvoorbeeld AI Agent Directory, Product Hunt) en webzoekopdrachten. Zij voerden een inductieve kwalitatieve inhoudsanalyse uit op marketingmateriaal om geadverteerde use-cases te distilleren tot drie brede categorieën: Orkestratie (handelen in GUI's namens de gebruiker), Creatie (genereren van gestructureerde artefacten zoals dia's of code) en Inzicht (ondersteuning bij onderzoek, synthese en aanbevelingen).
Bruikbaarheidsevaluatie (RQ2): De auteurs voerden een think-aloud bruikbaarheidsstudie uit met $N=31$ deelnemers. Deelnemers waren nieuwelingen in operationeel agentische systemen, maar frequente gebruikers van generatieve AI-chatbots. Zij probeerden representatieve taken uit elk van de drie taxonomiecategorieën met twee populaire commerciële operationeel agentische platformen: OpenAI Operator en Manus.
- Taken: Vakantieplanning (Orkestratie), Dia's maken (Creatie) en Budgettering voor professionele/persoonlijke groeistipendia (Inzicht).
- Procedure: Elke sessie duurde ongeveer één uur, bestaande uit twee taakpogingen van 20 minuten gevolgd door semi-gestructureerde interviews. De studie verzamelde scherm-/audiorecordinen, System Usability Scale (SUS)-scores en interviewtranscripten.
- Analyse: De data werd geanalyseerd met behulp van reflexieve thematische analyse om terugkerende barrières en bruikbaarheidsuitdagingen te identificeren.

Belangrijkste Bijdragen
Het artikel levert drie primaire bijdragen aan het vakgebied van Human-Computer Interaction (HCI) en AI:

Een Taxonomie van Gepromote Mogelijkheden: Een gedistilleerd raamwerk dat door de industrie bedachte AI-agent-use-cases categoriseert in Orkestratie, Creatie en Inzicht, en verduidelijkt hoe het label "agent" momenteel wordt toegepast op de commerciële markt.
Empirische Identificatie van Bruikbaarheidsbarrières: Een verslag van vijf kritieke bruikbaarheidsbarrières waar beginnende gebruikers tegenaan lopen bij interactie met commerciële AI-agents, waarbij wordt voorbijgegaan aan eenvoudige taakvoltooiingsmetrieken om de kwaliteit van het delegerings- en samenwerkingsproces te evalueren.
Ontwerp- en Evaluatie-implicaties: Een reeks concrete implicaties voor het ontwerpen en evalueren van agentische systemen, inclusief specifieke assen voor beoordeling (bijvoorbeeld interventiefrequentie, tijd tot herstel, stallings-/lusfrequentie) die bestaande technische benchmarks aanvullen.

Belangrijkste Resultaten en Bevindingen
Hoewel deelnemers over het algemeen succesvol waren in het voltooien van de toegewezen taken en hoge System Usability Scale (SUS)-scores rapporteerden (wat wijst op een algemene indruk van nut), onthulde de studie significante wrijvingspunten die optimaal gebruik belemmeren. De auteurs identificeerden vijf kritieke bruikbaarheidsbarrières:

Misalignement van Mentale Modellen: Gebruikers hadden moeite om de mogelijkheden van de agent, het vereiste detailniveau in prompts en de rol van de agent tijdens uitvoering te begrijpen. Dit leidde tot "prompt gokken" (onzekerheid over hoeveel specificatie nodig is) en verwarring over interactiemechanismen zoals "Overnemen" (gebruikersinterventie). Gebruikers bouwden mentale modellen reactief op basis van uitkomsten in plaats van proactief op basis van systeemsignalen.
Voorbarige Vertrouwensaannames: Agents namen vaak vertrouwen aan in gevoelige contexten (bijvoorbeeld het verwerken van inloggegevens, het maken van reisplannen) zonder geloofwaardigheid te vestigen of gebruikerintentie te bevestigen. Gebruikers uitdrukten wantrouwen ten opzichte van hallucinaties, wachtwoordbeheer en de neiging van de agent om te handelen zonder persoonlijke voorkeuren te verduidelijken.
Mismatch in Samenwerkingsstijl: Agents faalden in het accommoderen van diverse samenwerkingsstijlen. Sommige gebruikers wensten diepe betrokkenheid en fijnmazige controle (als "denkpartners" optredend), terwijl anderen minimale betrokkenheid wilden. Agents neigden naar te enthousiaste uitvoeringstools, waarbij werd aangenomen dat gebruikers minimale toezicht wensten, en ontbraken mechanismen voor effectieve sturing tijdens de taak of herstel van fouten.
Communicatie-overbelasting: Gebruikers ondervonden moeilijkheden bij het ontleden van agent-uitvoer. Er was een spectrum aan voorkeuren met betrekking tot zichtbaarheid van voortgang; sommigen vonden gedetailleerde logs overweldigend, terwijl anderen voelden dat hen noodzakelijk toezicht ontbrak. De communicatie-overhead maakte het vaak moeilijk om intentie te verwoorden of te identificeren waar de agent zich in de workflow bevond.
Zwak Metacognitief Gedrag: Agents misten het vermogen om hun voortgang, beperkingen of outputkwaliteit zelf te beoordelen. Wanneer agents fouten of stallen tegenkwamen, faalden ze vaak om de blokkade te herkennen, wat leidde tot repetitieve lussen of stilte-falen. Gebruikers werden gedwongen deze metacognitieve gaten op te vullen, vaak worstelend met het herstellen van ondoorzichtige faalmodi.

Betekenis en Aanspraken
Het artikel stelt dat de overgang van chat-gebaseerde interactie naar operationeel agentische systemen de bruikbaarheidsoppervlakte fundamenteel verandert. Bij chatbots kan een slechte prompt resulteren in een suboptimale tekstuele respons; bij agents kan dezelfde ambiguïteit tijd- en hulpbronnenverslindende multi-stap uitvoeringen met echte wereldbijwerkingen triggeren (bijvoorbeeld het boeken van vluchten, het wijzigen van bestanden) voordat de gebruiker kan ingrijpen.

De auteurs betogen dat structurele vereisten voor agentische systemen – delegering, toezicht, interventie en herstel – niet kunnen worden opgelost door simpelweg te verwachten dat gebruikers bekwaamer zijn of dat modellen krachtiger zijn. In plaats daarvan moet het ontwerp van deze systemen de geïdentificeerde barrières expliciet aanpakken door:

Te kalibreren naar gebruikersvoorkeuren met betrekking tot proactiviteit en communicatie.
Zelfbeoordeling en transparantie van agents te verbeteren (bijvoorbeeld het blootleggen van vertrouwen, het detecteren van stallen).
Niet-tekstuele invoer en precieze iteratiemechanismen te ondersteunen.
Evaluatiemetrieken te herdefiniëren om mensgerichte dimensies zoals interventiefrequentie en tijd tot herstel op te nemen.

De studie concludeert dat hoewel huidige agents veelbelovend zijn, er significante bruikbaarheidskloven blijven bestaan tussen industrie-aspiraties en de realiteiten van beginnende eindgebruikers, wat een verschuiving in ontwerpfocus vereist van pure capaciteit naar collaboratieve betrouwbaarheid.

Why Johnny Can't Use Agents: Industry Aspirations vs. User Realities with AI Agents