Why Johnny Can't Use Agents: Industry Aspirations… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Pradyumna Shome, Sashreek Krishnan, Sauvik Das

Veröffentlicht 2026-05-05✓ Author reviewed ⓘ

📖 6 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Pradyumna Shome, Sashreek Krishnan, Sauvik Das

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie haben gerade einen brandneuen, hochtechnologischen Roboterbutler gekauft. Die Werbespots des Unternehmens zeigen ihn, wie er alles perfekt erledigt: Er plant Ihren gesamten Urlaub, erstellt eine Präsentationsfoliendatei für Ihren Chef und recherchiert Ihren nächsten Karriereschritt, während Sie Kaffee schlürfen und entspannen. Der Roboter wird als „KI-Agent" vermarktet – ein intelligenter Partner, der Initiative ergreift und Dinge für Sie erledigt.

Doch wenn Sie ihn tatsächlich einschalten und zu nutzen versuchen, wird es chaotisch. Sie könnten sich verwirrt, frustriert oder unsicher fühlen, ob der Roboter Ihnen tatsächlich hilft oder nur ein noch größeres Durcheinander verursacht.

Diese Arbeit mit dem Titel „Warum Johnny keine Agenten nutzen kann" untersucht genau diese Lücke zwischen den glänzenden Marketingversprechen von KI-Agenten und der verwirrenden Realität ihrer heutigen Nutzung. Die Forscher stellten zwei Hauptfragen:

Was verkaufen Unternehmen tatsächlich? (Der Hype)
Was passiert, wenn normale Menschen versuchen, sie zu nutzen? (Die Realität)

Hier ist eine Aufschlüsselung ihrer Erkenntnisse unter Verwendung einfacher Analogien.

1. Die drei Arten von „Roboterbutlern" (Der Hype)

Die Forscher untersuchten 102 verschiedene Produkte, die als „KI-Agenten" verkauft wurden, und sortierten sie basierend darauf, was die Unternehmen sagen, dass sie tun, in drei Kategorien:

Der Orchestrator (Der Reisebürokaufmann): Diese Agenten sollen hinausgehen, auf Websites auf Knöpfe klicken, Flüge buchen und Formulare für Sie ausfüllen. Sie „orchestrieren" eine Reihe von Aktionen in der realen Welt.
Der Schöpfer (Der Künstler): Diese Agenten sollen Dinge für Sie erstellen, wie Präsentationsfolien, Websites oder Dokumente. Sie konzentrieren sich auf das Aussehen und Format des Endprodukts.
Der Erkenntnisgenerator (Der Forscher): Diese Agenten sollen durch das Internet graben, Informationen finden und Ihnen eine Zusammenfassung oder eine Empfehlung geben. Sie sind Ihr persönlicher Bibliothekar und Analyst.

2. Das Experiment: „Johnny" auf die Probe stellen

Um zu sehen, ob diese Roboter tatsächlich funktionieren, rekrutierten die Forscher 31 normale Menschen (sie nennen diese Persona „Johnny", eine Anspielung auf eine alte Studie darüber, warum normale Menschen Verschlüsselung nicht nutzen konnten). Diese Teilnehmer waren mit Chatbots vertraut, hatten jedoch niemals einen KI-Agenten verwendet, der einen Computer steuern konnte.

Sie gaben „Johnny" drei spezifische Aufgaben:

Orchestrierung: Planen Sie eine dreitägige Urlaubsreise (Buchen von Flügen und Hotels).
Erstellung: Erstellen Sie eine 10-minütige Präsentationsfoliendatei.
Erkenntnis: Finden Sie heraus, wie Sie ein Budget von 2.000 Dollar für persönliche Entwicklung ausgeben können.

Sie nutzten zwei beliebte kommerzielle Agenten (namens Operator und Manus), um zu sehen, wie die Menschen abschnitten.

3. Die fünf großen Probleme (Die Realität)

Obwohl die Teilnehmer von der Technologie im Allgemeinen beeindruckt waren und die Aufgaben oft abschließen konnten, stießen sie auf fünf große Hindernisse, die das Erlebnis frustrierend machten.

Hindernis 1: Das Missverständnis des „Gedankenlesens"

Die Analogie: Stellen Sie sich vor, Sie stellen einen neuen Assistenten ein. Sie sagen: „Machen Sie mir ein Sandwich." Sie erwarten ein Schinkensandwich. Der Assistent bringt Ihnen eine Schüssel Mehl und ein Messer, weil er nicht wusste, dass Sie Schinken wollten. Sie werden verärgert, erkennen aber, dass Sie nicht „Schinken" spezifiziert haben.
Die Realität: Die Nutzer wussten nicht, wie viel Detail sie der KI geben sollten. Manche dachten, sie müssten eine perfekte, schrittweise Anleitung für den Roboter schreiben. Andere dachten, der Roboter könnte ihre Gedanken lesen. Da die KI nicht erklärte, wie sie dachte, fühlten sich die Nutzer, als würden sie mit ihrem ersten Prompt „glücksspielen". Wenn sie es falsch machten, ging der Roboter den falschen Weg, und der Nutzer fühlte sich gefangen.

Hindernis 2: Der „Vertrau mir"-Sprung

Die Analogie: Sie bitten einen Fremden, Ihre Brieftasche zu halten, während Sie Ihren Schuh binden. Er sagt: „Ich bin gleich zurück", und rennt mit Ihrer Brieftasche davon. Sie fühlen sich unsicher.
Die Realität: Die KI-Agenten forderten oft sensible Dinge (wie das Einloggen in Ihr Google-Konto) oder begannen, Entscheidungen zu treffen (wie das Buchen eines Hotels), ohne zu fragen: „Möchten Sie ein Zimmer mit Pool oder mit Aussicht?" Die Nutzer fühlten, dass sie dem Roboter blind vertrauen mussten, aber der Roboter dieses Vertrauen nicht dadurch verdient hatte, dass er seine Entscheidungen erklärte oder zuerst um Erlaubnis bat.

Hindernis 3: Der Tanzpartner „Einheitsgröße für alle"

Die Analogie: Stellen Sie sich vor, Sie tanzen mit einem Partner, der nur einen Tanzstil beherrscht. Wenn Sie walzen möchten, versucht er zu breaken. Wenn Sie aufhören möchten, dreht er sich weiter.
Die Realität: Menschen haben unterschiedliche Arbeitsstile. Manche wollen die schwere Arbeit leisten und nur die Arbeit der KI überprüfen; andere wollen, dass die KI alles erledigt. Die Agenten waren zu eifrig, einfach nur „die Arbeit zu erledigen", ohne nachzufragen. Wenn ein Nutzer pausieren oder den Plan ändern wollte, hörte der Agent oft nicht zu oder erschwerte das Stoppen, sodass sich der Nutzer fühlte, als hätte er die Kontrolle über den Tanz verloren.

Hindernis 4: Der „Feuerschlauch" an Informationen

Die Analogie: Sie bitten einen Freund um Wegbeschreibung. Statt zu sagen „Biegen Sie links ab", halten sie Ihnen eine 20-minütige Vorlesung über die Geschichte der Straße, die Verkehrsmuster und das Wetter, während Sie versuchen, zu fahren.
Die Realität: Die Agenten waren sehr gesprächig. Sie zeigten jeden einzelnen Schritt, den sie unternahmen, jedes Suchergebnis und jeden Denkprozess. Für einige Nutzer war dies hilfreich; für andere war es überwältigender Lärm. Es war schwierig, die wichtigen Teile zu finden, weil die „Protokolle" zu dicht und verwirrend waren.

Hindernis 5: Der Roboter, der nicht weiß, dass er feststeckt

Die Analogie: Sie bitten ein GPS, eine Route zu finden. Es steckt in einer Schleife fest, versucht, durch eine Wand zu fahren, und sagt ständig „Neuberechnung", ohne Ihnen jemals zu sagen: „Hey, ich komme hier nicht durch, Sie müssen manuell fahren."
Die Realität: Wenn die KI feststeckte (wie beim Versuch, sich auf einer Website einzuloggen, die Roboter blockiert), merkte sie oft nicht, dass sie scheiterte. Sie würde einfach einfrieren oder dieselbe Aktion immer wieder wiederholen. Es fehlte ihr das „Selbstbewusstsein", zu sagen: „Ich stecke fest, bitte helfen Sie mir." Die Nutzer mussten den Fehler selbst herausfinden, was den Zweck eines Agenten zunichte machte.

Das Fazit

Die Arbeit kommt zu dem Schluss, dass KI-Agenten zwar leistungsstark sind und erstaunliche Dinge tun können, sie aber noch nicht bereit für den Einsatz durch normale Menschen sind.

Die Technologie ist wie ein Rennwagenmotor, der noch nicht in ein Auto mit Lenkrad, Bremsen oder Armaturenbrett eingebaut wurde. Die Branche verkauft den Motor (die Fähigkeit, Aufgaben zu erledigen), aber die Nutzer brauchen das Auto (die Fähigkeit, den Motor zu steuern, ihm zu vertrauen und ihn zu verstehen).

Solange diese Agenten menschliche Erwartungen nicht besser verstehen, ihre Fehler erklären und uns das Lenkrad überlassen können, wenn etwas schiefgeht, wird „Johnny" weiterhin damit kämpfen, sie effektiv zu nutzen.

Technische Zusammenfassung: Warum Johnny keine Agenten nutzen kann: Industrielle aspirations versus Nutzerrealitäten mit KI-Agenten

Problemstellung
Der Beitrag befasst sich mit einer zunehmenden Unschärfe hinsichtlich der Definition, der Fähigkeiten und der Benutzerfreundlichkeit von „KI-Agenten". Während die Technologiebranche diese Systeme als intelligente Partner vermarktet, die autonome, mehrstufige Ausführungen durchführen können, fehlt es an einem systematischen Verständnis dafür, wie Endnutzer tatsächlich mit ihnen interagieren. Bisherige Evaluierungen von KI-Agenten konzentrierten sich weitgehend auf technische Benchmarks und quantifizierbare Ideale (z. B. Erfolgsquoten bei Aufgabenabschlüssen in kontrollierten Umgebungen) und übersahen dabei oft die menschlichen Faktoren der Delegation, Überwachung und Wiederherstellung. Die Autoren gehen davon aus, dass vermarktete Fähigkeiten häufig von den Nutzerrealitäten abweichen, was Reibungsverluste erzeugt, die eine effektive Adoption durch unerfahrene Nutzer verhindern. Das Kernproblem ist die Kluft zwischen industriellen aspirations (was Agenten laut Vermarktung tun sollen) und Nutzerrealitäten (die Herausforderungen, die beim Versuch entstehen, sie für beworbene Aufgaben einzusetzen).

Methodik
Die Forschung verfolgt einen zweigleisigen Ansatz, um die Diskrepanz zwischen industrieller Rahmung und Nutzererfahrung zu untersuchen:

Systematische Überprüfung (Forschungsfrage 1): Die Autoren erstellten eine Taxonomie vermarkteter KI-Agenten-Fähigkeiten, indem sie $N=102$ kommerzielle Produkte analysierten, die aus Aggregator-Verzeichnissen (z. B. AI Agent Directory, Product Hunt) und Websuchen stammen. Sie führten eine induktive qualitative Inhaltsanalyse von Marketingmaterialien durch, um beworbene Anwendungsfälle in drei breite Kategorien zu verdichten: Orchestrierung (Handeln in GUIs im Namen des Nutzers), Erstellung (Generieren strukturierter Artefakte wie Folien oder Code) und Erkenntnis (Unterstützung bei Forschung, Synthese und Empfehlungen).
Usability-Assessment (Forschungsfrage 2): Die Autoren führten eine Usability-Studie mit „Think-Aloud"-Methode mit $N=31$ Teilnehmern durch. Die Teilnehmer waren Neulinge in operativ agierenden Systemen, aber häufige Nutzer generativer KI-Chatbots. Sie versuchten repräsentative Aufgaben aus jeder der drei Taxonomiekategorien mit zwei beliebten kommerziellen, operativ agierenden Plattformen: OpenAI Operator und Manus.
- Aufgaben: Urlaubsplanung (Orchestrierung), Folien erstellen (Erstellung) und Budgetierung für Stipendien zur beruflichen/persönlichen Entwicklung (Erkenntnis).
- Ablauf: Jede Sitzung dauerte etwa eine Stunde und bestand aus zwei 20-minütigen Aufgabenversuchen, gefolgt von halbstrukturierten Interviews. Die Studie sammelte Bildschirmaufzeichnungen, Audioaufnahmen, System Usability Scale (SUS)-Werte und Interviewtranskripte.
- Analyse: Die Daten wurden mittels reflexiver thematischer Analyse ausgewertet, um wiederkehrende Barrieren und Usability-Herausforderungen zu identifizieren.

Hauptbeiträge
Der Beitrag leistet drei wesentliche Beiträge zum Bereich Human-Computer Interaction (HCI) und KI:

Eine Taxonomie vermarkteter Fähigkeiten: Ein verdichtetes Framework, das von der Industrie vorgestellte KI-Agenten-Anwendungsfälle in Orchestrierung, Erstellung und Erkenntnis kategorisiert und klärt, wie die Bezeichnung „Agent" derzeit auf dem kommerziellen Markt angewendet wird.
Empirische Identifizierung von Usability-Barrieren: Eine Darstellung von fünf kritischen Usability-Barrieren, mit denen unerfahrene Nutzer bei der Interaktion mit kommerziellen KI-Agenten konfrontiert sind, die über einfache Aufgabenabschlussmetriken hinausgehen und die Qualität des Delegations- und Kollaborationsprozesses bewerten.
Implikationen für Design und Evaluation: Eine Reihe konkreter Implikationen für das Design und die Evaluation agenter Systeme, einschließlich spezifischer Bewertungsachsen (z. B. Interventionshäufigkeit, Zeit bis zur Wiederherstellung, Stagnations-/Schleifenrate), die bestehende technische Benchmarks ergänzen.

Wichtige Ergebnisse und Befunde
Obwohl die Teilnehmer die zugewiesenen Aufgaben im Allgemeinen erfolgreich abschließen konnten und hohe System Usability Scale (SUS)-Werte berichteten (was auf einen allgemeinen positiven Eindruck der Nützlichkeit hindeutet), offenbarte die Studie signifikante Reibungspunkte, die eine optimale Nutzung behindern. Die Autoren identifizierten fünf kritische Usability-Barrieren:

Fehlausrichtung der mentalen Modelle: Nutzer hatten Schwierigkeiten, die Fähigkeiten des Agenten, den erforderlichen Detaillierungsgrad von Prompts und die Rolle des Agenten während der Ausführung zu verstehen. Dies führte zu „Prompt-Glücksspiel" (Unsicherheit darüber, wie viel spezifiziert werden muss) und Verwirrung bezüglich Interaktionsmechanismen wie „Übernehmen" (Nutzerintervention). Nutzer bauten mentale Modelle reaktiv aus Ergebnissen auf, statt proaktiv aus Systemhinweisen.
Vorzeitige Vertrauensannahmen: Agenten unterstellten oft Vertrauen in sensiblen Kontexten (z. B. Umgang mit Zugangsdaten, Reiseplanung), ohne Glaubwürdigkeit herzustellen oder die Nutzerabsicht zu bestätigen. Nutzer äußerten Misstrauen hinsichtlich Halluzinationen, Passwortverwaltung und der Tendenz des Agenten, ohne Klärung persönlicher Präferenzen zu handeln.
Fehlanpassung des Kollaborationsstils: Agenten vermochten es nicht, unterschiedliche Kollaborationsstile zu berücksichtigen. Einige Nutzer wünschten sich eine tiefe Einbindung und feingranulare Kontrolle (als „Gedankenpartner"), während andere eine minimale Einbindung bevorzugten. Agenten tendierten dazu, übermäßig eifrige Ausführungswerkzeuge zu sein, die davon ausgingen, dass Nutzer eine minimale Überwachung wünschten, und fehlten an Mechanismen für effektive Kurskorrekturen während der Aufgabe oder zur Wiederherstellung nach Fehlern.
Kommunikationsüberlastung: Nutzer hatten Schwierigkeiten, die Ausgaben des Agenten zu interpretieren. Es gab ein Spektrum von Präferenzen bezüglich der Sichtbarkeit des Fortschritts; einige fanden detaillierte Protokolle überwältigend, während andere das Gefühl hatten, die notwendige Aufsicht zu vermissen. Der Kommunikationsaufwand erschwerte es oft, Absichten zu artikulieren oder zu identifizieren, wo sich der Agent im Arbeitsablauf befand.
Schwaches metakognitives Verhalten: Agenten fehlte die Fähigkeit, ihren Fortschritt, ihre Grenzen oder die Qualität ihrer Ausgaben selbst zu bewerten. Wenn Agenten auf Fehler oder Stagnationen stießen, erkannten sie diese Blockaden oft nicht, was zu repetitiven Schleifen oder stillen Fehlern führte. Nutzer waren gezwungen, diese metakognitiven Lücken zu überbrücken und hatten oft Schwierigkeiten, sich von undurchsichtigen Fehlermodi zu erholen.

Bedeutung und Behauptungen
Der Beitrag behauptet, dass der Übergang von chatbasierter Interaktion zu operativ agierenden Systemen die Usability-Oberfläche grundlegend verändert. Bei Chatbots kann ein schlechter Prompt zu einer suboptimalen Textantwort führen; bei Agenten kann dieselbe Ambiguität zeitaufwändige, ressourcenintensive mehrstufige Ausführungen mit realweltlichen Nebeneffekten (z. B. Flugbuchungen, Dateimodifikationen) auslösen, bevor der Nutzer eingreifen kann.

Die Autoren argumentieren, dass strukturelle Anforderungen an agierende Systeme – Delegation, Überwachung, Intervention und Wiederherstellung – nicht allein dadurch gelöst werden können, dass man von leistungsfähigeren Nutzern oder leistungsfähigeren Modellen ausgeht. Stattdessen muss das Design dieser Systeme die identifizierten Barrieren explizit adressieren durch:

Kalibrierung auf Nutzerpräferenzen bezüglich Proaktivität und Kommunikation.
Verbesserung der Selbstbewertung und Transparenz des Agenten (z. B. Offenlegung von Konfidenz, Erkennung von Stagnationen).
Unterstützung nicht-textueller Eingaben und präziser Iterationsmechanismen.
Neudefinition von Evaluierungsmetriken, um menschenzentrierte Dimensionen wie Interventionshäufigkeit und Zeit bis zur Wiederherstellung einzubeziehen.

Die Studie kommt zu dem Schluss, dass zwar aktuelle Agenten vielversprechend sind, aber signifikante Usability-Lücken zwischen industriellen aspirations und den Realitäten unerfahrener Endnutzer bestehen, was eine Verschiebung des Designfokus von reiner Leistungsfähigkeit hin zur kollaborativen Zuverlässigkeit erfordert.

Why Johnny Can't Use Agents: Industry Aspirations vs. User Realities with AI Agents