Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber noch etwas unerfahrenen Assistenten, der Ihnen helfen soll, komplexe Arbeitsabläufe auf Papier zu zeichnen. Das ist im Grunde das, was die Forscher in diesem Papier untersucht haben.

Hier ist die Geschichte hinter der Studie, einfach erklärt:

🎭 Der Held: Ein KI-Assistent namens KICoPro

Die Forscher haben eine Software entwickelt, die wie ein Chatbot funktioniert. Sie nennen sie KICoPro. Die Idee ist genial einfach: Sie tippen einen Text ein wie „Zuerst kommt der Kunde, dann prüft der Verkäufer die Bestellung, und wenn alles okay ist, wird sie verpackt", und die KI malt sofort ein professionelles Flussdiagramm (BPMN) daraus.

Das Ziel war, dass auch Leute, die keine Diagramm-Zeichen-Experten sind, solche Pläne erstellen können.

🔍 Die Prüfung: Experten am Test

Die Forscher haben nicht einfach nur den Code geprüft. Sie haben sich fünf echte Experten geschnappt – Leute, die seit Jahren jeden Tag solche Diagramme zeichnen. Das ist wie ein Koch, der einen neuen, automatischen Kochroboter testet. Ein Laie würde vielleicht sagen: „Wow, das sieht lecker aus!", aber der Profi weiß sofort: „Die Zwiebeln sind zu grob geschnitten und der Ofen ist zu heiß."

Die Experten haben den Bot über zwei Wochen lang ausgiebig getestet und sich danach in einer Runde zusammengesetzt, um zu reden.

📉 Das Ergebnis: Ein seltsames Gefühl

Das Ergebnis war eine Mischung aus „Ganz okay" und „Eher nicht".

Die Oberfläche ist super (Der freundliche Kellner):
Die Experten fanden die Bedienung sehr einfach. Der Bot war höflich, das Menü war klar, und man konnte sich gut mit ihm unterhalten.
- Analogie: Es ist wie in einem schicken Restaurant. Der Kellner ist freundlich, das Menü ist übersichtlich, und man fühlt sich willkommen. Die Benutzerfreundlichkeit war gut (ca. 67 von 100 Punkten).
Das Essen ist unzuverlässig (Der kochende Roboter):
Aber sobald es um das eigentliche Ergebnis ging – das gezeichnete Diagramm – wackelte das Vertrauen. Die Experten hatten das Gefühl: „Ich kann dem Bot nicht ganz trauen."
- Analogie: Wenn der Kellner das Essen bringt, ist es manchmal verbrannt, manchmal fehlen Zutaten, und manchmal hat er die Bestellung völlig falsch verstanden. Das Vertrauen war sehr niedrig (nur ca. 49 von 100 Punkten).

🧠 Die größten Probleme (Die „Aha!"-Momente)

Hier sind die drei Hauptprobleme, die die Experten gefunden haben, mit einfachen Vergleichen:

Das „Was soll ich sagen?"-Problem (Der Prompts-Paradoxon):
Die Experten wussten, was der Bot kann, aber sie wussten nicht genau, wie sie ihm befehlen müssen, damit er es richtig macht.
- Vergleich: Es ist, als würden Sie einem Koch sagen „Mach ein Essen", aber nicht sagen, ob Sie scharf, süß oder vegetarisch wollen. Der Koch versucht es trotzdem, aber das Ergebnis ist oft nicht das, was Sie wollten. Die Nutzer mussten sich mühsam überlegen, wie sie ihre Sätze bauen müssen.
Der „Zu viel auf einmal"-Effekt:
Wenn die Experten einen langen, komplizierten Text eingaben, wurde das Ergebnis oft schlecht.
- Vergleich: Stellen Sie sich vor, Sie geben einem Schüler eine ganze Buchseite voller Matheaufgaben auf einmal. Er wird wahrscheinlich verwirrt sein und Fehler machen. Die Experten mussten den Bot also zwingen, die Aufgabe in kleine Häppchen zu teilen („Chunking"). Das hat aber extra Arbeit gemacht und war anstrengend.
Der „Sturkopf"-Effekt (Keine Rückfragen):
Wenn die Beschreibung unklar war, fragte der Bot nicht nach. Er machte einfach eine Annahme und lieferte ein Ergebnis, das oft falsch war.
- Vergleich: Ein guter Assistent würde fragen: „Meinten Sie mit 'Verpacken', dass Sie die Box zuschnüren oder das Etikett kleben?" Dieser Bot hat das nicht getan. Er hat einfach geraten. Das ist gefährlich in der Arbeitswelt.

🚀 Was kann man damit machen? (Die Zukunft)

Trotz der Probleme haben die Experten fünf tolle Ideen, wie man den Bot in Zukunft nutzen könnte:

Der „Entwurfs-Helper": Für Leute, die keine Experten sind, um einen ersten Entwurf zu bekommen (wie ein Skizzenblock).
Der „Qualitäts-Prüfer": Der Bot könnte fertige Diagramme durchsehen und sagen: „Hey, hier fehlt ein Schritt" oder „Das ist gegen die Firmenregeln".
Der „Fotograf": Man macht ein Foto von einer handschriftlichen Skizze an der Wand, und der Bot wandelt es in ein digitales Diagramm um.
Der „Firmen-Experte": Ein Bot, der nur die internen Regeln der Firma kennt und sich daran hält.
Der „Optimierer": Der Bot schaut sich Prozesse an und sagt: „Hier könnten wir Zeit sparen."

💡 Das Fazit der Forscher

Die wichtigste Erkenntnis dieser Studie ist: Nur weil ein Tool einfach zu bedienen aussieht, heißt das nicht, dass man ihm vertrauen kann.

Die Forscher sagen: Wir müssen KI-Tools nicht nur mit Computern testen (die zählen nur, ob die Grammatik stimmt), sondern wir müssen echte Menschen fragen. Denn im echten Leben zählt das Vertrauen. Wenn ein Experte nicht sicher ist, ob das Diagramm stimmt, wird er das Tool nicht nutzen – egal wie cool die Oberfläche aussieht.

Kurz gesagt: Der Bot ist ein netter Gesprächspartner, aber noch kein verlässlicher Partner für wichtige Entscheidungen. Er braucht mehr Übung und muss lernen, bei Unsicherheit nachzufragen.

Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

🎭 Der Held: Ein KI-Assistent namens KICoPro

🔍 Die Prüfung: Experten am Test

📉 Das Ergebnis: Ein seltsames Gefühl

🧠 Die größten Probleme (Die „Aha!"-Momente)

🚀 Was kann man damit machen? (Die Zukunft)

💡 Das Fazit der Forscher

Titel:

1. Problemstellung und Motivation

2. Methodik

3. Wichtige Ergebnisse

A. Quantitative Ergebnisse

B. Qualitative Ergebnisse (Themenanalyse)

4. Design-Implikationen & Schlussfolgerungen

Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

🎭 Der Held: Ein KI-Assistent namens KICoPro

🔍 Die Prüfung: Experten am Test

📉 Das Ergebnis: Ein seltsames Gefühl

🧠 Die größten Probleme (Die „Aha!"-Momente)

🚀 Was kann man damit machen? (Die Zukunft)

💡 Das Fazit der Forscher

Titel:

1. Problemstellung und Motivation

2. Methodik

3. Wichtige Ergebnisse

A. Quantitative Ergebnisse

B. Qualitative Ergebnisse (Themenanalyse)

4. Design-Implikationen & Schlussfolgerungen

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks