Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

Each language version is independently generated for its own context, not a direct translation.

这篇文章讲述了一项关于**“用 AI 助手来画业务流程图”**的研究。想象一下，你有一个超级聪明的机器人助手（AI），你只需要用大白话告诉它：“我们要怎么把产品从仓库送到客户手里”，它就能自动画出一张专业的流程图（BPMN）。

听起来很美好，对吧？但这篇论文就像是一次**“专家体检”**，作者找来了 5 位画流程图的老手（专家），让他们试用这个 AI 助手，看看它到底好不好用。

以下是用大白话和比喻为你解读的核心内容：

1. 核心发现：长得“讨喜”，但“不靠谱”

研究结果发现了一个很有趣的矛盾，就像一个长得帅、说话好听的实习生，但干活经常出错。

好用度（Usability）：67 分（及格偏上）
专家们觉得这个 AI 助手界面很友好，聊天界面像微信一样简单，上手很快。大家觉得它“不笨”，聊天挺顺畅。
信任度（Trust）：48 分（不及格）
这是最大的问题。虽然大家觉得它“好说话”，但不敢把活儿全交给它。专家们的心理是：“这玩意儿挺好玩，但我不能信它画出来的图是对的。”
最担心的点：可靠性
专家们最头疼的是：“你画的东西，我能不能直接拿去用？” 答案通常是“不行，我得重新检查一遍，甚至重画。”

2. 专家们遇到了什么“坑”？（七大痛点）

如果把 AI 比作一个刚入职的实习生，它犯了以下错误：

🗣️“听懂了，但不知道咋干”（提示词悖论）
专家知道要让它画图，但不知道怎么说话它才能画对。就像你让实习生“把房间收拾好”，他可能把桌子搬了，但没擦窗户。专家得绞尽脑汁想怎么描述，这反而增加了工作量。
⏳“太慢了，打断思路”
画一张图要等很久。就像你在写文章时，每写一句话都要等电脑转圈，灵感早就断了。
🧩“长篇大论就晕菜”
如果你给它一段很长的流程描述，它经常**“断片”**，只画出其中一小部分，或者漏掉关键步骤。
🛠️“改起来很费劲”
你想让它“把这里加个审批环节”，它可能加错了地方，或者把原本没动的地方给改坏了。就像你让修理工换个灯泡，结果他把墙砸了。
🤔“不懂装懂，不问问题”
这是最致命的。如果你描述得模糊，它不会问你“这里具体是指什么？”，而是直接瞎猜，然后画出一个看似完整但逻辑错误的图。真正的专家会问：“老板，这个环节是必须的吗？”
📏“不守规矩”
每个公司画图都有规矩（比如箭头怎么连、标签怎么写）。这个 AI 经常乱画，不符合公司的标准，导致大家还得手动改回来。

3. 专家们的“生存智慧”与“未来幻想”

面对这个不完美但聪明的助手，专家们想出了对策，也描绘了未来：

🍱“分块喂食法”（Chunking）
既然它记不住长文章，专家就把大流程拆成小段，一段一段地喂给它。但这就像喂大象吃草，得一口一口喂，虽然有效，但人太累了。
🚀 他们希望 AI 能变成这样的角色：
1. 新手教练：帮不懂画图的业务人员（专家）画个初稿，解决“面对白纸发呆”的问题。
2. 质检员：帮老手检查现有的图有没有画错，有没有违反公司规定。
3. 翻译官：能把手绘的草图照片直接变成标准的流程图（这个功能大家特别想要）。
4. 本地专家：最好能装在公司内部服务器上，学习公司过去所有的流程图，这样它才懂公司的“黑话”和规矩。

4. 总结：我们需要什么样的 AI？

这篇论文告诉我们一个道理：光看 AI 画得“像不像”（自动测试）是不够的，还得看人“敢不敢用”（人类体验）。

目前的 AI 就像是一个**“有才华但缺乏经验的初级绘图员”**：

它界面友好，让人愿意尝试。
但它缺乏常识，不懂追问，也不懂公司的规矩。
它不可靠，专家不敢直接信任它的产出。

未来的方向：
我们需要给这个 AI 装上**“提问的嘴”（遇到不懂的主动问人）、“记忆的大脑”（记住公司的规矩）、以及“分步思考的能力”**（不要一次画完，要一步步确认）。

一句话总结：
现在的 AI 绘图助手是个**“好聊天的实习生”，但离成为“靠谱的绘图专家”**还有很长的路要走。在完全信任它之前，人类专家还得拿着放大镜在旁边盯着。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《基于大语言模型（LLM）的流程建模 Copilot 的人本评估：一项与领域专家的混合方法研究》的详细技术总结。

1. 研究背景与问题 (Problem)

背景：大型语言模型（LLM）正被集成到业务流程管理（BPM）工具中，旨在通过自然语言描述生成业务流程模型和符号（BPMN），从而降低非专家使用流程建模工具的门槛。现有的系统（如 KICoPro, ProMoAI 等）展示了将文本转换为 BPMN 模型的潜力。
核心问题：
- 评估缺失：现有的评估主要依赖于自动化的基准测试（关注语法、语义和实用性质量），缺乏对人本因素（如信任度、可用性、专业工作流的契合度）的深入评估。
- 执行鸿沟（Gulf of Execution）：用户可能知道目标（生成模型），但不知道如何构建提示词（Prompt）以获得可靠结果，导致认知负荷增加。
- 信任危机：在专业领域，如果模型生成的 BPMN 不可靠，专家将难以信任并采纳该工具。
研究目标：填补自动化基准测试与人本评估之间的空白，通过混合方法研究，评估 LLM 驱动的 BPMN Copilot 在领域专家眼中的可用性、信任度及实际表现。

2. 研究方法 (Methodology)

本研究采用混合方法（Mixed-Methods），结合了定性焦点小组和定量问卷调查，对象为5 名业务流程建模领域的专家（来自同一组织，具有丰富 BPMN 经验）。

研究对象：
- 5 名专家（ $n=5$ ），年龄跨度 20-60 岁，每周花费大量时间处理 BPMN 模型。
- 所有参与者均熟悉聊天机器人系统。
评估工具：
- KICoPro 系统：一个基于 Web 的对话式 BPMN 建模原型。用户通过自然语言描述流程，系统生成并允许迭代修改 BPMN 模型。
- Chatbot 可用性问卷 (CUQ)：16 项量表，评估对话界面的个性、引导、导航、理解和错误处理（基准分为 68/100）。
- AI 信任量表 (TAI)：8 项量表，评估功能信心、可预测性、可靠性、安全性等（转换为 0-100% 分数）。
- 工具特定质量评估：8 项自定义问卷，评估文本理解、流程表示、修改处理等专业能力。
评估流程：
1. 启动阶段：介绍工具并收集预期。
2. 自主探索（2 周）：参与者使用工具处理两个不同复杂度的流程描述，并自由探索。
3. 焦点小组（3.5 小时）：面对面讨论界面可用性、BPMN 质量、局限性及潜在用例。
4. 问卷调查（30 分钟）：收集量化数据。
数据分析：
- 定量：描述性统计（均值、标准差），鉴于样本量小，不进行显著性检验，而是寻找模式。
- 定性：基于 Braun & Clarke 的六阶段主题分析法，对焦点小组记录和开放性问题进行编码和主题归纳。

3. 关键贡献 (Key Contributions)

揭示了“可用性 - 信任”差距（Usability-Trust Gap）：
- 研究发现，尽管用户认为界面直观易用（可用性得分接近基准），但对输出结果的信任度显著较低。这表明良好的交互体验并不等同于专业场景下的可靠信任。
识别了专家视角下的关键痛点：
- 提示词悖论：用户知道目标，但不知道如何构建提示词（如细节与简洁的平衡、多部分流程的结构化）。
- 缺乏澄清对话：LLM 未能针对模糊输入提出澄清问题，而是基于隐含假设生成结果，这在专业建模中是不可接受的。
- 修改不可靠：对模型的修改请求经常导致意外的连接或无法识别不支持的元素（如泳道、消息流）。
提出了具体的设计启示：
- 包括提示词引导、渐进式披露（支持分块处理）、主动澄清机制、企业规范配置以及置信度沟通。
定义了 5 种潜在用例：
- 从辅助非建模专家、质量检查机器人、图像转 BPMN、企业本地化部署到流程优化支持。

4. 主要研究结果 (Results)

定量结果

可用性 (CUQ)：平均得分 67.2/100（略低于 68 的基准线）。
- 优点：界面直观、易于上手、无友好性问题。
- 缺点：对系统目的的解释不够清晰，用户输入理解存在不确定性。
信任度：平均得分 48.8%（显著低于建议的 60% 阈值）。
- 可靠性 (Reliability) 得分最低 (1.8/5)，是专家最大的担忧。
- 用户认为系统“意图良好”但“输出不一致”。
任务质量：平均得分 54.4%。
- 细节程度评分最高，但文本理解、修改处理和流程顺序的正确性得分较低且变异性大。

定性结果 (七大主题)

直观的界面与不透明的提示：界面简单，但提示词构建困难（执行鸿沟）。
响应延迟：生成和修改的延迟破坏了专业建模的迭代节奏。
输出质量参差不齐：长文本描述往往导致模型质量下降，仅捕捉部分流程。
分块策略 (Chunking)：专家被迫将复杂流程拆分为小块输入，增加了认知负荷。
修改不精确：修改请求常导致意外连接，且系统未明确告知不支持的元素。
缺乏澄清对话：LLM 未能在模糊时提问，而是直接生成（基于假设）。
违反规范：生成的模型常违反 BPMN 2.0 标准或企业特定的建模规范。

负面用例

长且复杂的流程描述效果不佳。
从记忆中重构已知流程困难。
对于处理复杂流程的专家，工具反而降低了工作效率。

5. 意义与结论 (Significance & Conclusion)

人本评估的必要性：研究证明，仅靠自动化基准测试不足以评估 LLM 在专业领域的应用。必须结合人本评估来揭示交互中断、信任校准需求以及与专业实践的契合度。
信任校准：在专业领域，可靠性是信任的核心。如果 LLM 不能保证输出的一致性和正确性，即使界面再友好，也难以被专家采纳。
未来方向：
- 系统应具备主动澄清能力，在生成前确认模糊信息。
- 需要企业规范配置，使模型符合特定组织的标准。
- 应提供置信度提示，明确告知用户哪些部分可能不可靠，以便人工复核。
- 评估框架应包含自动化技术评估与人本实践调查的双重维度。

总结：该论文通过严谨的混合方法研究，指出了当前 LLM 驱动的流程建模工具在从“技术可行”迈向“专业可用”过程中面临的关键障碍——即高可用性与低信任度之间的矛盾，并强调了通过人本设计（如主动澄清、规范配置）来解决这一矛盾的重要性。

Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

1. 核心发现：长得“讨喜”，但“不靠谱”

2. 专家们遇到了什么“坑”？（七大痛点）

3. 专家们的“生存智慧”与“未来幻想”

4. 总结：我们需要什么样的 AI？

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要研究结果 (Results)

定量结果

定性结果 (七大主题)

负面用例

5. 意义与结论 (Significance & Conclusion)

类似论文

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks