Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

本研究通过混合方法评估了面向领域专家的 LLM 驱动 BPMN 建模助手,揭示了其在可用性尚可但信任度与可靠性不足之间的关键矛盾,并强调了人机协同评估对补充自动化基准测试的重要性。

Chantale Lauer, Peter Pfeiffer, Nijat Mehdiyev

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章讲述了一项关于**“用 AI 助手来画业务流程图”**的研究。想象一下,你有一个超级聪明的机器人助手(AI),你只需要用大白话告诉它:“我们要怎么把产品从仓库送到客户手里”,它就能自动画出一张专业的流程图(BPMN)。

听起来很美好,对吧?但这篇论文就像是一次**“专家体检”**,作者找来了 5 位画流程图的老手(专家),让他们试用这个 AI 助手,看看它到底好不好用。

以下是用大白话和比喻为你解读的核心内容:

1. 核心发现:长得“讨喜”,但“不靠谱”

研究结果发现了一个很有趣的矛盾,就像一个长得帅、说话好听的实习生,但干活经常出错

  • 好用度(Usability):67 分(及格偏上)
    专家们觉得这个 AI 助手界面很友好,聊天界面像微信一样简单,上手很快。大家觉得它“不笨”,聊天挺顺畅。
  • 信任度(Trust):48 分(不及格)
    这是最大的问题。虽然大家觉得它“好说话”,但不敢把活儿全交给它。专家们的心理是:“这玩意儿挺好玩,但我不能信它画出来的图是对的。”
  • 最担心的点:可靠性
    专家们最头疼的是:“你画的东西,我能不能直接拿去用?” 答案通常是“不行,我得重新检查一遍,甚至重画。”

2. 专家们遇到了什么“坑”?(七大痛点)

如果把 AI 比作一个刚入职的实习生,它犯了以下错误:

  • 🗣️“听懂了,但不知道咋干”(提示词悖论)
    专家知道要让它画图,但不知道怎么说话它才能画对。就像你让实习生“把房间收拾好”,他可能把桌子搬了,但没擦窗户。专家得绞尽脑汁想怎么描述,这反而增加了工作量。
  • ⏳“太慢了,打断思路”
    画一张图要等很久。就像你在写文章时,每写一句话都要等电脑转圈,灵感早就断了
  • 🧩“长篇大论就晕菜”
    如果你给它一段很长的流程描述,它经常**“断片”**,只画出其中一小部分,或者漏掉关键步骤。
  • 🛠️“改起来很费劲”
    你想让它“把这里加个审批环节”,它可能加错了地方,或者把原本没动的地方给改坏了。就像你让修理工换个灯泡,结果他把墙砸了。
  • 🤔“不懂装懂,不问问题”
    这是最致命的。如果你描述得模糊,它不会问你“这里具体是指什么?”,而是直接瞎猜,然后画出一个看似完整但逻辑错误的图。真正的专家会问:“老板,这个环节是必须的吗?”
  • 📏“不守规矩”
    每个公司画图都有规矩(比如箭头怎么连、标签怎么写)。这个 AI 经常乱画,不符合公司的标准,导致大家还得手动改回来。

3. 专家们的“生存智慧”与“未来幻想”

面对这个不完美但聪明的助手,专家们想出了对策,也描绘了未来:

  • 🍱“分块喂食法”(Chunking)
    既然它记不住长文章,专家就把大流程拆成小段,一段一段地喂给它。但这就像喂大象吃草,得一口一口喂,虽然有效,但人太累了。
  • 🚀 他们希望 AI 能变成这样的角色:
    1. 新手教练:帮不懂画图的业务人员(专家)画个初稿,解决“面对白纸发呆”的问题。
    2. 质检员:帮老手检查现有的图有没有画错,有没有违反公司规定。
    3. 翻译官:能把手绘的草图照片直接变成标准的流程图(这个功能大家特别想要)。
    4. 本地专家:最好能装在公司内部服务器上,学习公司过去所有的流程图,这样它才懂公司的“黑话”和规矩。

4. 总结:我们需要什么样的 AI?

这篇论文告诉我们一个道理:光看 AI 画得“像不像”(自动测试)是不够的,还得看人“敢不敢用”(人类体验)。

目前的 AI 就像是一个**“有才华但缺乏经验的初级绘图员”**:

  • 界面友好,让人愿意尝试。
  • 但它缺乏常识,不懂追问,也不懂公司的规矩。
  • 不可靠,专家不敢直接信任它的产出。

未来的方向
我们需要给这个 AI 装上**“提问的嘴”(遇到不懂的主动问人)、“记忆的大脑”(记住公司的规矩)、以及“分步思考的能力”**(不要一次画完,要一步步确认)。

一句话总结
现在的 AI 绘图助手是个**“好聊天的实习生”,但离成为“靠谱的绘图专家”**还有很长的路要走。在完全信任它之前,人类专家还得拿着放大镜在旁边盯着。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →