Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI 助手を使って、ビジネスの仕組み（フローチャート）を簡単に作れるようになるか？」**というテーマを、実際の専門家たちに試してもらって検証した研究です。

まるで**「料理のレシピを AI に頼んで、美味しい料理ができるか？」**を試すような実験だと想像してください。

以下に、専門用語を排して、わかりやすい比喩を使って解説します。

🍳 実験の舞台：KICoPro（キコプロ）という「AI 料理人」

研究者たちは、KICoProという新しい AI ツールを開発しました。
これは、ユーザーが「お昼ご飯の準備は、まず野菜を切って、次に肉を焼いて…」と自然な言葉で話しかけると、AI が自動的に「ビジネスフロー図（BPMN）」という専門的な図面を描いてくれるシステムです。

「専門家じゃなくても、誰でも簡単に図面が描けるようになる！」
これがこのツールの夢（目標）でした。

👨‍🍳👩‍🍳 検証者：5 人の「プロのシェフ」

この実験には、5 人の**「ビジネスフロー図のプロ（専門家）」**に参加してもらいました。
彼らは、普段からこの図面を描く仕事をしているベテランたちです。

なぜプロに試させたのか？
- 初心者が「なんとなく面白い」と感じるだけでは不十分だから。
- プロは、AI が作った図の「微妙な不備」や「プロの常識に反する点」を見抜くことができるからです。
- 彼らが「これは仕事に使える！」と言わない限り、このツールは実用化されません。

🔍 実験の結果：「使いやすさ」と「信頼性」のギャップ

実験の結果、面白い（そして少し悲しい）矛盾が発覚しました。

1. 「使いやすさ」はそこそこ良い（⭐⭐⭐⭐）

感想： 「チャットで会話するだけだから、操作は簡単で楽しい！」
スコア： 100 点満点中 67 点（基準値に近い）。
比喩： 「料理人の手つきは滑らかで、包丁の持ち方も完璧。会話も楽しい。」

2. 「信頼性」は低い（⭐⭐）

感想： 「でも、描いてもらった図をそのまま使えるか？というと、怪しい。」
スコア： 100 点満点中 48 点（基準値の 60 点を大きく下回る）。
比喩： 「でも、その料理を食べてみると、塩味が抜けていたり、火が通っていなかったりする。プロのシェフは『これ、本物か？』と疑ってしまいます。」

🚨 最大の課題：「信頼のギャップ」
「操作は簡単なのに、結果が信頼できない」という状態です。プロのシェフたちは、「この AI 助手に任せて、お客様に出せるか？」と首を傾げています。

🧩 具体的に何が問題だったのか？（7 つの発見）

プロたちが見つけた問題は、以下のようなものでした。

魔法の言葉（プロンプト）がわからない
- 「何と書けばいい図が描けるか」がわからない。
- 比喩： 「『美味しい料理を作って』と言っても、AI は『何の料理？』と聞かないまま、適当な料理を出してくる。ユーザーは『もっと詳しく言わないとダメなんだ』と悩む。」
長い説明は苦手
- 複雑なプロセスを一度に話すと、AI は半分しか理解できない。
- 比喩： 「長い物語を話すと、AI は『あ、最初の 3 行だけ覚えてた』と、途中から話を忘れる。」
修正が不安定
- 「ここを直して」と頼んでも、別の場所を壊したり、直してくれなかったりする。
- 比喩： 「『塩を少し足して』と言ったのに、AI は『砂糖を全部入れちゃった』と、別のところをいじってしまう。」
疑問を投げかけない
- 説明が曖昧なとき、AI は「それ、どういう意味？」と聞かず、勝手に推測して図を描いてしまう。
- 比喩： 「注文が曖昧なとき、料理人は『何にしますか？』と聞かず、勝手に『唐揚げ』を出してくる。でも、客は『寿司が食べたかった』と言いたかった。」
プロのルールを守らない
- 会社の決まりや、図面の標準ルールを無視することがある。
- 比喩： 「プロの料理人は『盛り付けは左から右』というルールがあるが、AI は『右から左』に盛り付けてしまう。」

💡 プロたちが考えた「未来の使い道」

このツールが完璧になれば、以下のような使い方ができると期待されています。

新人のサポート： 図面を描くのが苦手な人が、まず「下書き」を AI に作ってもらい、プロがそれを修正する。
品質チェック： すでに描かれた図面を AI がチェックして、「ここがルール違反ですよ」と指摘する。
手書きの読み取り： 紙に描いた落書きを写真に撮ると、AI がきれいな図面に変換してくれる。
社内データベース化： 会社の過去の業務パターンを学習させ、「似たような業務なら、このパターンでどう？」と提案する。

🎯 結論：人間中心の評価が必要

この研究が伝えたいのは、**「AI の性能を数値で測るだけではダメ」**ということです。

自動テスト： 「文法は正しいか？図が崩れていないか？」をチェックする。
人間中心の評価： 「プロが本当に信頼して使えるか？仕事の流れに溶け込むか？」をチェックする。

今回の実験では、AI は「文法は正しい」けれど、「プロの信頼を得るにはまだ不十分」でした。
「使いやすくて楽しい AI」を作るだけでなく、「プロが安心して任せられる AI」にするためには、もっと深く人間の声を聞く必要がある、というのがこの論文のメッセージです。

一言でまとめると：
「AI 料理人は包丁の使い方は上手いけど、味付けがまだ不安定。プロのシェフが『これ、本物か？』と疑う前に、もっと『味見（人間中心の評価）』を重ねて、信頼できる味に仕上げよう！」

Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

🍳 実験の舞台：KICoPro（キコプロ）という「AI 料理人」

👨‍🍳👩‍🍳 検証者：5 人の「プロのシェフ」

🔍 実験の結果：「使いやすさ」と「信頼性」のギャップ

1. 「使いやすさ」はそこそこ良い（⭐⭐⭐⭐）

2. 「信頼性」は低い（⭐⭐）

🧩 具体的に何が問題だったのか？（7 つの発見）

💡 プロたちが考えた「未来の使い道」

🎯 結論：人間中心の評価が必要

論文サマリー：LLM ベースのプロセスマーディング・コパイロットの人間中心評価

1. 研究の背景と課題 (Problem)

2. 研究方法 (Methodology)

3. 主要な結果 (Key Results)

定量的結果

定性的結果（7 つの主要テーマ）

想定されるユースケース

4. 主要な貢献と示唆 (Contributions & Implications)

学術的・実務的貢献

限界

5. 結論 (Significance)

Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

🍳 実験の舞台：KICoPro（キコプロ）という「AI 料理人」

👨‍🍳👩‍🍳 検証者：5 人の「プロのシェフ」

🔍 実験の結果：「使いやすさ」と「信頼性」のギャップ

1. 「使いやすさ」はそこそこ良い（⭐⭐⭐⭐）

2. 「信頼性」は低い（⭐⭐）

🧩 具体的に何が問題だったのか？（7 つの発見）

💡 プロたちが考えた「未来の使い道」

🎯 結論：人間中心の評価が必要

論文サマリー：LLM ベースのプロセスマーディング・コパイロットの人間中心評価

1. 研究の背景と課題 (Problem)

2. 研究方法 (Methodology)

3. 主要な結果 (Key Results)

定量的結果

定性的結果（7 つの主要テーマ）

想定されるユースケース

4. 主要な貢献と示唆 (Contributions & Implications)

学術的・実務的貢献

限界

5. 結論 (Significance)

関連論文

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks