Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 연구의 배경: "그림을 그리는 AI 비서"

상상해 보세요. 당신이 복잡한 업무 절차 (예: "신규 고객 등록 절차") 를 설명하면, AI 가 그걸 듣고 자동으로 정교한 업무 흐름도를 그려준다고 칩시다. 이것이 바로 이 연구에서 만든 **'KICoPro'**라는 도구입니다.

기존에는 이 AI 가 그리는 그림이 '문법적으로 맞는지'만 컴퓨터가 체크했습니다. 하지만 이 연구는 **"사람들이 이 AI 를 믿고 쓸 수 있을까?"**라는 더 중요한 질문을 던졌습니다.

🧪 2. 실험 방법: "전문가들과의 심층 인터뷰"

연구진은 이 도구를 비즈니스 프로세스 전문가 5 명에게 사용하게 했습니다. (전문가 5 명은 적어 보일 수 있지만, 이 분야에서는 깊이 있는 의견을 듣기 위해 충분한 숫자입니다.)

방법: 2 주 동안 직접 사용해 보게 하고, 그 후에 함께 모여 이야기하는 워크숍과 설문을 진행했습니다.

🔍 3. 주요 발견: "친절하지만, 믿을 수는 없는 비서"

결과가 매우 흥미롭습니다. 전문가들의 반응을 비유로 설명하면 다음과 같습니다.

① "접하기는 쉽지만, 지시하는 법을 모름" (Usability vs. Prompting)

비유: 이 AI 비서는 매우 친절하고 깔끔한 카페 점원 같습니다. 주문하는 방법 (채팅) 은 쉽고, 분위기도 좋습니다.
문제: 하지만 "이걸 그려줘"라고 말했을 때, 어떻게 말해야 원하는 그림이 나오는지 전문가들도 헷갈려 했습니다. "너무 자세히 말해야 할까? 아니면 간략하게?" 같은 고민이 생겼습니다.
결과: 사용 자체는 편했지만 (Usability 점수: 67/100), 무엇을 어떻게 말해야 하는지가 명확하지 않아서 답답했습니다.

② "그림의 질이 들쭉날쭉" (Output Quality)

비유: AI 가 그려주는 그림은 짧은 주문에는 완벽하지만, 복잡한 주문 (긴 설명) 을 받으면 중요한 부분을 빼먹거나 엉뚱한 선을 그어 버립니다.
문제: 설명이 길어질수록 AI 가 혼란을 겪어, 전문가들은 직접 그림을 고쳐야 하는 수고를 겪었습니다.

③ "가장 큰 문제: '믿음'의 부재" (Trust Gap)

비유: 이 비서는 매우 예쁘고 말 잘하는 친구지만, 그 친구가 그린 지도를 믿고 길을 갈 수 있을까? 하는 의문이 들었습니다.
결과: 전문가들은 이 도구를 절대 믿지 못했습니다. (신뢰도 점수: 48.8/100).
- "이게 맞을까? 다시 확인해 봐야지"라는 생각이 들 정도로, 정확성에 대한 신뢰가 매우 낮았습니다.
- 특히 "실수할까 봐 두렵다"는 생각이 가장 컸습니다.

④ "질문하지 않는 AI" (Absent Clarification)

비유: 당신이 "점심 메뉴 추천해 줘"라고 했을 때, AI 는 당신의 취향을 묻지도 않고 무작정 메뉴를 추천합니다.
문제: 실제 전문가들은 "이 부분이 애매한데, 어떻게 처리할까?"라고 AI 가 먼저 물어봐 주길 원했습니다. 하지만 AI 는 모르는 척하고 그냥 그림을 그려냈습니다.

💡 4. 전문가들이 바라는 미래 (Use Cases)

전문가들은 이 도구가 완벽해지면 다음과 같이 쓰길 원했습니다.

초보자를 위한 도우미: 그림 그리는 법을 모르는 전문가가 "이렇게 해"라고 말하면 초안을 잡아주는 역할.
품질 검사관: 이미 그려진 그림이 회사 규칙에 맞는지 AI 가 먼저 체크해 주는 역할.
스케치 변환기: 손으로 그린 낙서 사진을 찍으면, AI 가 정교한 그림으로 바꿔주는 역할.

🚀 5. 결론: "기술이 완벽해도, 사람이 믿어야 쓸 수 있다"

이 연구의 가장 중요한 메시지는 다음과 같습니다.

"컴퓨터가 문법적으로 완벽한 그림을 그렸다고 해서, 사람이 그걸 믿고 업무에 쓸 수는 없다."

AI 도구를 만들 때는 단순히 **"오류가 없는지"**를 체크하는 것뿐만 아니라, **"사람이 얼마나 편안하게 느끼고, 얼마나 믿을 수 있는지"**를 함께 연구해야 합니다.

요약하자면:
이 AI 비서는 친절하고 예쁘게 그림을 그리지만, 정확하지 않아서 전문가들이 "이거 진짜 쓸 수 있을까?"라고 의심하고 있습니다. 앞으로는 AI 가 더 많은 질문을 하고, 실수를 인정하며, 전문가의 신뢰를 얻을 수 있도록 개선되어야 한다는 것이 이 논문의 결론입니다.

Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

🎨 1. 연구의 배경: "그림을 그리는 AI 비서"

🧪 2. 실험 방법: "전문가들과의 심층 인터뷰"

🔍 3. 주요 발견: "친절하지만, 믿을 수는 없는 비서"

① "접하기는 쉽지만, 지시하는 법을 모름" (Usability vs. Prompting)

② "그림의 질이 들쭉날쭉" (Output Quality)

③ "가장 큰 문제: '믿음'의 부재" (Trust Gap)

④ "질문하지 않는 AI" (Absent Clarification)

💡 4. 전문가들이 바라는 미래 (Use Cases)

🚀 5. 결론: "기술이 완벽해도, 사람이 믿어야 쓸 수 있다"

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

A. 정량적 결과 (Quantitative Findings)

B. 정성적 결과 (Qualitative Findings)

4. 주요 기여 및 설계 시사점 (Contributions & Design Implications)

5. 의의 및 결론 (Significance & Conclusion)

Human-Centered Evaluation of an LLM-Based Process Modeling Copilot: A Mixed-Methods Study with Domain Experts

🎨 1. 연구의 배경: "그림을 그리는 AI 비서"

🧪 2. 실험 방법: "전문가들과의 심층 인터뷰"

🔍 3. 주요 발견: "친절하지만, 믿을 수는 없는 비서"

① "접하기는 쉽지만, 지시하는 법을 모름" (Usability vs. Prompting)

② "그림의 질이 들쭉날쭉" (Output Quality)

③ "가장 큰 문제: '믿음'의 부재" (Trust Gap)

④ "질문하지 않는 AI" (Absent Clarification)

💡 4. 전문가들이 바라는 미래 (Use Cases)

🚀 5. 결론: "기술이 완벽해도, 사람이 믿어야 쓸 수 있다"

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

A. 정량적 결과 (Quantitative Findings)

B. 정성적 결과 (Qualitative Findings)

4. 주요 기여 및 설계 시사점 (Contributions & Design Implications)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks